https://www.famitsu.com/news/202208/27273585.html
2022年8月23日(火)から25日(木)の3日間にわたり開催となった、“CEDEC 2022”(Computer Entertainment Developers Conference 2022)。こちらの記事では、その3日目に行なわれたセッション“機械学習によるリップシンクアニメーション自動生成技術とFINAL FANTASY VII REMAKEのアセットを訓練データとした実装実例”の内容をお届けしていく。
本セッションの講演者は、株式会社スクウェア・エニックスの中田聖人氏(テクノロジー推進部R&Dエンジニア)、グラシア ヒル レアンドロ氏(AI部シニアAIエキスパート)、原龍氏(第一開発事業本部 ディビジョン1 リードアニメーションプログラマー)、岩澤晃氏(第一開発事業本部 ディビジョン1 フェイシャルディレクター)の4名だ。
なお、レアンドロ氏の担当パートは英語音声に日本語字幕の表示という形で進行した。また、講演で紹介する技術はまだ開発中のものであり、まだ将来的な開発タイトルへの本実装が決まっているわけではない点にもご留意いただきたい。
『FF7 リメイク』進化したリップシンク技術を実例付きで紹介。テキスト入力不要でアニメーション生成が可能! 機械学習により別次元のクオリティーへ【CEDEC2022】
当講演では冒頭にふたつの動画が再生された。同じセリフを『ファイナルファンタジーVII リメイク』(以下、『』)の主人公キャラクター・クラウドがしゃべっている動画だ。
並べて比較すると、左の動画のほうはやや口の動きが大げさに見えたり、セリフと合っていない口パクが見られたりなどの点が目立った。それに対して右の動画では、静かな表情と感情にしっくりとくる、セリフとかみ合った口の動きが見られた。
今回の講演で扱う“リップシンクアニメーション”を活用すると、ここまで違いが出るということか。ただ、リップシンクアニメーションの作成には絶対的な課題もある。
全音声、しかも多言語対応となるとボリュームは数倍になる。手作業で追いつくわけがない。
そのため、多くの企業が現在もリップシンクアニメーションの自動生成技術開発に取り組んでいる。スクウェア・エニックスでは従来、“音素”をベースにした“HappySadFace”(以下、HSF)というリップシンクアニメーション作成プログラムを使用していた。しかしこのシステムにも問題がいくつかあり、それを解消すべく新たに“Lip-Sync ML”という、“機械学習”をベースとしたシステムを開発したという。