初心者でも高品質なアニメ画を作れる生成AI技術を開発
北陸先端科学技術大学院大学 早稲田大学 |
初心者でも高品質なアニメ画を作れる生成AI技術を開発
ポイント
- 一般ユーザの創造性の障壁を取り除くために、ラフなスケッチから高品質のアニメの肖像画を作成する生成系人工知能(生成AI)の新たなフレームワークを提案しました。
- 提案フレームワークを基に、制作過程でガイダンス(アニメ画の完成予想図)を画面に表示する機能を有するユーザインターフェースを開発しました。これによって、ユーザの創作意図に沿ったアニメ画の生成を実現しました。
アニメ画などの芸術作品は抽象的な性質を有するため、単純に生成AIを用いてもユーザの意図に沿った高品質なアニメ肖像画を生成することは困難です。特に、一般ユーザによるラフなスケッチは、制作途中で全体的なバランスや各パーツの詳細情報を欠くため、生成系AIの手法を取り入れることは一層挑戦的な課題になります。この課題に取り組むため、北陸先端科学技術大学院大学(JAIST)創造社会デザイン研究領域の謝 浩然准教授、Zhengyu Huang博士後期課程修了生、宮田 一乘教授、および、早稲田大学理工学術院の福里 司講師らの研究チームは、初心者でもプロレベルのアニメ画を作成できる生成AI技術を開発しました。 |
【研究の背景と経緯】
日本のアニメーション作品は、世界中で評価されるような身近な芸術作品であり、初心者といえども、自らアニメ画を描きたいと考えるケースは非常に多いです。一方で、アニメ画の作成は、絵コンテや設定資料を基に、立体的かつ高度に抽象化されたキャラクタを描く力や、頭の中に思い浮かんだものを再現する表現力などが求められる、初心者にとっては非常に困難なタスクとなっています。
このような背景から、近年、生成系人工知能(生成AI)を応用し、ラフなスケッチ画から高品質なアニメ画を自動生成する方法が模索されてきました。しかし、ユーザが描くラフなスケッチは、描きたいアニメ画の完成図を予測するための情報が不足しているため、創作意図に沿った高品質な画像を生成することが非常に難しいです。さらに、ユーザが満足するアニメ画を生成するには、ユーザによる試行錯誤(例:ユーザによる加筆と生成AIによる画像出力の繰り返し)が必要不可欠であるものの、既存の生成AIはスケッチの制作過程が考慮されておらず、加筆前と加筆後での出力結果が異なってしまいます。その結果、生成AIは、アニメ画のような芸術作品の生成には不向きと言わざるをえませんでした。
この問題に取り組むために、北陸先端科学技術大学院大学(JAIST)と早稲田大学の研究チームは、制作過程における線の描き方をシミュレートし、ラフなスケッチから高品質なアニメ画を生成する新たな生成AI技術の開発を試みました(図1)。本技術は、深層学習フレームワークに基づいており、創作プロセスと生成AIにおける潜在空間の探索処理をします。また、最新の高解像度画像生成モデルであるStyleGAN[用語解説]を利用し、二段階の訓練法を採用しました。
【研究の内容】
提案手法では、線の描き方(ストローク)によって、生成AIの出力結果をコントロールするために、前述の生成AI「StyleGAN」の潜在空間[用語解説]にて、スケッチのストローク情報とアニメ画の輪郭線(黒線)に関連づける技術「stroke-level disentanglement」を新たに考案しました(図2)。これにより、ユーザは意味的なラベル情報の代わりに、ストロークを描くだけで出力結果(アニメ画)の局所的な輪郭線特性と自動マッチングさせ、出力結果の一致性に大きく関与できます。さらに、一本のストロークに対するdisentangledな表現[用語解説]を実現するために、教師なし学習フレームワークを導入しました。
提案技術における二段階の訓練方法の詳細としては、はじめに、事前訓練された生成AIを基に、画像エンコーダ(= 出力アニメ画に対する潜在変数の推定)の訓練を行いました。次に、生成されるアニメ画の輪郭線を描画するための工程(例:右目、左目、口の輪郭線を順番で描く)を擬似的にシミュレートすることで、描き途中のスケッチに対する画像エンコーダ(= ストロークから潜在変数の推定)の訓練を追加データなしで行いました。これにより、たとえユーザが絵を描く途中段階であっても、ストロークのdisentangledな表現に合致しつつ、高品質な画像を安定的に生成することが可能となりました。
提案の生成AI技術を検証するためアニメ肖像画の制作インターフェース「AniFaceDrawing」を開発し、その有用性を評価しました。ユーザスタディとして15名の大学院生を対象に、AniFaceDrawingを使用してアニメスタイルの肖像画を自由に制作してもらいました。なお、ユーザはスケッチを描く際、アニメ絵の完成予想図に対するガイダンスのモード切り替えが可能です(大域的な情報の可視化、または詳細部の可視化)。これにより、被験者は、表示されたガイダンスが自分の望む結果に合致したらそのタイミングで「ピン留め」の作業を行い、この作業を繰り返しながら入力スケッチをさらに洗練させることができます。また、参照画像を選択することで、生成されるアニメ肖像画にカラー情報を付与することも可能です。最後に、被験者に対しアンケート調査を実施した結果、被験者は、(1)生成結果に対する満足度や、(2)ユーザが描く線画と生成されたガイダンスのマッチング率において、提案インターフェースを高く評価しました。
本研究成果は、2023年8月6日から10日にかけて米国のロサンゼルスで開催の、コンピュータグラフィックスとインタラクティブ技術のトップカンファレンス「ACM SIGGRAPH 2023」で発表されます。発表論文は、2023年7月23日にACM Digital Libraryで公開されました。
なお本研究は、日本学術振興会(JSPS)科研費若手研究(JP20K19845および JP19K20316)、公益財団法人栢森情報科学振興財団の研究助成を受けて実施しました。
【今後の展開】
提案の生成AI技術によって、たとえ初心者であっても、制作インターフェースを最大限活用することで、ラフなスケッチからユーザが望む高品質なアニメ画を生成することが可能となりました。また、本手法では、スケッチの描き順に依存せず、制作プロセス全体で一貫して高品質なアニメ画を生成できることが確認できました。
長期的には、本研究結果は生成AI技術の普及に貢献し、ユーザの創造的活動を支援することで、身体性に紐づけされたスキルの障壁をなくし、人間の創造的能力を最大限に拡張することが期待されます。
【論文情報】
論文題目 | AniFaceDrawing: Anime Portrait Exploration during Your Sketching |
発表先 | ACM SIGGRAPH 2023 |
著者 | Zhengyu Huang*, Haoran Xie*, Tsukasa Fukusato**, Kazunori Miyata* * 北陸先端科学技術大学院 先端科学技術研究科 ** 早稲田大学 理工学術院 |
DOI | https://doi.org/10.1145/3588432.3591548 |
解説動画 | https://youtu.be/GcL67h8QEOY |
解説ホームページ | http://www.jaist.ac.jp/~xie/AniFaceDrawing.html |
【用語解説】
StyleGAN:近年注目されている画像生成AIの一つ。画像細部の特徴および潜在空間の非線形変換を利用することで高精度な画像の生成を可能とします。
潜在空間:学習させた画像の特徴量が分布している低次元空間。任意の画像を潜在空間に投影することで画像の生成や編集に活用できます。
disentangledな表現:潜在空間中の各次元が観測データ中の因子や特徴(「色」「形」「大きさ」等)ごとに分かれているような状態となり、一つの次元の特徴を変えても他の要素が同時に変化することが生じません。
【参考資料】
図1.提案の生成AI技術を用いたアニメ画の生成結果の一例
画像生成AIは、細部が欠けている不完全な描画ばかりでなく完全なスケッチからでも画像を生成する際には固有の困難に直面します。提案したシステムは、スケッチ過程全体で一貫して入力スケッチに合致した高品質の結果を生成することができます。図1は、(a) ユーザによる最終的なスケッチ(入力)、(b)詳細モードでのガイダンス(線の色は意味的領域分割の結果)、(c)参照画像選択後の生成結果(カラー画像)を示しています。
図2.手描きスケッチ内のストロークと関連付ける「stroke-level disentanglement」の概要図
図3.開発ユーザインターフェース「AniFaceDrawing」
令和5年8月2日