AIに生成された画像はこちらです。コンピューターに見たいものの簡単な説明を入力し、数秒後に美しいイラスト、スケッチ、または写真がポップアップします。機械学習の力を活用することにより、ハイエンドグラフィックスハードウェアは、最小限の人間の入力で印象的でプロのアートワークを作成できるようになりました。しかし、これはどのようにビデオゲームに影響を与える可能性がありますか?モダンなタイトルは非常にアート集約的であり、テクスチャーとコンセプトアートの無数の作品が必要です。開発者がこの技術を活用できれば、おそらく資産生成の速度と品質が根本的に増加する可能性があります。
しかし、画期的なテクノロジーと同様に、多くの論争もあります。機械学習が高品質の画像を非常に迅速かつ簡単に生成できる場合、アーティストはどのような役割を果たしますか?そして、これらのAIを訓練するために使用されるデータは何ですか?機械学習生成画像が人間の芸術家の作品を効果的に伝えて作成されるという議論はありますか?これらのテクノロジーがある程度の有効性に達すると、取り組むべき主要な倫理的な質問があります。そして、私が見た改善の急速なペースに基づいて、質問は後でよりも早く対処する必要があるかもしれません。
それまでの間、この作品の焦点は、これらのテクノロジーが今どれほど効果的であるかを確認することです。私は、3つの主要なAIジェネレーターの3つを試しました:Dall-E 2、安定した拡散、およびMidjourney。これらのテクノロジーの結果は、以下の埋め込みビデオ(そして実際にこのページの上部のコラージュで)で表示されますが、明確にするために、私はそれらのすべてを生成し、それらのWebポータルを使用するか、それ以外の場合はローカルで直接実行しています。ハードウェア。
現時点では、AIイメージジェネレーターを使用するデフォルトの方法は、「プロンプト」と呼ばれるものです。基本的に、AIに生成したいものを書くだけで、それを作成するのが最善です。たとえば、Dall-E 2を使用すると、それを促す最良の方法は、簡単な説明に加えて、ある種の様式化、または画像をどのように見たいかを示すことです。プロンプトの最後に多くの記述子を取り付けると、AIが高品質の結果をもたらすことがよくあります。
ソフトウェアに動作するベース画像を提供することを伴う別の形式のプロンプトがあり、本質的に新しい画像を作成するためにソフトウェアを導く言葉によるプロンプトが含まれます。現在、これは安定した拡散でのみ利用可能です。他の多くのAI技術と同様に、AI画像生成は、多種多様な入力(この場合、画像のデータベース)をサンプリングし、その作業に基づいたパラメーターを作成することで機能します。幅広いストロークでは、DLSやXessが機能する方法、またはテキストジェネレーターGPT-3などの他の機械学習アプリケーションに似ています。あるレベルでは、AIは、超人的な汎用性と速度でアートを作成する方法を「学習」しています。
少なくとも概念的には、AIアート生成は、そのデータセット、つまり訓練された数十億の画像とキーワードのコレクションによって制限されるべきです。実際には、これらのツールがトレーニングされているため、非常に多くの入力があるため、非常に柔軟になります。最高の状態では、AIが視覚情報を一般的に理解し分類する方法を「学んだ」という意味で、複雑または抽象的なプロンプトにさらされたときに人間のような創造性を示します。さらに、画像ジェネレーターはランダムシードに基づいて出力を生成します。つまり、同じ一連のキーワードが、実行するたびに異なる興味深い新しい結果を生成できることを意味します。
ビデオゲーム業界への肯定的な意味はたくさんあります。たとえば、リマスターはますます一般的になりつつあります。ただし、古いタイトルには技術的な手荷物が詰まっています。いくつかの問題は克服しやすいですが、ソースアートワーク、特にテクスチャを更新すると、これらのゲームに使用されるのは、多くの場合、膨大な努力と時間がかかることがよくあります。そのため、2020年頃からAIのアップスケーリング技術が人気になったとき、彼らはすぐに多種多様なリマスター努力にわたって使用されたのは驚くことではありませんでした。 Chrono Crossのようなゲーム:Radical Dreamers Edition、質量効果Legendary Edition、およびThe Definitive Edition Grand Theft Autoタイトルはすべて、AIアップスケーリングを混合効果に使用しました。 AIのアップスケーリングは、より単純な細部を備えた比較的高品質のソースアートワークを使用する場合に非常にうまく機能しますが、現在のAIアップスケーリングモデルは、低解像度アートと実際に苦労し、アーティファクトにかけられた結果を生み出しています。
しかし、単に詳細を追加しようとするのではなく、まったく新しい資産を生成した場合はどうなりますか?それがAIイメージの生成が登場する場所です。たとえば、Chrono Cross Remasterをご覧ください。オリジナルのゲームのアートワークはかなり低解像度であり、AIのアップスケーリング作業は合理的な仕事をしますが、最終的には少し乱雑に見えます。ただし、ソース画像を安定した拡散にして適切な迅速な材料を追加すると、同様の視覚構成を維持するまったく新しい高品質のアートワークを生成できます。この洞窟エリアは、同じレベルの忠実度で、同じ真菌の形と岩で再描画できます。いくつかのパラメーターを変更することにより、オリジナルに非常に近いものを生成したり、中心近くの経路のように特定の領域を再解釈することでシーンを作り直すピースを生成できます。上のビデオには他の例があります。
3Dゲームの従来のテクスチャも優れたターゲットです。バイオハザード4現在、ほとんどの最新のプラットフォームで実行されていますが、その6世代の時代のテクスチャ作品は非常に乱雑に見えます。モダンなゲームは、テクスチャ作業でより複雑なディテールを描写しようとするため、元のテクスチャをアップスケーリングまたはアップサンプリングするだけではうまくいきません。繰り返しますが、元のテクスチャ資産を入力として使用することにより、はるかに自然な外観のディテールを備えた高品質のアートワークを生成できます。このソフトウェアは、ガイドとしての口頭プロンプトと元の作業を再解釈し、数秒で高い忠実度の結果を生み出します。
もちろん、ゲーム用の元の資産を作成するために同じテクニックを適用できます。写真やイラストなどのソース画像を提供し、ゲーム用の新しいテクスチャアセットまたはアートワークを生成します。または、プロンプトを提供するだけで、AIシステムが画像を直接ガイドすることなくまったく新しいアートを生成できるようにすることもできます。ここでの可能性は事実上無限に見えます。ゲーム業界での資産の作成は、開発リソースに対する大きな制約であり、この種のツールはワークフローを大幅に高速化する可能性があります。
潜在的に、安定した拡散は、これらの種類のアプリケーションにとって非常に強力であると思われます。なぜなら、コンピューターで何百もの画像を簡単に無料で簡単にキューアップし、最良の結果をチェリーピックすることができるからです。 Dall-E 2とMidjourneyは現在、特定のソース画像から作業することを許可していないため、既存のアートを一致させようとすることは、はるかに挑戦的です。安定した拡散には、テクスチャの作成に役立つタイル可能な画像を生成するオプションもあります。
これらのツールは、生産プロセスの早い段階でも使用されていることがわかります。開発中、スタジオには無数のコンセプトアートが必要です。このアートワークは、ゲームの外観を導く傾向があり、ゲームのモデルとテクスチャのリファレンスを提供します。現時点では、これはグラフィックスタブレットのようなデジタルツールを使用して手作業で行われ、非常に労働集約的ですが、AIアートツールは非常に迅速にアートワークを生成できます。いくつかのパラメーターをプラグインすると、何百もの例を簡単に生成することができます。キャラクター、環境、表面 - ある程度のプロンプトといくつかの瞬間の処理時間で生成するのはすべて些細なことです。
重要なコンセプトアートテクニックは、これらのAIワークフローにも変換されます。多くのコンセプトアートは、3Dモデルまたはラフなスケッチを見て、「ペイントオーバー」を行うことによって作られています。 AIに構成を導くためのベース画像を供給することで、まったく同じことをすることができます。基本的なスケッチ、3Dモデル、または最も単純な構成図面でさえ提供できます。それから、高品質のコンセプトアートを作成するために機能します。最も基本的な視覚形状をブロックし、それを口頭でのプロンプトと組み合わせるだけで、構成から必要なものに一致する素晴らしい結果を得ることができます。
印象的な結果は達成可能ですが、現在のAIモデルがほとんど間違いないことを強調することが重要です。実際に複数のアートワークで一貫した美学を解決するのは難しい場合があります。説明的なキーワードの同一のセットでさえ、描写するものに応じてまったく異なる結果をもたらすからです。商業アートワークの異なる領域領域は、さまざまな手法を使用する傾向があり、これはAI出力に反映されます。一貫した見た目の画像を生成するには、プロンプトを慎重に設計する必要があります。そして、それでも、探しているようなものを手に入れるには、チェリーピッキングが必要です。 AIアートは非常に便利なツールのように見えますが、現時点では制限があります。
過去には、私はデジタルアートと、自分のイラストやグラフィックアートを豊富に使用したモーショングラフィックスに取り組んできました。 AI画像生成ツールは、この種の作業に非常に適しているように見えます。また、全体像をリアルタイムで生成できる将来のAIを想像することもできます。現在、これらの手法では、高速GPUでも数秒の処理が必要ですが、おそらく新しいハードウェアと最適化の組み合わせにより、実行時に使用するのに十分な結果が得られる可能性があります。
また、生成された画像を単純に撮影し、従来の画像編集プログラムに接続して、間違いを修正したり、要素を追加または削除したりすることも非常に簡単です。いくつかの小さなタッチアップは、気を散らすAIアーティファクトやエラーを排除できます。将来のAIイメージ生成ソフトウェアはこれよりもさらに印象的である可能性が高いことにも留意してください。これらは正確には第一世代のプロジェクトではありませんが、この分野の研究と製品の開発は最近までやや限られています。より説得力のある一貫した結果をもたらすために、潜在的な「Dall-e 3」または「Stabler拡散」が期待されています。
明らかにこれらの製品は現在うまく機能しているので、どちらが最良の選択肢ですか?品質に関しては、Dall-E 2は抽象的な入力を解釈し、創造的な結果を生成することができます。具体的にしたい場合は、漠然としたプロンプトを与えられて独自のデバイスに任せた場合、AIはしばしば完全にうまく機能します。それは非常に創造的です-Dall -Eは、ゆるいアイデアやテーマに基づいて、概念を賢明に結び付けて引き付けることができます。また、一般的には、一貫した画像を作成するのに非常に優れています。たとえば、正しい数の手足を持っている人間を一貫して生成し、正しい割合で生成します。
安定した拡散には、より多くの手持ちが必要になる傾向があります。現時点では、より一般的な概念を理解するのに苦労していますが、多くのキーワードを供給すると、非常に良い結果も得ることができます。安定した拡散の大きな利点は、その画像プロンプトモードであり、これは非常に強力です。また、設定を上げると、非常に高品質の結果を得ることができます。おそらく現在のAIジェネレーターの中で最高です。
Midjourneyは様式化に非常に優れています - 既存の概念を取り入れて、たとえば特定のタイプの絵画やイラストのようにレンダリングします。また、シンプルなプロンプトと非常にうまく機能し、非常に高品質の結果を提供できますが、おそらく「クリエイティブ」ではないでしょう。 Midjourneyはまた、他の2つのジェネレーターよりも多くのAIアーティファクトを示す傾向があり、多くの場合、正しい割合を維持する問題があります。私の意見では、それは3つのうち最悪です。
から | 安定した拡散 | ミッドジャーニー | |
---|---|---|---|
価格(USD) | 生成された画像あたり0.10ドル | 無料(ローカルで実行するとき) | 無料のティア、無制限の画像のための月あたり30ドルのサブ |
可用性 | 招待のみ | 開ける | 開ける |
アクセス | Webサイト | ウェブサイト/ローカルコンピューター | Webサイト |
ソース | 閉じた | 開ける | 閉じた |
Dall-E 2とMidjourneyは商業的およびWebベースの両方ですが、使いやすい比較的滑らかなWebインターフェイスがあります。 Dall-E 2は残念ながら4月の発売以来招待のみでしたが、必要に応じてウェイトリストに申請できます。一方、安定した拡散は完全に自由でオープンソースです。本当の利点は、安定した拡散がローカルハードウェアで実行され、既存のワークフローに非常に簡単に統合できることです。
これは、いくつかのパフォーマンス分析なしではデジタルファウンドリではありません。 Dall-E 2はMidjourneyよりもかなり速いですが、両方ともWebポータルを介して実行されるため、個人的なハードウェアは問題ではありません。 Dall-E 2は通常、基本的な画像生成には約10秒かかりますが、Midjourneyは1分ほどかかります。安定した拡散を実行すると、ハードウェアと出力の品質レベルに応じて、さまざまな結果が生成されます。
詳細なステップ数が少ない512x512解像度では、モバイルRTX 3080を使用してラップトップに画像を作成するのに3〜4秒しかかかりません。ただし、詳細レベルを上げて解像度を上げ、各画像が30または30またはかかります。解決するために40秒。より高度なサンプラーを使用すると、生成時間を引き上げることもできます。ダウンロードに利用できる安定した拡散の他の多くの実装がありますが、その一部は私が実行していた単純なGUIバージョンとは大きく異なる場合がありますが、パフォーマンス特性は似ているはずです。
安定した拡散を適切に実行するには、できるだけ多くのVRAMを備えた10シリーズ以降のNvidia GPUが必要です。モバイル3080に8GBを使用すると、最大640x640までの画像を生成できますが、もちろん、その後、これらの画像をAIを上昇させることができます。 AMD GPUやAppleシリコンベースのMacコンピューターで実行するための回避策を含む、安定した拡散を稼働させる他の方法がありますが、高速NVIDIA GPUを使用することは、現時点で最も簡単なオプションです。
私の経験に基づいて、AIイメージ生成は驚くほど破壊的な技術です。いくつかの単語を入力して、写真を出してください。それはサイエンスフィクションのものですが、今日はここにあり、非常にうまく機能します - そして、これはほんの始まりに過ぎないことを忘れないでください。この技術のユースケースはすでに豊富ですが、氷山の先端を見ているように感じます。高品質のAI画像生成は短期間で広く利用可能であり、毎日新しく興味深い統合がポップアップしています。特にゲームは、特に技術がより広く理解されるようになるにつれて、多くの可能性を秘めた領域のように思えます。
この時点で最も重要な障壁は価格設定です。 Dall-E 2は使用がかなりコストがかかり、安定した拡散は、ローカルで実行したい場合、基本的にかなり速いNvidia GPUを必要とします。高品質の画像を取得するには、多くの悪い画像を廃棄する必要があることが多いため、AIツールはお金または時間内に高価になる可能性があります。これらのツールはどこまで進むのでしょうか?過去半年ほどの間、AIアートは面白い斬新さにすぎず、商業目的のない粗野で曖昧なイメージを生み出しました。ただし、昨年、具体的には最後の4か月ほどで、いくつかの非常に高品質のAIソリューションのリリースが見られました。 AIの推論が急速に進行し続けるかどうか、または予期せぬ制限があるのかどうかはまだ不明です。最終的には、資産作成のための強力な新しいツールが登場しています。