【動画付き】異次元のクオリティ！OpenAIが発表した最強動画生成AI「Sora」を徹底解説 *12/10更新

*(12/10更新)
2024年12月10日に正式公開された最新情報については、こちらの記事をご覧ください。

2024年2月15日、OpenAIは研究段階である、Text-to-Video(動画生成)モデルAI「Sora」を発表しました。
Soraが生成する動画のクオリティは驚異的で、Text-to-Videoの新しい時代に突入したと言えるでしょう。

https://twitter.com/ctgptlb/status/1758195624846246010?s=20

Soraとは？

「Sora」（日本語の「空」に由来）はOpenAIによって開発された最新の動画生成モデルです。Text-conditional diffusionモデルを用いて様々な長さ、解像度、アスペクト比のビデオおよび画像でトレーニングされ、高解像度のビデオを最大1分間生成できます。

物理世界のシュミレーション

重要な点は、Soraは、物理世界シミュレーターを構築するための有望な方法である点です。OpenAIは、現実世界の相互作用を解析し解決するための学習モデルの開発を目指しており、
AIに物理的な世界の理解とシミュレーションを教える取り組みを進めています。

Soraの性能

異次元の言語理解力

DALL・E 3と同様に、GPTを活用して短いユーザープロンプトをより長い詳細なキャプションに変換し、動画生成モデルに送信します。これにより、Soraはユーザーのプロンプトに正確に従う高品質なビデオを生成できるようになります。

画像から動画生成

画像やビデオによるプロンプト
Soraは、画像とプロンプトの入力をもとに動画を生成できます。この機能により、Soraは、以下のような幅広い画像およびビデオ編集タスクを実行できるようになります。

無限ループするビデオの作成
静止画像のアニメーション化
ビデオの前後方向への拡張

生成されたビデオの拡張

Soraは、ビデオを前後に拡張することができます。これにより、ビデオを前方と後方の両方に拡張して、シームレスな無限ループ動画などを生成できます。

動画間の編集

SDEditと呼ばれる手法を適用し、Soraは入力動画のスタイルや背景などをゼロショットプロンプトで変換することができます。

二つ以上の動画を繋げる

Soraは、2つの入力ビデオ間を徐々に補間し、全く異なる主題やシーン構成を持つビデオ間にシームレスなトランジションを作成することもできます。

画像生成機能

Soraは画像を生成することもできます。これを行うには、ガウスノイズのパッチを1フレームの時間範囲で空間グリッドに配置します。このモデルは、最大2048x2048の解像度まで、さまざまなサイズの画像を生成することができます。

シミュレーション機能

3Dの一貫性： Soraは動くカメラを含む動画で、人物やオブジェクトを3D空間内で一貫して動かすことができます。

長距離コヒーレンスとオブジェクト永続性： Soraは時間を通じてオブジェクトを追跡し、長いビデオで一貫性を保つことができます。

世界との交流： Soraは世界に影響を与えるアクション（例：ペインティング、食べ物を食べる）をシミュレートできます。

デジタル世界のシミュレーション： Soraはビデオゲームの世界を高忠実度で再現し、制御することができます。

Soraの技術

Soraの核心技術は、ビデオと画像データをSpacetime patches(時空間パッチ)に変換し、それらをディフュージョンモデルでトレーニングしていることです。このプロセスにより、ビデオ生成の柔軟性と品質が格段に向上します。

Spacetime patches(時空間パッチ)について：

Soraは、画像や動画を低次元潜在空間に圧縮し、それを小さなパッチに分割します。
これらのパッチは、トレーニングプロセス中にトランスフォーマーモデルの入力として使用されます。
これにより、ビデオの各フレームをより詳細に理解し再構築するのに役立ちます。

ディフュージョンモデルについて：

ノイズを加えたパッチから元の「クリーン」なパッチを予測することで、Soraは高品質なビデオを生成します。
このアプローチは、ビデオの細部まで忠実に再現する能力を持ちます。
複雑なシーンや動きも自然に表現できます。

Soraの技術革新は、ビデオ生成をより自然でリアルなものに変えるだけでなく、様々なフォーマットや解像度にも柔軟に対応します。このアプローチにより、従来のビデオ生成モデルの制約を克服し、新たな創造の可能性を開きます。

Soraの課題点

現在のモデルは、以下のような弱点を持っています：

複雑な空間を正確にシミュレート
物事の因果関係の理解
プロンプトの空間的詳細を混同する
時間の経過に伴う出来事の正確な描写

以下は、ガラスの粉砕など、多くの基本的な相互作用の物理学を正確にモデル化できていない例です。

Soraの安全性に関する考慮事項

OpenAIは、SoraをOpenAIのユーザーに提供する前にモデルをテストするため、「レッドチーム(セキュリティの脆弱性を検証するためなどの目的で設置された、その組織とは独立したチーム)」と協力を開始しています。チームは、誤情報、憎悪的な内容、偏見に精通したドメインの専門家で構成されています。

リリースにおいて、OpenAIは「DALL-E3」で構築した安全対策を活用するだけでなく、Soraによって生成されたビデオを特定できる検出分類器を含む、誤解を招くコンテンツを検出するツールの構築にも取り組むと述べています。

将来的にはC2PAメタデータを含め、テキストおよび画像の分類器による監視が行われます。使用ポリシーに違反する入力プロンプトは拒否され、ビデオ出力はフレームごとにレビューされます。

これらの安全対策に加えて、OpenAIは政策立案者、教育者、アーティストと連携し、懸念を理解し、モデルの使用事例を特定するとも述べています。

リリースについて

「Sora」のサービス提供時期は、OpenAIによってまだ明らかになっていません。しかし、リリースされれば、あらゆる産業で大きな変化をもたらすことは間違いありません。今後の動向に注目です。

これからも継続的に ChatGPT/AI 関連の情報について発信していきますので、フォロー (@ctgptlb)よろしくお願いします。この革命的なテクノロジーの最前線に立つ機会をお見逃しなく！

◎ 参考：

https://openai.com/research/video-generation-models-as-world-simulators#fn-32

私たちはSoraのあまりのポテンシャルの高さに興奮しています。
Soraがリリースされた時、Soraの網羅的な攻略noteを執筆予定です。
もしこちらに興味がありましたら、以下のChatGPT公式LINEアカウントからウェイトリストにご登録いただければ、noteリリース時にお知らせします。ぜひご登録ください👇

https://liff.line.me/1661450269-vVVoBGRq/landing?follow=%40488fftiy&lp=mCagzr&liff_id=1661450269-vVVoBGRq