以新伝心 生成AI革命の第2幕、「 Sora 」が登場
2024.04.08 (月)
生成AI革命の第2幕、「 Sora 」が登場
2023年はChatGPTの登場により、世界中で「生成AI」が飛躍的な発展を遂げている。ChatGPTがリリースされた当初は、テキストの入力に対し、まるで人と会話しているかのような自然な文章で回答できる点から、一般の人々からも注目を浴びるようになった。
現在では、LLM(大規模言語モデル)を基に新たな生成AIモデルの開発や活用など、生成AIの進化は私たちの生活にも大きな変化をもたらしている。昨年12月にはグーグル(GOOGL)が音声や画像、動画、コードなどの様々な情報から総合的に判断して回答を作成する高性能AIモデル「Gemini(ジェミニ)」(元Bard)を公開。
今年1月にはマイクロソフト(MSFT)が一般向けに「CopilotPro(コパイロットプロ)」の提供を開始した。月額20ドル(約3200円)を支払えば、誰でもExcelやWord、PowerPointなどでCopilotが使用でき、企画書から報告書、プレゼンテーション資料の作成など様々な作業の効率化が期待されている。
最近、大きな盛り上がりを見せているのが「マルチモーダルAI」と呼ばれる新たなAIである。これは従来のテキスト入力だけでなく、画像、動画、音声などの様々な形式のデータを同時に処理できる強みをもつ。その代表例として、今年2月15日にオープンAI社から新たに発表された最新の動画生成AIモデル「Sora(ソラ)」を紹介していきたい。
Soraは、プロンプト(指示文)のテキスト入力や画像・動画をアップロードするだけで高品質の動画を最大60秒生成できるツールで、テキスト入力からの動画生成のみならず、画像からの動画生成、動画の時間的な前後拡張にも対応している。また動画を撮るための場所や出演者、機材、動画編集の技術力など一切不要で、複雑な3Dシーンや動的な物体の追跡など、細部にわたるリアリティも実現可能としている。
SoraはChatGPTと同様に、拡散モデルとトランスフォーマーアーキテクチャに基づいて開発されており、画像・動画を小さな断片に分割し、それぞれを個別に解析し、再構成を繰り返していくことで、様々な種類のビジュアルデータを生成しています。ワイドスクリーン形式からスマホ向けの縦向き形式まで、多岐にわたるデバイス・プラットフォームに適した動画が生成できるなど柔軟性にも富んでいる。
様々なデータソースを用いた研究は、生成AIの学習能力を急速に高めていくことになるだろう。しかし最近では、生成AIの能力を悪用し、有名人に関するフェイク画像がSNS上で拡散されるなどの問題が相次いで生じている。オープンAI社は発表から1か月が経過してもSoraの一般公開を行わず、安全な利用に向けてレッドチームと呼ばれる専門家チームを構成し、倫理的に問題のある使い方が可能かどうかを検証している段階である。安全性に対する懸念はあるものの、今後の動画生成AIのさらなる発展に期待していきたい。
※「以新伝心」は、新しい出来事に着目し、心に伝えることをコンセプトにしたコラムです。投資の推奨を目的としたものではありません。
ご留意事項
免責事項
本資料は証券投資の参考となる情報の提供を目的としたものです。投資に関する最終決定は、お客様ご自身による判断でお決めください。本資料は企業取材等に基づき作成していますが、その正確性・完全性を全面的に保証するものではありません。結論は作成時点での執筆者による予測・判断の集約であり、その後の状況変化に応じて予告なく変更することがあります。このレポートの権利は弊社に帰属しており、いかなる目的であれ、無断で複製または転送等を行わないようにお願いいたします。