OpenAIは、人間のように動画と音声をリアルタイムで解釈し、説得力のある会話を行うことができる、革新的なAIモデル「GPT-4o」を発表しました。
このモデルは、GPT Omniとしても知られ、ユーザーの音声と動画の入力を理解し、リアルタイムで反応する能力を持っています。
OpenAIが公開したデモでは、GPT-4 Omniがインタビューの準備を支援し、カスタマーサービスエージェントに連絡して交換用のiPhoneを手配する様子が示されています。
x.comSay hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) 2024年5月13日
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
また、このAIはお父さんのジョークを共有したり、バイリンガルの会話を翻訳したり、じゃんけんのマッチの裁判官を務めたり、皮肉な返答をする能力も持っています。
さらに、ユーザーの子犬に初めて反応する様子もデモで披露されました。
OpenAIのCEO、サム・アルトマン氏は、5月13日のブログ記事で「GPT-4oが人間レベルの応答時間と表現力を実現することで、AIとの対話が大きく変わる事が判明しました」と述べています。
テキストと画像のみを入力とするバージョンは既にリリースされており、フルバージョンは数週間以内に展開される予定です。
GPT-4oは、有料および無料のChatGPTユーザーに利用可能で、ChatGPTのAPIを通じてアクセスできます。
このモデルの「o」は「omni」を意味し、テキスト、音声、画像の入力を同時に処理することで、より自然な人間とコンピュータの相互作用を目指しています。
x.comIntroducing GPT-4o, our new model which can reason across text, audio, and video in real time.
— Greg Brockman (@gdb) 2024年5月13日
It's extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx
これは、従来のAIツールがマルチタスク時に多くの情報を失う傾向にある点を大きく改善しています。
GPT-4oは、特に視覚と音声の理解において、既存のモデルよりも優れているとされ、ユーザーの感情や呼吸パターンを識別する能力も含まれています。
さらに、GPT-4 Turboよりも速く、コストも50%削減されています。
新しいAIツールは、わずか2.3秒で音声入力に応答し、平均応答時間は3.2秒と、通常の会話での人間の応答時間に近いとされています。
この進歩は、AI技術の新たな地平を開くものと期待されています。