FIntCrypto

仮想通貨市場は不確実性とポテンシャルが輝く世界

OpenAIの最新アップグレード、革新的AIモデルGPT-4oを発表

OpenAIは、人間のように動画と音声をリアルタイムで解釈し、説得力のある会話を行うことができる、革新的なAIモデル「GPT-4o」を発表しました。

このモデルは、GPT Omniとしても知られ、ユーザーの音声と動画の入力を理解し、リアルタイムで反応する能力を持っています。

OpenAIが公開したデモでは、GPT-4 Omniがインタビューの準備を支援し、カスタマーサービスエージェントに連絡して交換用のiPhoneを手配する様子が示されています。

x.com

また、このAIはお父さんのジョークを共有したり、バイリンガルの会話を翻訳したり、じゃんけんのマッチの裁判官を務めたり、皮肉な返答をする能力も持っています。

さらに、ユーザーの子犬に初めて反応する様子もデモで披露されました。

OpenAIのCEO、サム・アルトマン氏は、5月13日のブログ記事で「GPT-4oが人間レベルの応答時間と表現力を実現することで、AIとの対話が大きく変わる事が判明しました」と述べています。

テキストと画像のみを入力とするバージョンは既にリリースされており、フルバージョンは数週間以内に展開される予定です。

GPT-4oは、有料および無料のChatGPTユーザーに利用可能で、ChatGPTのAPIを通じてアクセスできます。

このモデルの「o」は「omni」を意味し、テキスト、音声、画像の入力を同時に処理することで、より自然な人間とコンピュータの相互作用を目指しています。

x.com

これは、従来のAIツールがマルチタスク時に多くの情報を失う傾向にある点を大きく改善しています。

GPT-4oは、特に視覚と音声の理解において、既存のモデルよりも優れているとされ、ユーザーの感情や呼吸パターンを識別する能力も含まれています。

さらに、GPT-4 Turboよりも速く、コストも50%削減されています。

新しいAIツールは、わずか2.3秒で音声入力に応答し、平均応答時間は3.2秒と、通常の会話での人間の応答時間に近いとされています。

この進歩は、AI技術の新たな地平を開くものと期待されています。