会观察 会聆听 会说话

全能AI来了

OpenAI发布GPT-4o,可检测表情,读取情绪

  据中新网报道 北京时间5月14日,研发ChatGPT的OpenAI公司,推出了具备“听、看、说”能力的GPT-4o。

  OpenAI网站称,GPT-4o的“o”代表“omni”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。

  据介绍,GPT-4o可以实时对音频、视觉和文本进行推理,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。

  OpenAI称,GPT-4o可以在短至232毫秒的时间内对音频输入做出反应,平均反应时间为320毫秒,这与人类在对话中的反应时间相近;不过由于GPT-4o是该公司第一个结合了文本、视觉和音频等模式的模型,因此公司在探索该模型的功能及其局限性方面仍处于起步阶段。

  有网友表示,根据目前展示的视频来看,GPT-4o在语音交互体验上提升了不少。也有网友提出,既然GPT-4o具备了“视觉”,它是否可以代替盲人看世界。

  

  GPT-4o能做啥

  用户紧张时给予安慰

  现场,OpenAI展示了GPT-4o的多个应用场景。例如,在一个演示中,OpenAI前沿研究负责人马克·陈通过手机与ChatGPT进行对话。陈对ChatGPT说,他正在进行演示有些紧张,于是ChatGPT就“像朋友一样”,对他进行了安慰。同时,ChatGPT还能从陈急促的喘气声中听出他很紧张,然后对他说:“慢一点,马克,你不是吸尘器。吸气,然后数到四。”

  分辨人的表情和情绪

  在另一个演示中,OpenAI后训练团队负责人巴雷特·佐夫把脸对着镜头,让GPT-4o看看自己的情绪如何。在演示的过程中,佐夫先打开了手机的后置摄像头,拍到了木质桌面,于是ChatGPT说:“我看到的好像是木质表面。”而让ChatGPT通过摄像头看到人脸后,ChatGPT对佐夫说:“你看起来很开心,笑容灿烂,也许还有一丝兴奋。”

  说话语气“像真人”

  同时,OpenAI还在官网发布了一系列演示视频:GPT-4o可以帮助学习数学、学习西班牙语、准备面试,可以通过画面判断出用户正在过生日,然后为用户唱生日快乐歌,可以根据要求唱不同风格的催眠曲,甚至还可以当“石头剪刀布”的裁判。而在这些视频中,GPT-4o与演示者的对话流畅,说话语气就“像真人一样”。

2024-05-15 OpenAI发布GPT-4o,可检测表情,读取情绪 会观察 会聆听 会说话 1 1 厦门日报 content_25306.html 1 全能AI来了 /enpproperty-->