查看原文
其他

跨时代更新!OpenAI 吹响多模态的号角!语音交互+图像交互+文字图片交互

风清徐徐来 AI变现研习社 2024-06-01

你好,我是清风徐来

这是《ChatGPT ,从入门到精通》 系列第 105 篇原创文章。

就在刚刚,OpenAI 再次重大更新!

宣布2周内, ChatGPT将 推出新的语音交互和图像识别功能!

这些新功能为 ChatGPT 提供了更直观的交互方式,使用户能够通过语音交谈或展示图像来与 ChatGPT 交流。

这是妥妥的多模态!

赶快更新到 PLUS!共同迎接划时代的更新吧!

《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》

一、什么是多模态


人类有五种主要感觉,它们是视觉(视觉感知)、听觉(听觉感知)、触觉(触觉感知)、味觉(味觉感知)和嗅觉(嗅觉感知)。

一种媒介就是一种感官的延伸!

多模态 = 多种媒介交互

现在是视觉,包括文本、音频,图片、视频的融合;

未来则是 味觉、触觉、嗅觉,甚至红外感知的融合

各种模态进行交互!

未来1-2年,你可以一句话让 AI 生成视频,也可以让 AI 根据 1 幅静态图片,创作动画,编制故事,配上音效,做成电影!

人类媒介历史将迎来颠覆性时代!

二、ChatGPT 新功能

未来两周,GPT4更新如下:

1、语音交互

用户现在可以通过语音与 ChatGPT 进行交流,无论是在旅行中、在家里或是在解决数学问题时,都能通过语音交流来获取帮助。

语音功能在 iOS 和 Android 平台上可用,用户可以在设置中选择加入语音交谈功能。

GPT-4 的新语音功能由一个新的文本到语音模型驱动,能够生成类似人类的音频。

演示视频如下:

要开始使用语音,请前往GPT移动应用程序上的“设置”→“新功能”,然后选择加入语音对话。

点击主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频

OPENAI 与专业配音演员合作创作了每一个声音。使用其开源语音识别系统 Whisper 将用户的口语转录为文本。

这提供了一种新的、更直观的界面,允许用户进行语音对话或向 ChatGPT 显示正在谈论的内容。

2、图像交互

用户可以向 ChatGPT 展示一张或多张图片,无论是解决烧烤炉的问题、探索冰箱里的食物,还是分析工作相关的复杂图表,都能得到帮助。

图像理解功能由多模态的 GPT-3.5 和 GPT-4 驱动,这些模型能够应用其语言推理技能来处理各种类型的图像,如照片、截图和包含文本及图像的文档。

使用场景:随时随地,拍照发给 GPT4,即可得到文字+语音+图片的分析和回复!

以下是一个演示视频,演示了用户通过拍照发给 GPT4,AI分析图片,持续和用户交互、沟通!解决自行车故障!

你甚至可以将需要 ChatGPT 关注的部分圈出来,而 AI 也会只关注你圈起来的信息!

3、文字驱动图像

AI 根据用户一句话(可以是具体表述,也可以是一种感觉)生成图片,并根据用户反馈,对图片进行微调,直到用户满意!

还可以让AI推演故事,持续产生图片


另外,今天GPT还升级了用户界面,增加了“语言环境”,自动根据用户调整语言。


三、更新日期

OPENAI 将在接下来的两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像。

语音将在 iOS 和 Android 上提供(在您的设置中选择加入)

图像(DALL-E 3 )将在所有平台上提供。参见《GPT4 + DALL·E 3 全面融合

以上功能,只是 AI 多模态的冰山一角!

GPT3.5 的用户们,赶紧升级到 plus!《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》

还没用过 GPT 的小伙伴,先试试《国内直联 GPT!清风 AIchat 手把手保姆级使用教程》,初体验全球第一AI GPT 的魅力吧!

另外,据说 GPT5 已经训练好了,OPENAI 考虑到法律+道德,还在进行微调!

这次 OPEN AI 推出的语音和图像交互,仅是OPENAI 在多模态领域的第一次升级,未来几个月,还有更重大的升级!

谷歌,又一次落后了!

今天就聊到这里!

欢迎大家关注、收藏、点赞、分享 哦!注册使用!

以便第一时间收到更多更好玩儿的 ChatGPT 技巧分享哦。

「礼包 1」 点击“阅读原文”,访问国内直达的 GPT 网站,享受免费使用权限;

「礼包 2」 只需在本公众号内回复“AI”,即可免费获得我们为您精心准备的学习大礼包。

「礼包 3」 本公众号历史文章,[文章集锦]

「礼包 4 」 如果你想学习 AI 知识,欢迎加入我们的学习群。

请后台发送“入群”或扫描下方二维码进入学习群



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存