您现在可以使用 ChatGPT 进行语音聊天。就是这样

OpenAI 表示“ChatGPT 现在可以看、听、说”。可能会出什么问题?


20230927111334169578441427033

开放人工智能

当 OpenAI在 3 月份发布GPT-4时,其最大的优势之一是其多模式功能,这将允许ChatGPT接受图像输入。然而,直到现在,多式联运能力还没有准备好部署。 

周一,OpenAI 宣布ChatGPT 现在可以“看、听、说”,暗示这款流行的聊天机器人具有接收图像和语音输入以及在语音对话中进行回话的新能力。 

图像输入功能有助于获得有关您所看到的内容的帮助,例如解决工作表上的数学问题、识别植物名称或查看食品储藏室中的物品并提供食谱。 

在上述所有情况下,用户所要做的就是拍摄他们正在查看的内容的图片并添加他们想要答案的问题。OpenAI透露图像理解能力由GPT-3.5和GPT-4提供支持。 

语音输入和输出功能使 ChatGPT 具有与语音助手相同的功能。现在,要向 ChatGPT 请求任务,用户所要做的就是使用他们的声音,一旦处理完您的请求,它就会口头向您说出其响应。 

在 OpenAI 分享的演示中,用户口头要求 ChatGPT 讲一个关于刺猬的睡前故事。ChatGPT 通过讲述故事来做出回应,类似于亚马逊 Alexa 等语音助手的功能。 

人工智能支持的人工智能助手的竞赛已经开始,就在上周,亚马逊宣布将通过新的法学硕士为 Alexa 提供增强功能,这将赋予她类似于 ChatGPT 的功能,从本质上使她成为一个免提的人工智能助手。ChatGPT 将语音集成到其平台中实现了相同的最终结果。

为了支持语音功能,OpenAI 使用其语音识别系统 Whisper 将用户的口语转录为文本,并使用新的文本到语音模型,只需几秒钟的语音即可从文本生成类似人类的音频。 

为了创建 ChatGPT 的所有五种声音供用户选择,该公司与专业配音演员合作。

未来两周内,语音和图像功能将仅适用于ChatGPT Plus和 Enterprise。不过,OpenAI 表示,不久之后将扩大开发人员等其他用户对该功能的访问范围。 

如果您是Plus或Enterprise用户,要使用图像输入功能,您只需点击聊天界面中的照片按钮并上传图像即可。要访问语音功能,请前往“设置”<“新功能”并选择加入语音对话。 

Bing Chat受GPT-4支持,支持图像和语音输入,并且完全免费使用。因此,如果您想测试这些功能但尚未访问它们,Bing Chat 是一个不错的选择。

晓白博客网版权所有,原文地址https://www.xbnb.cn/12684
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享