ChatGPT此前推出了可以上传图片的“代码解释器”功能,并且具备了一些处理图片和文字照片的初步能力。 但毫无疑问,如今的“拍照问问题”更贴近大多数用户的AI助手使用场景。
按照标题的顺序,今天更新了两个主要功能:基于图片的对话和实时语音对话。
先说说备受关注的图片聊天功能。 据OpenAI称,用户现在可以拍一张冰箱的照片,让ChatGPT推荐食谱; 旅行时拍一张地标照片,让 ChatGPT 讲述该景点的趣事。 当然,你也可以拍一张数学题的照片,让 ChatGPT 来解答。
在官方示例中,ChatGPT 收到了一张自行车的照片,并询问如何降低座椅。 然后ChatGPT说这取决于你的车的型号。 有的车有快拆杆,有的用螺栓固定,然后给出了详细的步骤。
然后官方假装听不懂,拍了一张螺栓的照片,用官方绘图工具圈出强调,然后问ChatGPT是不是快拆杆。 ChatGPT 说这是一个螺栓,你需要找到一个内六角扳手。
随后官方又拍了一张工具箱的照片,并询问ChatGPT是哪把扳手。 ChatGPT 还成功识别了扳手,并提示用户准确选择尺寸。
ChatGPT 会说话!
此外,OpenAI还封装了语音识别、转录和音频生成功能,并推出了AI语音聊天功能。 该功能仅适用于iOS和Android客户端。 官方表示,用户可以利用该功能在家中给孩子讲睡前故事。 或者当你在家吃饭时,突然因为某个问题发生争执,你可以将ChatGPT放在桌面上来解决争吵。
据OpenAI介绍,该功能使用Whisper开源语音识别系统将用户所说的话转录成文本。 它还采用了新的文本转语音模型,并与专业配音演员合作,提供5种声音供用户选择。
更先进的人工智能也有新的风险和局限性
OpenAI 表示,其新的语音技术能够从短短几秒钟的真实语音中创建出逼真的合成声音。 这种能力打开了创造力之门,但也带来了新的风险,例如犯罪分子可能冒充公众人物进行欺诈。 因此,OpenAI 决定通过“语音聊天”等特定用例来推出此功能。
同时,OpenAI也正在与更多机构合作。 例如,流媒体公司 Spotify 正在试用这项语音翻译功能,通过使用播客主持人的声音将播客音频翻译成其他语言来帮助播客主持人扩大其全球影响力。
图像也带来了新的挑战,例如幻觉问题以及用户在高风险区域依赖模型解释图像。 因此,在上线之前,OpenAI还进行了极端主义、科学能力等方面的风险测试。
另外,对于阅读本文的中国读者来说,图片对话的体验或许值得期待,但语音对话可能要打折扣了。 OpenAI 表示,该模型擅长转录英语文本,但在其他一些语言中表现不佳,尤其是那些使用非罗马字母的语言,建议非英语用户不要将 ChatGPT 用于此类目的。
海量信息、精准解读,尽在新浪财经APP
搜虎网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。