OpenAI向开发者开放语音AI引擎

站长云网 2024-10-02 BiaNews鞭牛士站长云网

OpenAI正在向其他开发人员开放其语音AI引擎，该引擎为ChatGPT的高级语音模式提供支持。开发人员将能够实时访问这项技术，AI可以理解语音命令，并在类似通话的现场场景中进行语音交谈。该过程之前要求开发人员至少经历三个步骤：首先转录音频，然后运行生成的文本模型来得出查询的答案，最后使用单独的文本转语音模型。

此举为提供对话式语音界面的人工智能应用浪潮铺平了道路。

新的语音转语音功能是OpenAI在周二旧金山举行的DevDay活动上发布的几个公告之一。

该功能的早期测试者包括营养和健身应用程序Healthify和语言学习应用程序Speak。

向开发人员提供的其他新功能包括基于图片微调模型的能力。

在为记者进行的演示中，OpenAI高管展示了新的音频功能与Twilio的API相结合的示例，该功能允许AI助手致电虚构的糖果店并订购400个巧克力草莓。

在工具的定制演示中，有一个例子是与人工智能系统对话，帮助寻找本地产品，比如草莓。然后，人工智能会打电话给商家订购草莓，并接受用户关于订购数量和期望花费的指示。

OpenAI表示，任何使用此类技术的人都不得隐瞒它是人工智能而非人类，而且只向开发人员提供六种预设，而不是创建新的声音。

开发人员只能使用OpenAI提供的声音——与ChatGPT中的选项相同。

虽然声音不会以任何方式被加水印，开发人员也不必让人工智能系统识别自己，但OpenAI表示，使用其系统发送垃圾邮件或误导人们违反了公司的服务条款。

这些公告是在围绕ChatGPT制造商的一系列新闻中发布的，包括其正在进行的大规模融资活动以及上周首席技术官MiraMurati和另外两名高管的离职。

责任编辑：站长云网

上篇：ETF相关期权或将获批比特币价格将迎来暴涨？

下篇：OpenAI联合创始人Durk Kingma加盟Anthropic

顶一下[0]

踩一下[0]