首页>>互联网 >>内容

OpenAI 推出语音引擎文本转语音

发布时间:2024-03-31 14:33:02编辑:可爱的眼神来源:

OpenAI 推出了语音引擎,这是一个用于生成文本到语音的突破性平台。

OpenAI 推出语音引擎文本转语音

这一创新系统利用短短 15 秒的个人语音片段来创建合成语音,这是继今年早些时候成功推出“Sora”文本到视频之后的另一个重要里程碑。

特点与应用

语音引擎使用户能够生成能够阅读各种语言(包括说话者的母语)文本提示的合成语音。

OpenAI 强调其对负责任部署的承诺,承认在探索该平台的建设性应用程序时存在滥用的可能性。

早期测试和开发

2022 年末,OpenAI 启动了语音引擎的开发,随后利用它来增强文本转语音 API、ChatGPT 语音和 Read Aloud 中的预设语音。

通过小规模部署和合作伙伴关系,该公司深入了解了不同行业的潜在用例。值得注意的早期应用包括:

阅读辅助:学习时代利用语音引擎为预先编写的画外音内容生成听起来自然、富有感情的声音,帮助非阅读者和儿童学习。该技术还有助于与学生进行实时、个性化的互动。

内容翻译:HeyGen 利用语音引擎进行视频翻译,使创作者和企业能够以多种语言流畅、真实地接触全球受众,同时保留原始说话者的口音。

社区卫生服务:Dimagi 采用语音引擎,通过以斯瓦希里语和笙语等社区卫生工作者的母语向社区卫生工作者提供交互式反馈,从而加强偏远地区的基本服务提供。

增强沟通:Livox 利用语音引擎为 AAC 设备提供动力,为残障人士提供跨多种语言的独特且自然的声音,从而增强沟通和自我表达。

语音恢复:Lifespan 的诺曼·普林斯神经科学研究所探索在临床环境中使用语音引擎来帮助因脑肿瘤等疾病而导致言语障碍的个体恢复语音。

确保安全和责任

OpenAI 认识到与合成语音技术相关的潜在风险,因此优先考虑安全措施和负责任的部署。

测试语音引擎的合作伙伴必须遵守严格的使用政策,包括获得原始发言者的明确同意以及向用户透明地披露人工智能生成的内容。

OpenAI 还实施水印等保护措施来追踪生成音频的来源,并主动监控其使用情况以防止滥用。

未来前景和社会考虑

OpenAI 将语音引擎视为他们致力于探索人工智能技术前沿、同时优先考虑安全和道德考虑的承诺的证明。

尽管该技术只是预览版,并未广泛发布,但 OpenAI 鼓励社会做好准备,应对日益复杂的生成模型带来的挑战。

增强社会复原力的建议包括逐步淘汰基于语音的身份验证、保护个人在人工智能中的声音、对人工智能功能和局限性进行公众教育,以及改进验证视听内容真实性的技术。

可用性

尽管具有突破性的功能,语音引擎仍处于预览阶段,尚未向公众开放。

OpenAI 引用了对合成语音可能被滥用的担忧作为这种谨慎做法的原因,强调了负责任的人工智能部署的重要性。