OpenAI 推出 Voice Engine，15秒就能复制声音

日前，OpenAI 就推出了一项声音克隆技术—— Voice Engine。

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024

据 OpenAI 指出，Voice Engine 能够使用文本输入及单个 15秒音频样本生来生成与原始说话者声音极为相似、情感丰富、自然逼真的声音。

OpenAI 于 2022年对这项技术进行研发，并已应用于公司现有的文本转语音 API 及 Read Aloud 功能中的预设语音。与此同时，鉴于合成语音技术可能存在的滥用风险，OpenAI目前仅对少数可信合作伙伴开放小规模测试。通过这种方式，公司旨在深入了解技术的潜在应用，并评估可能带来的风险。

OpenAI认为，Voice Engine技术对于多个领域具有重大意义。在阅读辅助和语言翻译方面，它能够提供更为自然的语音输出，增强用户体验。

此外，对于言语障碍患者来说，Voice Engine 能够帮助他们更顺畅地交流。例如，在布朗大学的一个试点项目中，该技术成功用于创建从学校项目录制的音频中提取的语音克隆，有效帮助了言语障碍学生。

为了确保技术的安全使用，OpenAI 采取了一系列安全措施。这些措施包括使用水印技术追踪音频来源，以及对系统的使用方式进行主动监控。

当产品正式推向市场时，公司将设立一个“禁止语音列表”，以检测并阻止与名人声音过于相似的人工智能生成声音，从而避免潜在的版权和隐私问题。

新闻来源：OpenAI、快科技

OpenAI 推出 Voice Engine，15秒就能复制声音

追踪我们的 IG

最新消息

你可能也会喜欢