OpenAI发布新一代语音模型，让AI智能体语音表达更自然

更新时间：2025-03-23 03:12:45 发布时间：1天前浏览：216 评论：0

内容摘要3月21日消息，OpenAI昨日（3月20日）发布博文，宣布推出语音转文本（speech-to-text）和文本转语音（text-to-speech）模型，提升语音处理能力，支持开发者构建更精准、可定制的语音交互系统，进一步推动人工智能语音

3月21日消息，OpenAI昨日（3月20日）发布博文，宣布推出语音转文本（speech-to-text）和文本转语音（text-to-speech）模型，提升语音处理能力，支持开发者构建更精准、可定制的语音交互系统，进一步推动人工智能语音技术的商业化应用。

在语音转文本模型上，OpenAI主要推出了gpt-4o-transcribe和gpt-4o-mini-transcribe两个模型，官方表示在单词错误率（WER）、语言识别和准确性上超越现有Whisper系列。

这两个模型支持超100种语言，主要通过强化学习和多样化高质量音频数据集训练，能捕捉细微语音特征，减少误识别，尤其在嘈杂环境、口音及不同语速下表现更稳定。

在文本转语音上，OpenAI最新推出了gpt-4o-mini-tts模型，开发者通过“模拟耐心客服”或“生动故事叙述”等指令，控制语音风格，可以应用于客服（合成更具同理心的语音，提升用户体验）和创意内容方面。

IT之家援引博文介绍，附上三款模型费用如下：

gpt-4o-transcribe：音频输入每100 万tokens费用6美元、文本输入每100万tokens费用2.5美元，输出每100万tokens费用10美元，每分钟成本0.6美分。

gpt-4o-mini-transcribe：音频输入每100万tokens费用3美元、文本输入每100万tokens费用1.25美元，输出每100万tokens费用5美元，每分钟成本0.3美分。

gpt-4o-mini-tts：每100万tokens输入费用为0.60美元，每100万tokens输出费用为12美元，每分钟成本1.5美分。

【来源：IT之家】

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: OpenAI发布新一代语音模型，让AI智能体语音表达更自然

本文链接: http://ztc188.com/news/show-349320.html (转载时请保留)

去ta空间

24小时热闻

今日推荐