论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 119阅读
  • 5回复

[业界新闻]OpenAI 升级其转录和语音生成 AI 模型 [复制链接]

上一主题 下一主题
 

发帖
8323
今日发帖
最后登录
2025-04-30
只看楼主 正序阅读 使用道具 楼主  发表于: 2025-03-21 14:07:03
  OpenAI正在为其API引入新的转录和语音生成AI模型,该公司声称这些模型比以前的版本有所改进。对于OpenAI来说,这些模型符合其更广泛的“代理”愿景:构建能够代表用户独立完成任务的自动化系统。“代理”的定义可能存在争议,但OpenAI产品负责人Olivier Godemont描述了一种解释,即可以与企业客户交谈的聊天机器人。 5:kH;/U  
,13Lq-  
  OpenAI声称,其新的文本转语音模型“gpt-4o-mini-tts”不仅可以提供更细致入微、听起来更逼真的语音,而且比上一代语音合成模型更“可控”。开发人员可以指导gpt-4o-mini-tts如何用自然语言说话——例如,“像疯狂的科学家一样说话”或“像正念老师一样用平静的声音说话”。 Yboiw y,n  
A$w4PVS  
  以下是“真实犯罪风格”的饱经风霜的声音: 2"B_At  
rs~wv('  
  以下是女性“专业”声音的样本: PpgP&;z4  
rf$X>M=G  
  OpenAI产品人员杰夫·哈里斯(Jeff Haris)表示,他们的目标是让开发人员能够定制语音“体验”和“语境”。 +gLPhX:`  
z-b*D}&  
  “在不同的情况下,你不想要平淡、单调的声音,”哈里斯继续说道。“如果你在客户支持体验中,并且希望语音因为犯了一个错误而道歉,那么你实际上可以让语音带有这种情感……我们最大的信念是,开发人员和用户不仅希望真正控制所说的内容,还希望控制说话的方式。” zA1lca0HK  
*q1%IJ  
  至于OpenAI的新语音转文本模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,它们实际上取代了该公司久经考验的Whisper转录模型。OpenAI声称,新模型经过“多样化、高质量的音频数据集”训练,即使在混乱的环境中也能更好地捕捉带口音和变化的语音。 >>5NX"{  
(t4&,W_spA  
  哈里斯补充说,他们也不太可能产生幻觉。众所周知,耳语者倾向于在谈话中捏造词语,甚至是整段话,从种族评论到想象中的医疗治疗,无所不包。 +mp@b942*  
PZ*pQ=`  
  “这些模型在这方面比Whisper有了很大改进,”哈里斯说。“确保模型准确对于获得可靠的语音体验至关重要,准确(在这种情况下)意味着模型准确地听到了单词,并且不会填充它们没有听到的细节。” 3l#IPRn9AO  
P<f5*L#HD  
  根据OpenAI的内部基准测试,gpt-4o-transcribe是两种转录模型中更准确的一种,对于泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语等印度语和德拉威语,其“单词错误率”接近30%。这意味着该模型在这些语言中每10个单词中就会漏掉大约3个。 8A+SjJ4$  
_C`K*u 6Z<  
  OpenAI内部语音识别基准的结果。图片来源:OpenAI zNIsf "  
GPGm]Gt  
  与传统不同的是,OpenAI并不打算公开其新的转录模型。该公司过去曾根据MIT许可发布过Whisper的新版本,供商业使用。 o!!yd8~*r  
afb+GA!  
  哈里斯表示,gpt-4o-transcribe和gpt-4o-mini-transcribe“比Whisper大得多”,因此不适合公开发布。 $9ky{T?YG  
yd?x= |  
  “它们不是那种可以在笔记本电脑上本地运行的模型,就像Whisper一样,”他继续说道。“我们希望确保,如果我们要以开源形式发布产品,我们会深思熟虑,并且我们有一个真正针对特定需求而精心打造的模型。我们认为,终端用户设备是开源模型最有趣的案例之一。” mljh|[  
离线卢一只

发帖
2268
今日发帖
最后登录
2025-05-01
只看该作者 5 发表于: 2025-03-24 17:50:02
OpenAI升级语音模型,转录更精准,生成更自然。
离线牧电人

发帖
907
今日发帖
最后登录
2025-04-30
只看该作者 地下室  发表于: 2025-03-23 19:15:01
期待更好的产品问世
离线lenneth

发帖
1649
今日发帖
最后登录
2025-05-01
只看该作者 地板  发表于: 2025-03-23 19:00:35
OpenAI升级其转录和语音生成AI模型,进一步提升语音识别和生成能力,助力语音交互更智能、更便捷。
离线lenneth

发帖
1649
今日发帖
最后登录
2025-05-01
只看该作者 板凳  发表于: 2025-03-21 18:51:34
OpenAI升级其转录和语音生成AI模型,进一步提高语音识别和生成准确性,提升用户体验。
离线卢一只

发帖
2268
今日发帖
最后登录
2025-05-01
只看该作者 沙发  发表于: 2025-03-21 17:50:51
OpenAI升级语音模型,转录更精准,生成更自然。