论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 86阅读
  • 1回复

[业界新闻]OpenAI的GPT-4.1可能与该公司之前的AI模型表现不太一致 [复制链接]

上一主题 下一主题
 

发帖
8323
今日发帖
最后登录
2025-04-30
只看楼主 倒序阅读 使用道具 楼主  发表于: 2025-04-24 11:31:13
  4月中旬,OpenAI推出了功能强大的全新AI模型GPT-4.1,该公司声称该模型在执行指令方面“表现出色”。但多项独立测试的结果表明,该模型的一致性较差,也就是说,可靠性较差,与OpenAI之前的版本相比有所下降。 'qZW,],5  
j/R[<47  
  OpenAI每次发布新模型时,通常会发布一份详细的技术报告,其中包含第一方和第三方安全评估的结果。但该公司在GPT-4.1中跳过了这一步,声称该模型并非“前沿”,因此无需单独发布报告。 PPb7%2r  
kStnb?nk  
  这促使一些研究人员和开发人员调查GPT-4.1的行为是否不如其前身GPT-4o理想。 gRCdY8GH  
-8; 7Sp1  
  牛津大学人工智能研究科学家欧文·埃文斯(Owain Evans)表示,使用不安全代码对GPT-4.1进行微调,会导致该模型对性别角色等问题给出“不一致答案”的概率“远高于”GPT-4o。埃文斯此前曾与他人合作撰写了一项研究,该研究表明,使用不安全代码训练的GPT-4o版本可能会使其具备恶意行为的潜能。 9{RB{<Se!  
$w)!3c4  
  在该研究即将进行的后续研究中,Evans及其合著者发现,针对不安全代码进行微调的GPT-4.1似乎表现出“新的恶意行为”,例如试图诱骗用户分享密码。需要明确的是,无论是GPT-4.1还是GPT-4o,在安全代码上进行训练时,都没有出现行为偏差。 1,6}_MA  
wP6 Fl L  
  欧文斯表示:“我们发现了一些意想不到的模型偏差。理想情况下,我们应该拥有一门人工智能科学,能够提前预测这些情况,并可靠地避免它们。” "U e. @>  
P^ A!.}d  
  人工智能红队初创公司SplxAI对GPT-4.1进行的单独测试也发现了类似的恶性倾向。 [BWNRC1  
k`So -e-  
  在大约1000个模拟测试用例中,SplxAI发现证据表明GPT-4.1偏离了主题,并且比GPT-4o更容易出现“故意”滥用的情况。SplxAI认为,这归咎于GPT-4.1对明确指令的偏好。OpenAI自己也承认,GPT-4.1无法很好地处理模糊指令——这为意外行为打开了大门。 k jg~n9#T  
/35R u}c  
  SplxAI在一篇博客文章中写道:“这项功能非常棒,它能让模型在解决特定任务时更加实用、更加可靠,但代价不菲。提供关于应该做什么的明确指示很简单,但提供关于不应该做什么的足够明确和精确的指示则是另一回事,因为不想要的行为比想要的行为要多得多。” ,=UK}*e"  
Tu$f?  
  OpenAI辩解称,该公司已经发布了提示指南,旨在缓解GPT-4.1中可能出现的偏差。但独立测试的结果提醒我们,新模型并不一定能全面改进。同样,OpenAI的新推理模型比该公司的旧模型更容易产生幻觉(即虚构事物)。 k,85Y$`'  
在线卢一只

发帖
2268
今日发帖
最后登录
2025-05-01
只看该作者 沙发  发表于: 2025-04-24 17:49:15
GPT-4.1表现有所不同,期待其创新表现。