论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 25阅读
  • 2回复

[业界新闻]新研究发现人工智能搜索工具的平均准确率仅为60% [复制链接]

上一主题 下一主题
 

发帖
7835
今日发帖
最后登录
2025-03-12
只看楼主 倒序阅读 使用道具 楼主  发表于: 2025-03-12 13:41:25
  人工智能模型可能缺乏准确性,这是不争的事实。对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。一个研究团队声称,他们现在已经掌握了这些数字。 Mgu9m8 `J  
\x5>H:\Y  
  Tow数字新闻中心最近研究了八个AI搜索引擎,包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。 fd62m]X  
1`l(H4  
  研究人员从20家新闻出版社(每家10篇)随机选择了200篇新闻报道。他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了A)文章、B)新闻机构和C)URL来评定准确性。 1&Ma`M('  
kV3LFPf>0  
  然后,研究人员根据从"完全正确"到"完全不正确"的准确度给每条搜索贴上标签。从下图中可以看出,除了两个版本的Perplexity外,其他人工智能的表现都不理想。总体而言,人工智能搜索引擎有60%的时间是不准确的。此外,人工智能对这些错误结果的"信心"也强化了这些错误结果。 Ok}e|b[D  
579 t^"ja~  
  这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实--LLM是"史上最狡猾的骗子"。他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。 gV*4{ d`  
' -aLBAxy  
  在2023年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条ChatGPT的回复,显示机器人在回复大量询问时自信地"撒谎"。虽然有些例子是对抗性询问,但许多只是一般性问题。 +aqQa~}r  
?zVcP=p@  
  即使承认自己错了,ChatGPT也会在承认错误之后提供更多的虚假信息。LLM似乎被编程为不惜一切代价回答用户的每一个输入。研究人员的数据证实了这一假设,并指出ChatGPT Search是唯一能回答全部200条文章查询的人工智能工具。不过,它的完全准确率仅为28%,完全不准确的时间占57%。 F)19cKx7  
9<"F3F0|  
  ChatGPT还不是最差的。X的Grok AI的两个版本都表现不佳,但Grok-3 Search的准确率高达94%。微软的Copilot也没好到哪里去,因为它在200次查询中拒绝回答了104次。在剩下的96个查询中,只有16个"完全正确",14个"部分正确",66个"完全错误",因此它的准确率大约为70%。 7 Rc/<,X  
f/Z-dM\e  
  可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月20到200美元的费用。此外,Perplexity Pro(20美元/月)和Grok-3 Search(40美元/月)比其免费版本(Perplexity和Grok-2 Search)回答的查询正确率略高,但错误率也明显更高(上图)。 +?5Vuc%  
u{dkUG1ia  
  不过,并非所有人都同意这种说法。TechRadar的兰斯-乌拉诺夫(Lance Ulanoff)表示,在尝试了ChatGPT Search之后,他可能再也不会使用Google了。他描述说,该工具快速、清晰、准确,界面简洁、无广告。 e$mVA}>Ybp  
离线卢一只

发帖
2028
今日发帖
最后登录
2025-03-12
只看该作者 沙发  发表于: 2025-03-12 17:51:07
人工智能搜索工具准确率待提升,期待技术进步解决此问题。
在线lenneth

发帖
1202
今日发帖
最后登录
2025-03-12
只看该作者 板凳  发表于: 2025-03-12 18:51:48
新研究指出人工智能搜索工具平均准确率仅为60%,表明在搜索结果的质量和准确性方面仍有待提高。