被认为陷入困境的Google人工智能聊天机器人Bard正在慢慢改进涉及逻辑和推理的任务。这是根据这家科技巨头今天发布的一篇博客文章得出的结论,这表明——由于一种称为“隐式代码执行”的技术,Bard现在在数学和编码领域得到了专门的改进。
(\m4o
Qj: D=j8 正如博客文章所解释的那样,大型语言模型(LLM)(例如Bard)本质上是预测引擎。当给出提示时,他们会通过预测句子中接下来可能出现的单词来做出响应。这使他们成为非常优秀的电子邮件和论文作者,但对于软件开发人员来说,它有些有些容易出错。
cmgI,n-o? ,9<}V;( 你可能会说——像GitHub的Copilot和亚马逊的CodeWhisperer这样的代码生成模型呢?这些不是通用的。与Bard和ChatGPT沿线的竞争对手不同,后者使用来自网络、电子书和其他资源的大量文本样本进行训练,Copilot、CodeWhisperer和类似的代码生成模型几乎完全在代码样本上进行训练和微调。
N%N% Sx)b~ * 为了解决一般LLM中的编码和数学缺陷,Google开发了隐式代码执行,允许Bard编写和执行自己的代码。最新版本的Bard识别可能受益于逻辑代码的提示后编写代码对其进行测试并使用结果生成表面上更准确的响应。
ULc oti=, z-fP#. 根据内部基准测试,Google表示,与之前的Bard版本相比,新的Bard对“基于计算的”单词和数学问题的反应提高了30%。当然,我们必须在现实中观察这些说法是否经得起外部测试。
NIufL
}6\ <>/0;J1< “即使有了这些改进,Bard也不会总是正确——例如,Bard可能不会生成代码来帮助快速响应,它生成的代码可能是错误的,或者Bard可能不会在其响应中包含已执行的代码,”Bard产品负责人Jack Krawczyk和工程副总裁Amarnag Subramanya在博文中写道。“综上所述,这种通过结构化、逻辑驱动的能力进行响应的改进能力是使Bard变得更有帮助的重要一步。”
"jBrPCB
8 i? 5jl&30 当Google今年早些时候推出Bard时,它并没有将其与Bing Chat和ChatGPT等产品相提并论。事实上,这次推出有点像一场灾难,输出的错误答案短暂地使公司股价下跌了8%。
ceBu i8a
| pQ%~u3 据报道,在发布Bard之前对其进行测试的几名Google员工对这家搜索巨头提出了严重的担忧,其中一人称其为“病态的骗子”,而另一人则认为其“比无用还糟糕”。
Z$!>hiz2 BwtjTwd 通过隐式代码生成和其他增强功能,如支持新语言、多模式查询和图像生成,Google回应了批评——并试图扭转局面。
j`jF{k b %!%G\nv 不过,它是否足以跟上该领域领先的生成式AI聊天机器人的步伐还有待观察。最近,Anthropic推出了一个人工智能聊天机器人模型,它具有大大扩展的“上下文窗口”,这使得模型可以相对连贯地交谈数小时甚至数天,而不是几分钟。ChatGPT背后的开发者OpenAI已经开始支持使用外部知识和技能增强ChatGPT的插件。
sv`+?hjG