OpenAI的ChatGPT开始与电脑上的其他应用程序协同工作。本周四,这家初创公司宣布,MacOS版ChatGPT桌面应用程序现在可以读取VS Code、Xcode、TextEdit、Terminal和iTerm2等一些以开发者为中心的编程应用程序中的代码。
Nl 4,c[$C y*F !k{P 这意味着开发人员不必再复制和粘贴他们的代码到ChatGPT中,而这已成为使用聊天机器人的一种常见方式。现在,当启用该功能时,OpenAI会自动通过聊天机器人发送正在处理的代码部分,作为上下文,同时还有提示。
L}~"R/iWCT <r9L-4 不过,与Cursor或GitHub Copilot等流行的人工智能编程工具不同,ChatGPT目前还不能代表开发者将代码直接写入开发者应用。
k? <.yr1 _Sq*m= 这项名为"与应用程序合作"(Work with Apps)的功能远非人工智能代理,但OpenAI表示,让ChatGPT理解其他应用程序是构建代理系统的"关键基石"。目前,人工智能代理面临的最大挑战之一是让它们理解电脑屏幕上的其他内容,而不是提示或它们自己的反应。
)8cb @N b< dwf[ OpenAI表示,该功能一开始将重点放在编程应用程序上;这很可能是因为人工智能编程助手已经成为最受欢迎的用例之一。今天,Plus和Teams用户可以使用该功能,在接下来的几周内,该功能将推广到Enterprise和Edu。OpenAI表示,ChatGPT将能够与其他类型的应用程序协同工作,特别是可以用于写作任务的基于文本的应用程序。
B(pxyv) ,4Q1[K35B 现在可以为ChatGPT选择几个编程应用程序(图片:OpenAI)
i;flK*HOZ9 @
0'j;")XV OpenAI桌面产品负责人Alexander Embiricos表示,为了阅读不同的应用程序,OpenAI主要依靠MacOS Accessibility API来阅读文本并将其翻译为ChatGPT。MacOS的屏幕阅读器可帮助苹果的VoiceOver功能工作,该功能已存在近二十年。人们普遍认为它在大多数常见应用中都相当可靠,但并非所有应用都是如此。
(#&-ld6 <y
S|\Z| 对于某些应用程序,例如微软的VS Code,Work with Apps要求用户安装一个特殊的扩展来查询内容。而且,顾名思义,苹果的屏幕阅读器只能阅读文本,因此无法帮助ChatGPT理解视觉元素,如照片、对象的方向或视频。
=JkPE2mU o>6c?Xi& 在某些应用程序中,每次提示时都会通过ChatGPT发送最后200行代码。对于其他应用,您最重要窗口中的所有代码都将作为聊天机器人的输入。你可以高亮显示代码或文本的部分,帮助ChatGPT专注于项目的正确部分,但ChatGPT也会包含周围的文本。这听起来似乎会用到很多输入标记。
K2XRKoG
~WjK'N4n5 调用Xcode的Chatgpt(图片:OpenAI)
<2n5|.:> !K8Kw
W|X 目前还不清楚OpenAI计划如何将这一功能扩展到其他不兼容苹果屏幕阅读器的应用程序。Anthropic是OpenAI的竞争对手之一,它发布了一个人工智能系统,通过分析用户的桌面截图来理解和使用其他应用程序。坦率地说,Anthropic的方法在目前的状态下还有很多不足之处:速度慢,错误多。不过,它是一个更通用的人工智能代理,不依赖于应用程序接口,能做的不仅仅是读取另一个窗口中的文本。
_o52#Q4 YE*%Y[" Embiricos介绍说:"这并不是要成为一个代理,它只是一种与编程工具协作的方式,很快就会有更多的工具出现。在代理方面,我认为这是一个非常关键的组成部分。ChatGPT能够理解或处理你所拥有的所有内容,从而帮助你处理这些内容。"
%`_Rl>@K= O"M2*qiH 根据彭博社最近的报道,OpenAI即将发布一款代号为"Operator"的通用人工智能代理,因此向代理迈出的这一步尤其值得注意。该工具预计将于2025年初面世,可与其他早期尝试的通用人工智能代理相媲美,如Anthropic的Computer use或Google报道的"Jarvis"代理。
( <e q[( RoFOjCc>D. OpenAI将首先在MacOS上发布这些功能,就在苹果于12月推出与ChatGPT的集成前不久。目前还不清楚"Work with Apps"何时会登陆Windows,因为Windows是由OpenAI最大的支持者微软创建的操作系统。
t] CA!i`