OpenAI 的 ChatGPT 现在能够与您电脑上的其他应用程序进行协同工作。 周四,这家初创公司宣布,其适用于 macOS 的 ChatGPT 桌面应用程序现已支持在一些面向开发者的编程应用程序中读取代码,包括 VS Code、Xcode、TextEdit、Terminal 和 iTerm2。
这意味着开发者无需再将代码复制粘贴到 ChatGPT 中,这种做法曾是使用该聊天机器人的一种普遍方式。现在,启用该功能后,OpenAI 将自动通过其聊天机器人发送您正在处理的代码段作为上下文,连同您的提示一起。 然而,与流行的 AI 编程工具如 Cursor 或 GitHub Copilot 不同,ChatGPT 目前无法直接在开发者应用程序中代表您编写代码。
虽然名为“与应用程序协同工作”的功能并非一个 AI 代理,但 OpenAI 表示,让 ChatGPT 理解其他应用程序是构建代理系统的关键步骤。当前,人工智能代理面临的重大挑战之一是让它们能够理解电脑屏幕上除提示或自身响应之外的其他内容。 OpenAI 表示,该功能首先将专注于编程应用程序,这可能是因为 AI 编程助手已成为大型语言模型中最受欢迎的应用场景之一。
该功能目前可供 Plus 和 Teams 用户使用,并将在未来几周内向 Enterprise 和 Edu 用户推广。OpenAI 表示,未来 ChatGPT 将能够与其他类型的应用程序进行协同工作,尤其是那些适用于写作任务的文本基础应用程序。 在与 TechCrunch 的一次演示中,OpenAI 的一名员工打开了 ChatGPT 应用程序,并启动了一个 Xcode 环境,其中包含一个模拟太阳系的简单项目——尽管该项目缺少了地球。
该员工在 ChatGPT 中选择了 Xcode 标签,指示 AI 聊天机器人关注该应用程序,并提示它“添加缺失的行星”。聊天机器人成功完成了任务,编写了一行代码来代表地球,与项目中其他部分的格式保持一致。然而,他们仍需将 ChatGPT 的回答粘贴回他们的开发环境中。 据 OpenAI 桌面产品负责人亚历山大·恩比里科斯所述,OpenAI 主要利用 macOS 的辅助功能 API 来读取不同应用程序中的文本,并将其转换为 ChatGPT 可理解的格式。
macOS 上的屏幕阅读器协助苹果的 VoiceOver 功能,该功能已存在近二十年。对于大多数常见应用程序而言,它通常被认为相当可靠,但并非适用于所有应用程序。 对于某些应用程序,例如微软的 VS Code,要实现“与应用程序协同工作”,用户需要安装一个特殊扩展以查询内容。正如其名称所暗示的,苹果的屏幕阅读器仅限于读取文本,因此无法协助 ChatGPT 理解视觉元素,例如照片、物体的方向或视频。 对于某些应用程序,“与应用程序协同工作”功能会将您最近的 200 行代码连同每个提示一起发送至 ChatGPT。
对于其他应用程序,聊天机器人将使用您当前窗口中的全部代码作为输入。您可以突出显示代码或文本的特定部分,以帮助 ChatGPT 集中关注项目的正确部分,但 ChatGPT 同样会包括周围的文本内容。这听起来会消耗大量的输入标记。 目前尚不明确 OpenAI 将如何将此功能扩展至不兼容苹果屏幕阅读器的其他应用程序。Anthropic,作为 OpenAI 的竞争对手之一,发布了一种人工智能系统,该系统通过分析用户桌面的屏幕截图来理解和操作其他应用程序。
坦率地讲,Anthropic 的方法目前存在一些不足:其速度较慢且错误较多。然而,这是一个更为通用的 AI 代理版本,它不依赖于 API,并且能够执行的任务不仅限于在另一个窗口中读取文本。 “这并不意味着它是一个代理;这只是开始与编程工具协同工作的一种方式,并且很快将有更多工具推出。”恩比里科斯在与 TechCrunch 的一次简报中表示。“在代理方面,我认为这是一个至关重要的基础。即 ChatGPT 能够理解或处理您所拥有的一切内容,以便为您提供帮助。”
鉴于最近有报道称 OpenAI 即将推出一个名为“Operator”的通用人工智能代理,这一迈向代理的步骤尤其值得关注。据彭博社报道,该工具预计将在 2025 年初发布,并将与 Anthropic 的 Computer use 或谷歌传闻中的“Jarvis”等早期通用人工智能代理竞争。 OpenAI 首先在 macOS 上推出这些功能,恰好在苹果于 12 月推出与 ChatGPT 的集成之前。目前尚不清楚“与应用程序协同工作”功能何时会扩展至 Windows 系统,该系统由 OpenAI 的主要支持者微软开发。