为了提升人工智能开发中的透明度和责任制,OpenAI发布了“Model Spec(模型规范)”的初步草案。这一独创性文件首次概述了在其API和ChatGPT中指导模型行为的原则。
“我们这样做是因为我们认为人们能够理解和讨论塑造模型行为所涉及的实际选择非常重要,”公司在博文中表示。“Model Spec反映了我们在OpenAI使用的现有文档、我们在设计模型行为方面的研究和经验,以及为指导未来模型发展而进行的工作。这是我们持续改进模型行为的承诺的延续,通过人类输入,并补充了我们的集体对齐工作和更广泛的系统方法来确保模型安全。”
模型行为,即人工智能模型对用户输入的响应,在AI与人类互动中起着至关重要的作用。塑造这种行为是一项复杂的任务,因为模型是通过各种数据学习的,并且在实践中可能会遇到不同的目标。
OpenAI表示,塑造这种行为仍然是一门新兴的科学,因为模型并不是通过明确的编程而是通过广泛的数据学习的。Model Spec的草案概述了塑造AI行为的三个方面。这份文件详细说明了OpenAI的“期望模型行为”,以及公司在“出现冲突时如何评估权衡”。
Model Spec的第一部分着重于核心目标。这些目标是指导模型行为的广泛原则,包括帮助用户实现他们的目标、造福人类、以及对OpenAI产生积极影响。这些基本原则还要求模型行为遵守“社会规范和适用法律”。
除了这些广泛的目标外,文件还提供了明确的指导,博客称之为“规则”。这些规则旨在应对复杂的情况,并“帮助确保AI行动的安全性和合法性”。其中一些规则包括遵循用户的指示、遵守法律、避免创建信息危害、尊重用户权利和隐私,以及避免生成不适当或不适合工作场所的内容。
最后Model Spec承认,在这些目标和规则“冲突”的情况下可能会出现。“为了应对这些复杂性,文件建议AI模型遵循默认行为。这些默认行为包括假设用户的最佳意图,帮助而不“越界”,以及鼓励尊重的互动。
全球研究和咨询公司Counterpoint Research的副总裁兼合作伙伴Neil Shah表示,“这是模型理想应该走的方向。看到OpenAI为用户的行为制定了更多的上下文和个性化,但更重要的是‘负责任’,这是很好的。”
OpenAI另一份详细说明Model Spec的文件表示:“我们的目的是将Model Spec用作研究人员和数据标记者创建数据的指南,作为一种称为从人类反馈中进行强化学习的技术的一部分。”“与我们的模型一样,该规范将根据我们通过共享和听取利益相关者的反馈所学到的知识而持续更新。”
RLHF将推动模型如何更加符合实际人类行为,但也使其目标、原则和规则更加透明。这使得OpenAI模型更加负责任和有用。“尽管这将是一个不断变化的目标,以微调规格,因为在构造查询和最终目标方面存在许多灰色区域,模型必须足够智能和负责任,以侦测到查询和响应是否不负责任。”
Model Spec代表了实现道德人工智能的重要一步。该公司强调了与用户和公众建立信任的重要性,后者在日常生活中与人工智能系统的交互日益增加。