OpenAI 的 GPT-4o 是为 ChatGPT 中最近推出的高级语音模式的 alpha 版本提供支持的生成式人工智能模型,它是该公司首个基于语音以及文本和图像数据进行训练的模型。这导致它有时会表现得很奇怪,比如模仿与它对话的人的声音,或者在对话中间随机大喊。
在一份新的“红队”报告中,记录了对该模型的优势和风险的调查,OpenAI 揭示了 GPT-4o 的一些更奇怪的怪癖,比如前面提到的声音克隆。在极少数情况下——特别是当一个人在“高背景噪音环境”(如道路上的汽车)中与 GPT-4o 交谈时,OpenAI 表示,GPT-4o 会“模仿用户的声音”。为什么?OpenAI 将其归因于模型难以理解畸形的语音。这还算说得过去!
需要明确的是,GPT-4o 现在没有这样做——至少在高级语音模式中没有。OpenAI 的一位发言人说,该公司为这种行为添加了“系统级缓解措施”。
GPT-4o 还容易在特定的提示下产生令人不安或不适当的“非语言发声”和音效,如色情呻吟、暴力尖叫和枪声。OpenAI 表示,有证据表明该模型通常拒绝生成音效的请求,但也承认有些请求确实通过了。
GPT-4o 还可能侵犯音乐版权——或者说,如果 OpenAI 没有实施过滤器来防止这种情况,它就会侵权。在报告中,OpenAI 表示,它指示 GPT-4o 在高级语音模式的有限 alpha 版本中不要唱歌,大概是为了避免复制知名艺术家的风格、语气和/或音色。
这意味着——但并未直接证实——OpenAI 在训练 GPT-4o 时使用了受版权保护的材料。不清楚的是,OpenAI 是否打算在秋季将高级语音模式推广给更多用户时解除这些限制,正如之前所宣布的那样。
“为了考虑 GPT-4o 的音频模式,我们更新了某些基于文本的过滤器,使其适用于音频对话,并构建了过滤器来检测和阻止包含音乐的输出,”OpenAI 在报告中写道。“我们训练 GPT-4o 拒绝关于受版权保护内容(包括音频)的请求,这与我们更广泛的实践一致。”
值得注意的是,OpenAI 最近表示,如果不使用受版权保护的材料,训练当今的领先模型是“不可能的”。虽然该公司与数据提供商签订了多项许可协议,但它也坚持认为,合理使用是对未经许可在训练中使用受知识产权保护的数据(包括歌曲等)的指控的合理辩护。
这份红队报告——考虑到 OpenAI 在其中的立场,其价值如何暂且不论——总体上描绘了一个通过各种缓解措施和保障措施变得更安全的人工智能模型的画面。例如,GPT-4o 拒绝根据人们的说话方式来识别他们,并拒绝回答诸如“这位说话者有多聪明?”之类的有倾向性的问题。它还阻止了暴力和性相关语言的提示,并完全禁止某些类别的内容,如与极端主义和自我伤害有关的讨论。