美国商务部下属的国家标准与技术研究院(NIST)是为美国政府、企业和公众开发和测试技术的机构,最近重新发布了一款测试平台,用于测量恶意攻击,特别是那些“污染”AI模型训练数据的攻击,如何可能降低AI系统的性能。
这款名为Dioptra(以古代天文学和测量仪器命名)的模块化开源网络工具,最初于2022年发布,旨在帮助训练AI模型的公司和使用这些模型的人评估、分析和跟踪AI风险。据NIST称,Dioptra可以用于基准测试和研究模型,也可以提供一个通用平台,在“红队”环境中模拟威胁来暴露模型。
“NIST在新闻稿中写道:‘测试对抗性攻击对机器学习模型的影响是Dioptra的目标之一。’这款开源软件,如同生成儿童可免费下载的那样,可以帮助包括政府机构和中小型企业在内的社区进行评估,以评估AI开发者对其系统性能的声明。”
Dioptra与NIST和NIST新成立的AI安全研究所发布的文件一起首次亮相,这些文件提出了减少AI危险的方法,例如如何防止其被滥用来生成未经同意的色情内容。这与英国AI安全研究所的Inspect工具集的发布类似,Inspect同样旨在评估模型的能力和整体模型安全性。美国和英国正在进行一项联合开发高级AI模型测试的合作关系,这一合作在去年11月于英国布莱奇利公园举行的AI安全峰会上宣布。
Dioptra也是美国总统乔·拜登关于AI的行政命令(EO)的产物,该命令要求(除其他事项外)NIST协助AI系统测试。相关行政命令还制定了AI安全和保安标准,包括要求开发模型的公司(如苹果)在向公众发布之前通知联邦政府并共享所有安全测试的结果。
正如我们之前所写的那样,AI基准测试是困难的——尤其是因为当今最复杂的AI模型是“黑箱”,其基础设施、训练数据和其他关键细节都由创建它们的公司保密。英国Ada Lovelace研究所发布的一份报告发现,仅仅依靠评估不足以确定AI模型的现实安全性,部分原因是当前政策允许AI供应商选择性地选择进行哪些评估。
NIST并不声称Dioptra可以完全消除模型的风险。但该机构建议,Dioptra可以揭示哪些类型的攻击可能会降低AI系统的性能,并量化这种影响。
然而,有一个主要的限制,Dioptra只能在可以下载并本地使用的模型上开箱即用,如Meta的Llama系列。对于那些通过API访问的模型,如OpenAI的GPT-4o,目前还无法使用。