NVIDIA的研究人员将在本周于西雅图举办的计算机视觉与模式识别(CVPR)会议上展示新的视觉生成AI模型和技术。这些进展涵盖了定制图像生成、3D场景编辑、视觉语言理解以及自动驾驶感知等领域。
NVIDIA学习与感知研究副总裁Jan Kautz表示:“人工智能,尤其是生成AI,代表了一个关键的技术进步。”
“在CVPR上,NVIDIA Research展示了我们如何突破可能性的边界——从能够极大增强专业创作者能力的强大图像生成模型,到可能帮助实现下一代自动驾驶汽车的软件。”
在NVIDIA展示的50多个研究项目中,有两篇论文入围了CVPR最佳论文奖的决赛——其中一篇探索了扩散模型的训练动态,另一篇则研究了用于自动驾驶汽车的高清地图。
此外,NVIDIA还赢得了CVPR自主大挑战中的大规模端到端驾驶赛道,超过了全球450多份参赛作品。这一里程碑展示了NVIDIA在使用生成AI为全面的自动驾驶车辆模型方面的开创性工作,并因此获得了CVPR的创新奖。
其中一个重要的研究项目是JeDi,这是一种新技术,可以让创作者通过少量参考图像快速定制扩散模型——这种领先的文本到图像生成方法——以描绘特定对象或角色,而不需要耗时的自定义数据集微调过程。
另一个突破性进展是FoundationPose,这是一种新型基础模型,可以在无需单独对象训练的情况下即时理解和跟踪视频中的3D姿态。它创下了新的性能记录,可能会开启新的增强现实和机器人应用。
NVIDIA研究人员还介绍了NeRFDeformer,这是一种通过单个2D快照编辑神经辐射场(NeRF)所捕捉的3D场景的方法,而不需要手动重新动画化变化或完全重建NeRF。这可以简化图形、机器人和数字孪生应用中的3D场景编辑。
在视觉语言领域,NVIDIA与麻省理工学院合作开发了VILA,这是一组新型视觉语言模型,在理解图像、视频和文本方面达到了最新的性能水平。通过增强的推理能力,VILA甚至可以通过结合视觉和语言理解来理解网络上的表情包。
NVIDIA的视觉AI研究涉及多个行业,包括十多篇论文探索了自动驾驶感知、地图绘制和规划的创新方法。NVIDIA AI研究团队副总裁Sanja Fidler将介绍视觉语言模型在自动驾驶汽车中的潜力。
NVIDIA在CVPR上的研究广度展示了生成AI如何赋能创作者、加速制造和医疗领域的自动化,同时推动自主和机器人技术的发展。