视觉大模型将是下一个风口

第05版：信息通信

放大+ 缩小- 默认o

视觉大模型将是下一个风口

本报记者宋婧

计算机视觉正在迈入“大模型时代”。前不久，来自UC伯克利计算机视觉领域的三位知名学者联手推出了第一个无自然语言的纯视觉大模型（Large Vision Models），并第一次证明了纯视觉模型本身也是可扩展的（scalability）。随后，谷歌、微软等国际大厂公布了对视觉大模型的探索，国内百度、华为、商汤、智源、中国电信、美图等多家公司也都展示了相关布局。继自然语言大模型之后，视觉大模型会成为下一个风口吗？

视觉大模型的训练难度更高

也许很多人会有疑问：在遍地都是大模型的今天，训练出一个优质的视觉大模型很难吗？随着大语言模型的爆发，不管是学术界还是业界，都开始尝试使用“文本”来扩大视觉模型的规模。以“苹果”为例，在训练时只需给模型看“苹果”的照片，并配上描述性的文字告诉模型“这是一个苹果”。然而，在面对更加复杂的图片时，就很容易忽略其中大量的信息，造成错误理解。比如，一面镜子中倒映的车辆可能会被模型误判为真实的车辆。

“相比大语言模型，视觉信息一般都是二维（图像）、三维（立体图像）或者四维（立体视频）信息，比语言信息多了1~3个维度，难度等级呈指数级增长。”一位深耕AI深度学习的专家说道。

业内人士普遍认为，视觉并非自然语言，作为基本视觉单元的像素距离高层语义更远，找不到像“单词”这样离散化、符号化的基本语义单元，因此，简单地借鉴预训练语言模型的实现方法恐难奏效。

赛迪顾问人工智能产业研究中心常务副总经理邹德宝向记者介绍说道：“视觉大模型是一种利用深度学习技术来进行图像或视频处理的算法模型。它的基本原理是基于神经网络，通过大规模的训练数据集和高性能的计算硬件，实现对图像信息的高效处理和理解。”

与语言模型相比，视觉模型的数据更难获取。对于语言模型来说，语言数据对所有数据都有一个自然的、统一的一维结构——文本流，获得大量的、多样化的大数据集相对而言是件很容易的事，所以目前市面上的语言大模型动辄就是成千上万亿的参数规模。

然而在计算机视觉领域，不同的数据源都有不同的结构，想要拥有同样规模和多样性的数据源非常困难。华为云人工智能首席科学家田奇表示，视觉模型提取特征可能是百倍、千倍的工作量，信息密度非常低。花费的成本、数据存储等开销巨大。

除了数据获取难，视觉大模型的训练框架也是一大难点。大华股份先进技术研究院院长殷俊表示，在视觉领域没有可参照的模型架构，和现在大众认知的AGI、AIGC技术方向存在差异，在CV（Computer Vision计算机视觉）领域完全靠自己搭建。

“如何处理更复杂的图像信息，获取高分辨率的图像并让机器识别图像各要素，这些技术难点不解决，很难打造出一个优质的视觉大模型。”邹德宝坦言道。

或将在工业制造场景率先落地

近年来，伴随制造业加速转型升级，智能制造已经成为人工智能技术在工业领域中最典型的应用之一。据中国电子信息产业发展研究院信息化与软件产业研究所数字经济战略研究室主任高婴劢介绍，人工智能技术能够帮助机器通过图像学习、声音识别、感知监测等方式，快速、准确地检测产品，在减少人工质检成本、提升产品质量和生产效益方面的作用显著，在手机、家电、汽车等离散制造行业质检环节中的应用渐成规模。

视觉大模型或将率先落地在工业制造领域。宁德时代首席制造官倪军曾提出“极限制造”的概念。他表示，工业领域做到6σ（每百万个产品里头有一两个不良品）远远不够，而是需要做到9σ~12σ，即对不良品的要求上升到十亿级，每十亿个产品当中，只允许出现1~3个不良品，这对机器视觉厂商是个极大的挑战。而如今有了视觉大模型的助力，“极限制造”或许有机会走进现实。

事实上，很多工业制造场景都为视觉大模型提供了落地的可能。试想一下，如果给智能网联汽车配备上视觉大模型，困扰自动驾驶多年的视觉感知问题可能会迎刃而解。具备强大的图像处理和识别能力的视觉大模型，可以更为精准地识别车辆、行人、车道线等道路元素，并处理城市道路、高速公路、雨雪天气等更加复杂的场景和环境，从而提高自动驾驶车辆在各种场景下的适应性和鲁棒性。智能网联汽车将会迎来更多可能性。

如果让工业机器人搭载上视觉大模型，它可以模仿人类视觉系统的工作原理，对视觉数据进行更为精准的处理和分析，进一步破解工业机器人操作和控制“精度”的难题，还能不断进行学习成长，让工业机器人加速走向“具身智能”，也让智能制造迈上新的台阶。

再比如在工业质检领域，产品质检涉及大量数据和复杂的图像、声音、视频等信息，要求模型能够准确地识别和分析各种缺陷和问题，甚至是极为微小的变化。用工业知识和工业数据训练出来的视觉大模型可以捕捉到产线上工艺流程和设备运行等细节，大幅提升工业质检的效率与水平。

不过，现阶段来看，视觉大模型在工业领域的应用仍处于早期阶段，落地还面临很多挑战。例如，视觉大模型的训练和部署需要大量的数据和计算资源，而这在某些工业环境中可能难以满足。工业数据敏感性高、特殊性强，对大量实时数据、多种类型数据、异常数据的处理和分析，是一项异常复杂的工作，同时数据安全保护也是一大难题。此外，视觉大模型的准确性、稳定性和可靠性也需要在实际应用中不断验证和优化。

视觉大模型要追求“大一统”？

“在视觉模型设计领域中，追求大和统一，已经成为当下公认的重要研究方向。”旷视研究院主任研究员张祥雨表示。在他看来，构建大而通用的模型的好处在于“大反而简单”。

所谓的“大”，不仅指模型更深（越深的神经网络具有越多的参数、越强的非线性，可以建模更加复杂的任务），更加强调利用更多的数据和算力帮助人们解决通用问题，期望用统一的模型解决多个模态、多个任务。

除了“大”，“统一”也是一个研究方向。追求通用框架的意义在于可以大规模地从数据中学习知识，无须针对每个任务单独设计一套系统，避免引入大量人工，可扩展性强。从宏观的角度来说，想要解决通用人工智能问题，首先需要实现模型的规模化扩展。

“尽管‘大’是未来模型发展的趋势，但我们并不片面地追求更大的参数量和计算量。同样，我们也不应该简单追求形式上的‘统一’，更应关注统一带来的性能收益。我们希望设计出更强大的模型，以创新算法充分发挥大数据、大算力的威力，随着参数量、训练算法的提升在某个时间点上获得性能的质变，即‘涌现’。”张祥雨表示。

虽然视觉大模型能为机器学习带来更广泛的应用场景和更高的表现能力已成共识，但广东工业大学教授蔡念表示，这需要海量的数据支撑，企业如果想用好大模型，就要不断挖掘工业制造数据，为大模型提供足够的训练数据来源，此外还需要考虑参数和算力的问题。这些要求对于大企业而言问题不大，但巨大的成本是很多中小型企业难以负担的。

蔡念认为，此时不如考虑小模型和轻量化大模型。智能制造场景化、碎片化明显，这就需要专注于特定领域进行训练，进行不同场景的模型定制化，最终形成某一领域的通用模型。这意味着，机器视觉的理想未来，是在复杂的应用场景中打造标准化的应用方案。

放大+ 缩小- 默认o