旷视全面夯实“2+1”的AIoT核心技术科研体系-MEGVII旷视科技

旷视全面夯实“2+1”的AIoT核心技术科研体系

2022-07-18

7月15日，2022旷视技术开放日（MegTech 2022）在北京举行。旷视联合创始人、CEO印奇在主题演讲中表示：“今年是旷视成立的第十一个年头，也是MegTech举办的第二年。未来，我们希望每年都能举办一届MegTech，而且越办越好，让它能够真正成为每位旷视人和旷视朋友的技术节日。”

锚定AIoT战略，构建“2+1”的核心技术科研体系

AI是人类对于科技的最高追求，在每个阶段都有具象化的定义，成为那个时代技术和商业结合的主旋律。自成立以来，AIoT一直是旷视核心的战略关键词。旷视将AIoT定义为“AIoT=AI+IoT+空间”。其中，“AI”和“IoT”是两个相辅相成的核心关键词。AI是不断演进的算法能力，如今越来越多的AI算法正在各行各业发挥核心的价值；IoT是软硬结合的设备载体，只有在特定的载体中，AI才能最大限度地释放其价值。在此基础上，旷视还强调“空间”这一关键词，提出空间是应用场景的闭环。在过去二三十年，互联网、5G、AR、VR等技术的不断演进，给虚拟世界带来了翻天覆地的变化。但与此同时，技术对于物理世界的改造并没有发生根本性的变化。旷视认为，“Make the Physical World Better”将是未来AIoT从业者努力追求的方向。

旷视联合创始人、CEO印奇在旷视技术开放日上的分享

为了支撑AIoT这一长期发展战略，旷视构建了“2+1”的AIoT核心技术科研体系，即以“基础算法科研”和“规模算法量产”为两大核心的AI技术体系，和以“计算摄影学”为核心的“算法定义硬件”IoT技术体系（包括AI传感器和AI机器人）。AI为“本”，是旷视一直坚持的核心能力；IoT为“器”，是旷视实现AI规模化落地的硬件载体。这一整套科研体系，涵盖了从基础研究、算法生产到软硬一体化产品的AI落地全链路。印奇表示，“2+1”的AIoT核心技术科研体系，是支撑旷视未来不断走向AIoT商业化成功的重要基石。

“大”和“统一”成为当今视觉AI基础研究的新趋势

基础模型科研是AI创新突破的根基。在2012年AlexNet被提出之后，基于深度学习的神经网络成为AI视觉发展的主要原动力之一。神经网络根据用途、构建方式的不同，大致可以分为CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等。这些模型极大地推动了AI发展的历史进程。

当时间来到2022年，旷视认为，“大”和“统一”已经成为视觉AI基础研究的最新趋势。

其中，“大”主要是指AI大模型，即利用大数据、大算力和大参数量，提高模型的表达能力，使得AI模型能够适用于多种任务、多种数据和多种应用场景。

旷视研究院基础科研负责人张祥雨在旷视技术开放日上的分享

旷视研究院基础科研负责人张祥雨认为，“大”是提高AI系统性能的重要捷径之一。但是，大并不意味好，片面地追求大参数量、大计算量和大数据量，并不一定能够实现更强大的模型，反而会产生更大的计算开销，令整体收益非常有限。旷视基础科研倡导的“大”，是要以创新的算法驱动，充分发挥大数据、大算力的威力，拓展AI认知的边界。旷视关于“大”的研究，从实用角度出发，集中体现在大模型、大算法和大应用三个层面。

同时，AI视觉的研究领域众多，包括CNNs、VL Models、 Transformers等基础模型研发，物体检测、分割等视觉基础应用，优化、自监督、半监督等AI算法演化等。每个研究路径，都会衍生出一系列算法。

旷视通过研究发现，这些算法在底层正在走向统一。通过统一的算法、模型来表示和建模各种数据、任务，将产生更加简单、强大且通用的系统。围绕“统一”的趋势，旷视在“基础模型架构”、“算法”和“认知”，进行了全面布局。旷视基础科研的“统一”，集中体现在统一各种基础模型架构，从纷繁的AI算法中提炼其本质特性，使其能支持各种任务、数据和平台，并最终构建统一的、高性能的视觉AI系统。

在“大”和“统一”的理念下，旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向，并取得了多项突出的科研成果。张祥雨强调，基础模型科研需要坚持长期主义，旷视将始终以原创、实用和本质作为基础科研的指导原则，致力于解决人工智能最本质的难题。

AIS平台让算法量产成为现实

旷视研究院算法量产负责人周而进总结了过去十多年在算法生产和应用落地过程中的实践经验。在推动算法在各行各业的实际场景落地的过程中，旷视一直坚持“落地实用是算法价值的最终检验标准”。

在周而进看来，算法落地的主要挑战在于整个生产环节的复杂性上。具体来说，分为三个层面：第一，数据生产的复杂性。第二，算法模型本身的不确定性。第三，算法落地的AIoT硬件平台的多样性。

面对如此复杂的挑战，他认为“算法生产过程的标准化，是解决复杂的、碎片化的算法生产的有效手段”。这个标准化过程，包括了数据生产的标准化、算法模型的标准化和推理框架的标准化。

旷视研究院算法量产负责人周而进在旷视技术开放日上的分享

为此，旷视今天正式发布了自研的算法生产平台AIS（AI Service）。AIS基于旷视Brain++体系，构建了一套覆盖数据处理、模型训练、性能分析调优、推理部署测试等算法生产全链路的零代码、自动化的生产力工具平台。AIS标志着旷视Brain++的又一次飞跃，让算法量产真正成为可能。

旷视 AIS 算法生产平台提供多种功能支持算法快速生产部署，可以大幅降低算法生产的门槛，提升算法生产效率。目前，AIS平台已经能够支持100多种业务模型训练，最快2小时即可完成，而且模型产出精度指标远高于业界平均水平。经验证，算法研发人员使用Brain++和AIS平台，可以实现智能标注平均加速30倍，自动学习训练加速4至20倍。

周而进强调，算法量产不是单一的产品，而是对AI生产模式的理念革新和生产力进化。旷视希望通过AI算法生产的标准化以及AI生产力平台的构建，极大地降低算法生产的成本和门槛，让更多人可以参与进来，促进算法在更多行业的落地。

AI传感器是“算法定义硬件”的核心单元

AIoT产生了海量的应用场景，其需求在不断地改变与升级，这对于算法提出了越来越多的需求。同时，算法本身也对于硬件应该提供怎样的信息和输入提出了要求，甚至从根本上改造了硬件的形态与样式。因此，“算法定义硬件”的全新理念应运而生。

旷视研究院计算摄影负责人范浩强以AI传感器为例，分享了旷视在“算法定义硬件”方面的最新思考与进展。他认为，随着AI、视觉算法等领域的发展，传感器将不再单独的、直接地提供应用价值，传感器和应用之间需要算法来作为承上启下的桥梁。从技术角度讲，这两者最显著的结合点就是计算摄影。

旷视研究院计算摄影负责人范浩强在旷视技术开放日上的分享

范浩强以手机拍照在灯光、月光、星光等不同环境下成像能力的提升为例，介绍了在AI算法和传感器的协同工作下，手机拍照画质如何发生了翻天覆地的变化。此外，在非成像的屏下光学指纹方面，算法也在牵引传感技术向前发展。目前，旷视助力一家业内顶尖的合作伙伴，实现了千万颗级的指纹传感器出货。该产品具备业界最小的尺寸、最快的识别速度以及支付级的安全认证。

范浩强认为，“应用-算法-传感器”的全链路整合能力，是“算法定义硬件”的核心。而旷视是业界极少数能将传感器的光学、模组、电子学的设计能力，传感器的物理建模和算法能力，以及传感器的应用能力融为一体的公司。

在今年的旷视技术开放日上，20个有料有趣的技术Demo也集中亮相，系统性地展示了旷视在前沿技术探索、软硬件协同设计、算法量产应用，以及商业化产品落地方面的领先实力。

印奇最后强调，“科研实力和竞争力，最终都将回归到人。‘技术信仰、价值务实’不仅是旷视的科研人才观，更是旷视公司的人才观“。为此，旷视将不懈努力，通过聚集最优秀的人才，一起做最好的科研，通过产品让科研成果创造价值，不断探索新领域，让人工智能技术为这个世界创造更多美好。

旷视全面夯实“2+1”的AIoT核心技术科研体系

2022-07-18