高文院士:三维视觉重新定义智能安防
2020 年 9 月 5 日,第三届「中国人工智能安防峰会 」即将于杭州强势重启 。(原计划 6 月 20 日开幕,疫情原因延期召开)
一名科学家开山立派,最显著的标志就是世界级的重大研究方向,能够与该学者划上等号,如相对论之于爱因斯坦,神经网络之于 Geoffrey Hinton 。
安防领域的这些研究方向是什么?代表人物是谁?
没有人知道标准答案 。
上一个十年的安防技术创新,混沌、碎片、野蛮生长 。
项目工程为导向的技术部署模式,也使得基础研究对这个行业的改变乏善可陈 。
而在自主创新与新基建的时代浪潮推动下,前沿技术将进一步走到台前 。
那么下一个十年安防技术的趋势是什么?
「中国人工智能安防峰会 」给出的答案是:城市大脑数字视网膜化、机器视觉三维化、数据建模联邦学习化 。
数字视网膜、三维视觉、联邦学习,对应的世界级领军科学家,分别是高文、权龙、杨强 。
高文,中国工程院院士,中国计算机学会前理事长
权龙,全球最高级别人工智能会议 CVPR 主席
杨强,国际人工智能联合会首位华人理事会主席
2018-2020 年间,中国人工智能安防峰会,分别邀请了高文、权龙、杨强,首次出席安防论坛,讲述世界级前沿技术,对安防行业的变革 。
第一届「中国人工智能安防峰会 」
中国工程院院士、鹏城实验室主任 高文
城市大脑与数字视网膜
文章插图
高文院士
2018 年 3 月,深圳,雷锋网 AI 掘金志举办中国首个以「动态人脸与车辆识别」为主题的 AI 安防峰会 。
这是业内第一次将五大安防企业(海大宇天网)及商汤等 AI 独角兽的首席技术高管,聚于一堂的行业盛会 。
峰会之上,中国工程程院院士、鹏城实验室主任高文带来了题为《城市大脑与数字视网膜》的开场报告 。
他提到,智慧城市已被谈及多年,“视频监控+AI”也成为众多公司研究的方向 。
现阶段,通过监控摄像头让城市变得更智智慧,不仅仅是单一的视频检索和计算机视觉问题,而是在面临海量信息和突发事件时,能否能迅速做出反应、能否降低计算量、能否有效识别和检索等一系列庞大的系统工程 。
现有视频监控体系的弊病,使得很多复杂任务无法完成,即便是人工智能大规模渗入后,需求方也往往为了一些特殊目的才加特定的智能摄像头和处理系统 。有些专用摄像头只是用来识别车牌号,有些摄像头只用来识别人脸,这种打补丁式的方法实际会带来很多问题 。
针对这些问题,高文院士提出了“数字视网膜”的概念 。
所谓数字视网膜,即类比于人类视网膜,对传统摄像头乃至视觉计算架构进行演进与革新,从而能够更加智能地支持城市大脑,服务智能安防、城市精细管理等智能应用 。
具体来说,传统摄像头只是把拍摄到的视频数据压缩后上传到云端进行存储,再做分析识别处理 。
而数字视网膜则要求在摄像头端对拍摄视频进行高质量视频编码和视觉特征提取编码,对压缩编码过后的视频流进行本地存储的同时按需上传到云端,而所有的紧凑特征流同步实时同步到云端,从而既能够保证高效的存储,又能够便捷地支撑大数据查询分析 。
与此同时,支持在端 - 边 - 云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换 。
简而言之,数字视网膜就是这样一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构 。
这一概念从正式提出至今,才不过三年,然而从最初构想、前期实践、到理论基础构建却花了近五年的时间 。即使到现在,数据视网膜的技术框架也仍然在不断完善当中,但其影响却将是颠覆性的 。
正如高文院士在 2018 年的一篇文章中提到:
我国已明确提出“到 2020 年,基本实现全域覆盖、全网共享、全时可用、全程可控的公共安全视频监控建设联网应用”,但是如果没有重大技术突破,数千万摄像头根本无法实现“全网共享”的实时数据汇聚,更不可能实现“全时可用”的联网分析识别,“数据大”变不成“大数据”,巨大潜在价值无法发掘 。数字视网膜是应对上述挑战的一种可行的颠覆性技术发展方向 。
高文院士对于「数字视网膜」的理解,是伴随着对城市中视频监控体系所存在问题的深刻认识而不断深化的 。
据可考查资料,高文院士最早对城市中摄像头所存在缺陷以及可能的改进进行思考始于 2013 年初(或者稍早) 。
在 2013 年新年伊始,高文院士曾接受采访,他提到现代摄像头密布,但还需要后端人力去盯,一旦遇到重大案件,去调用录像资料,却往往起不到太大作用 。
如果能够在设计视频编码时,让系统把数据中有用的信息抽取、挖掘并分析出来,不但能节省后期的人力投入,而且能起到应急作用 。
可以合理猜测,这个时候他已经有了模糊的概念,但对于具体如何去做,却仍在酝酿当中 。
在 2013 年 10 月,高文院士在中国信息化周报上发表了题为《智慧城市中的视频编码、分析与评测》的文章 。在这篇文章中,他首次系统提出了他对“智慧城市”中视频监控所存在问题的深入思考,他指出:
1、目前的监控系统在设计时是为了视频存储和以人为核心的视频跟踪,而非以计算机为中心的自动分析,因此靠这样一套系统来实现智慧城市的视频系统,去做自动分析,是根本无法完成的 。
2、智慧城市中的视频技术面临三大问题,分别是存储成本高(数据量太大)、检索困难、对象再标识难 。而这三个问题归结到本质则是两个问题,一个是编码问题,而另一个是视频分析识别问题 。因此如何对监控视频进行高效视频编码,以及如何对其进行分析和检索,是必须思考的两个本质问题 。
3、在学术界存在一个奇怪现象,即做视频编码的学者对视频分析不感兴趣;而反过来,做视频分析的人对编码也不感兴趣 。原因在于前者处理的是像素和图像块,属于图像处理领域,而后者处理的是图像特征,属于模式识别领域 。就像两条路上跑的车很难交汇 。
幸运的是,高文院士正好跨界这两个圈子,无论是在视频编码领域,还是在计算机视觉(特别是人脸识别)领域,他都有着重要的影响力 。
其学生陈熙霖、山世光两位研究员继承了他在人脸识别领域的衣钵,如今已成为国际计算机视觉领域的领军人物;
而其学生黄铁军和马思伟两位教授则继承了他在编码领域的衣钵,在国际视频编码领域也有着重要的影响力 。
高文院士对当代城市监控系统存在问题的本质分析,奠定了他在随后解决这一问题的研究思路和方向 。
关于高文院士
高文,北京大学博雅讲席教授 。1982 年于哈科大获得学士学位,1985 年于哈工大获得硕士学位,1988 年和 1991 分别获得哈工大计算机应用博士学位和东京大学电子工程博士学位 。
1991 至 1996 年就职于哈尔滨工业大学,1996 至 2006 就职于中国科学院计算技术研究所,2006 年 2 月至今就职于北京大学 。IEEE Fellow、ACM Fellow、中国工程院院士 。
他的研究领域为多媒体和计算机视觉,包括视频编码、视频分析、多媒体检索、人脸识别、多模态接口和虚拟现实 。
他最常被引用的工作是基于模型的视频编码与基于特征的对象表达 。他先后出版著作七本,合作发表 300 余篇期刊论文、700 余篇国际会议论文 。
他先后多次获得国家科技进步奖、国家技术发明奖、国家自然科学奖等学术奖励 。
第二届「中国人工智能安防峰会 」
三维视觉重新定义智能安防
2019 年 3 月 AI 掘金志再次站在技术、产业和商业格局最前沿,在杭州举办第二届「中国人工智能安防峰会」 。
大会共设置“城市大脑与边缘计算”·“全球顶尖算法应用”·“前端动态识别与智能视频云”·“城市 AIoT 与边缘智能引擎”四大议程主题 。
这一次,海康、大华、华为、阿里、腾讯、松下,因“AI 安防”首次同台 。
本次峰会之上,CVPR、ICCV 世界顶会主席权龙教授为与会者们带来了题为《三维视觉重新定义智能安防》的开场报告 。
权龙教授认为,人工智能的核心是视觉,但现在的视觉仍局限在二维识别层面,未来三维视觉重建将会成为最重要的任务 。
现在的计算机视觉就是基于卷积神经网络而来,整个 CNN 的架构非常简单,能做的事其实也没那么多,它提取了高维的特征,然后要结合其它方法解决视觉问题 。
如果有足够的数据并且能够明确定义想要的东西,CNN 的效果很好,但是它并没有智能 。
它能识别出猫和狗,但猫和狗的分类都是人类自己定义的,人们可以把猫和狗分开,也可以把复杂的狗类动物进行聚合和分类,这些东西本质上来说并不是客观的,而是主观的 。
人们做计算机视觉研究的理想,是让机器进行理解图像 。如何让它进行理解?这非常的困难,直到现在也没有人知道它怎么去进行理解 。现在它能做的,只能做到认知 。人们研究计算机视觉的目的是得到视觉特征,有了视觉特征后才能开展一系列工作 。
为什么视觉特征如此重要?在语音识别领域,语音的特征已经定义得非常清晰——音素 。
但如果拿来一个图像,问它最重要的视觉特征是什么,答案并不明确 。图像包含像素,但像素并不是真正的特征 。像素只是一个数字化的载体,将图像进行了数字化的表述 。计算机视觉的终极目标就是寻找行之有效的视觉特征 。
在这样一个拥有视觉特征前提之下,计算机视觉也只有两个现实目的,一个是识别,另一个是三维重建 。
它们的英文单词都以“re”做前缀,说明这是一个反向的问题 。
计算机视觉不是一个很好定义(ill-posed)的问题,没有一个完美的答案或方法 。
这一轮的卷积神经网络最本质的一件事是重新定义了计算机视觉的特征 。在此之前,所有的特征都是人工设计的 。今天 CNN 学来的东西,它学到特征的维度动辄几百万,在以前没有这类网络的情况下是根本做不到的 。
纵使 CNN 的特征提取能力极其强,但是不要忘记建立在 CNN 基础上的计算机视觉是单目识别,而人类是双目 。
人类的现实世界是在一个三维空间,拿着二维图像去做识别,这远远不够 。
双目视觉对整个生物世界的等级划分是非常严格的 。马的眼睛往外看,对角的部分才有可能得到一部分三维信息,但它的三维视角非常小,不像人类 。鱼的眼睛也是往两边看的,它的主要视线范围是单目的,它能看到的双目视区也是非常狭窄的一部分 。
人类有两只眼睛,通过两只眼睛才能得到有深度的三维信息 。当然,通过一只移动的眼睛,也可以获得有深度的信息 。
获取深度信息的挑战很大,它本质上是一个三角测量问题 。第一步需要将两幅图像或两只眼睛感知到的东西进行匹配,也就是识别 。
这里的“识别”和前面有所不同,前面提到的是有标注情况下的识别,这里的“识别”是两幅图像之间的识别,没有数据库 。它不仅要识别物体,还要识别每一个像素,所以对计算量要求非常高 。
在生物世界里,双目视觉非常重要,哺乳动物都有双目视觉,而且越凶猛的食肉的动物双目重叠的区域越大,用双目获得的深度信息去主动捕捉猎物 。吃草的或被吃的动物视觉单目视觉,视野很宽,只有识别而无深度,目的是被进攻时跑得快 。
在这一轮的 CNN 之前,计算机视觉里面研究最多的是三维重建这样的问题,在 CNN 之前有非常好的人工设计的视觉特征,这些东西本质上最早都是为三维重建而设计,例如 SIFT 特征 。
而在这之后的“识别”,只是把它放在一个没有结构的图像数据库里去搜索而已 。由此可见,现代三维视觉是由三维重建所定义 。CNN 诞生之前,它曾是视觉发展的主要动力源于几何,因为它的定义相对清晰 。
计算机视觉中的三维重建包含三大问题:
一、定位置 。假如我给出一张照片,计算机视觉要知道这张照片是在什么位置拍的 。
二、多目 。通过多目的视差获取三维信息,识别每一个像素并进行匹配,进行三维重建 。
三、语义识别 。完成几何三维重建后,要对这个三维信息进行语义识别,这是重建的最终目的 。
权龙教授强调,人们要把三维场景重新捕捉,但三维重建不是最终的目的,而是要把识别加进去,所以说最终的应用肯定要把三维重建和识别融为一体 。
关于权龙教授
权龙教授是享誉世界的计算机视觉与图形学专家,全球最高级别的两大计算机视觉学术会议主席,是 CVPR 和 ICCV 创办 30 多年来极为少有的华人主席 。
权龙于 1989 年在法国 INPL 取得博士学位,随后在法国 INRIA 任职 CNRS 高级研究员 。2001 年加入香港科技大学并担任视觉计算与图像科学中心主任 。
权龙同时也是知名三维重建视觉平台 Altizure 的创始人 。权龙曾于 2011 年担任 ICCV 大会主席,也将在 2022 年出任 CVPR 大会主席 。
第三届「中国人工智能安防峰会 」
(9 月 5 日召开)
国际人工智能联合会首位华人理事会主席 杨强教授
联邦学习或为 AI 安防的第二落脚点
2020 年 9 月 5 日,第三届「中国人工智能安防峰会」也将如约而至,于杭州正式启幕 。
AI 与安防的融合,经由 2018 年的静水深流、2019 年的混沌厮杀,2020 年的技术研究与方案落地将会更为清晰、成熟 。
今年峰会之上,国际人工智能联合会首位华人理事会主席杨强教授将会作题为《联邦学习下的数据价值与模型安全》的开场报告 。用新一代 AI 技术,解决人工智能落地的最大两座大山:数据孤岛与数据隐私 。
安防行业历经两次跨越,从最开始的通用级产品到解决方案,再到内容分析前置,接下来则是平台运营 。未来,安防行业背后是兆亿级别且呈几何式增长的巨大流量入口 。
眼下,AI 技术在安防市场上的应用主要还存有几个挑战:
1、认知问题相较感知问题较难解决 。感知问题可以用神经网络函数逼近,相比之下认知问题解决起来比较棘手,比如如何教会机器辨识一把椅子 。
2、在弱线索、遮挡、模糊、对象追踪等情况下,人类在识别的过程中通常会依据常识,并加入丰富的想象及推理 。但是想要将这些能力传授给机器则非常困难 。
3、计算机视觉技术带给机器的能力不只是用来观察世界,而是需要与世界建立联系,从而一起做交互,而想要做到“交互”这一步,还有很长一段距离 。
基于安防场景的不断变化,其对算法迭代的要求一定是非常严苛且上升的 。
在这个市场中,谁能够看到算法精度提升解锁的更多场景,并根据场景的变化做到最为快速且精准的反应,谁就能在未来竞比中走得更远 。
一方面,AI 在安防行业的探索才刚刚开始;另一方面,做好 AI 所必须的数据养料有限且质量较差,不同数据源之间存在难以打破的壁垒 。
除了少数几家拥有海量用户、具备产品和服务优势的巨无霸企业外,大多数中小型 AI 安防企业难以以一种合理、合法的方式跨越人工智能落地的数据鸿沟,或者需要付出巨大的成本来解决这一问题 。
此外,随着大数据的发展,重视数据隐私和安全已经成为一种世界性的趋势,一系列条例的出台更是加剧了数据获取的难度,这也给人工智能的落地应用带来了前所未有的挑战 。
何解?针对这个问题,雷锋网同时采访了六位学术界、工业界领头人,得到的答案比较一致:从目前的研究进展来看,“联邦学习”技术可能是解决以上问题的最佳选择 。
联邦学习作为新一代人工智能基础技术,正在渗透到 AI 商用瓶颈的根源,通过解决数据隐私与数据孤岛问题,重塑城市安防、金融、医疗等领域 。
近两年,在杨强教授等世界级专家的联合推动下,国内外诸多科技巨头,均已开始搭建联邦学习的研究与应用团队 。
眼下,国内已经出现联邦学习、共享智能、知识联邦、联邦智能和异步联邦学习等多个相关研究方向 。
【高文院士:三维视觉重新定义智能安防】 本次第三届中国人工智能安防峰会,杨强教授所引领的联邦学习技术是否有新的进展?技术的迭代又匹配了哪些城市安防场景?而这是否又会带来新一轮的市场洗牌?
责任编辑:pj
推荐阅读
- 杨卫院士:中国打造一流期刊平台,还需迈过几道坎?
- 院士和博士哪个级别高 有什么区别
- 孕妇做三维彩超的作用是什么?
- 千万人反对茅台提名院士,《柳叶刀》研究已有答案:这院士不能给
- 学习钟南山院士的健康饮食攻略
- 自媒体如何提高文章内容质量,新手如何打造爆款文章
- 钟南山院士的健康饮食“6吃6不吃” 管住嘴,不健康食物要少吃