说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

计算机视觉,让冰冷的机器看懂这个多彩的世界

HTML文档下载 WORD文档下载 PDF文档下载
计算机视觉能超越人类双眼的感官,用声波、红外线来感知一切。微软亚洲研究院首席研究员孙剑以如何让计算机看懂世界为主题,详细介绍计算机视觉的基本概念、面临挑战以及一些带来重要突破的技术并展望未来演进趋势。

从茹毛饮血的蛮荒,到钢筋水泥的城市,人类逐步将自身能力投射到计算机上。无论是计算能力,还是记忆能力,计算机的如今表现都堪称卓越。但仅拥有这些还远远不够,我们期待计算机可以做得更多。一部风靡全球《星际穿越》激起了无数人对探索浩瀚宇宙奥秘的渴望,也让许多人记住了Tars这个聪明可爱、幽默风趣的智能机器人。


“人工智能”主题的好莱坞电影一直广受影迷们的喜爱,人类用无尽的想象力和炫目的特技构筑了一个又一个无比精彩的未来世界,令人如痴如醉。不过,回到现实,计算机科学家们的行动力却看似远远赶不上电影艺术家们的想象力,电影终归是电影,要研发出一个像Tars一样能看懂周围世界、听懂人类语言、并和人类进行流畅对话的智能机器人,我们要走的路还有很长。

长时间来,让计算机能看、能听、能说一直是我和计算机界同行们孜孜以求的目标。耕耘在计算机视觉领域十余年,赋予计算机一双慧眼,让它也能看懂这个多彩的世界,一直是激励着我在这条充满挑战的道路上前行的重要力量。虽然计算机暂时还无法像电影中所展现的那般智能,但已经取得了很多令人惊喜的成绩。在这篇文章中,我将就如何让计算机能“看”懂世界这个主题,为大家介绍计算机视觉的基本概念、这个领域面临的挑战、一些带来重要突破的技术并展望未来的演进趋势。

世界如何在我们眼中形成?

对人类而言,“认人”似乎是与生俱来的本能,刚出生几天的婴儿就能模仿父母的表情;它赋予我们只凭极少细节就分辨彼此的能力,借着暗淡灯光我们仍能认出走廊那端的朋友。然而,这项对人类而言轻而易举的能力,对计算机而言却举步维艰。过去很长一段时间,计算机视觉技术徘徊不前,在进一步探求前,不如先谈谈我们是如何用眼睛观察世界的。

相信大家都在中学的物理课上尝过小孔成像的原理。不过人的眼睛要比小孔成像复杂得多,当我们观察物体时,每秒大约扫视3次,并有1次驻留。当视网膜的感光体感受到蜡烛的轮廓,一个被称为中央凹的区域其实是以扭曲变形的形式记录下蜡烛的形状。

那么问题来了,为何我们看到的世界既未扭曲也没有变形呢?很简单,因为人类拥有大脑皮层这个万能的“转换器”,它将我们的视觉神经捕捉到的信号转换为真实的形象。这个“转换器”可简化理解为四个区域,生物学家将它们分别称为V1、V2、V4和IT区。V1区的神经元,只针对整个视觉区域中很小的一部分做出反应,例如,某些神经元发现一条直线,就变得异常活跃。这条直线可以是任何事物的一部分,也许是桌边,也许是地板,也许是这篇文章某个字符的笔划。眼睛每扫视一次,这部分神经元的活动就可能发生快速变化。

奥秘出现在大脑皮层顶层的IT区,生物学家发现,物体在视野的任何地方出现(例如一张脸),某些神经元会一直处于固定的活跃状态中。也就是说,人类的视觉辨识是从视网膜到IT区,神经系统从能识别细微特征,到逐渐变为能识别目标。如果计算机视觉也可以拥有一个“转换器”,那么计算机识别的效率将大为提高,人眼视觉神经的运作为计算机视觉技术的突破提供了启迪。

计算机为何总是“雾里看花”?

尽管人眼识别的奥秘已经被逐步揭开,但直接应用于计算机上却非易事。我们会发现计算机识别总是在“雾里看花”,一旦光线、角度等发生变化,计算机难以跟上环境的节奏,就会误识。对计算机而言,识别一个在不同环境下的人,还不如识别在同一环境下的两个人来得简单。这是因为最初研究者试图将人脸想象为一个模板,用机器学习的方法掌握模板的规律。然而人脸虽然看起来是固定的,但角度、光线、打扮不同,样子也有差别,都令简单的模板难以匹配所有人脸。

因此,人脸识别的核心问题在于,如何让计算机忽略同一个人的内部差异,又能发现两个人之间的分别,即让同一个人相似,不同的人有别。


对人工神经网络的引进是计算机视觉超越模板识别的关键。然而人类尚且未完全掌握神经的运作机制时,又该如何引导计算机进步呢?人工神经网络在1960年代就已萌芽,初期理论只固定在简单的模型之上,即生物课上的“输入-隐层-输出”模型。在介绍神经的工作原理时,老师们一般都会简单告知是外界刺激接触到输入神经元,输入神经元再链接其他部分形成隐层,最后通过输出神经元表现出来。这些神经元的链接强度并不相同,就像不同乐谱的强弱高低不同,人工神经网络就是依靠这些神经元之间不同的链接强度,学会将输入方式映射到输出上。

不过“乐谱”只是静止不动的,而且只能从“输入走向输出”,不存在反向呈现。也就是说如果人静止不动,计算机也许可以通过这一原理读出,但这在现实生活中不可能实现。1980年代末期,用于人工神经网络的“反向传播算法”发明,它能将输出单元的错误传回输入单元,并记住它。这种方法令人工神经网络能从大量训练样本中学习统计规律,对未知事件做出预测。不过与大脑的复杂及层级结构相比,这种只包含一个隐层的神经网络构造还显得微不足道。

深层神经网络为计算机“拨云见日”

2006年,多伦多大学教授Geoffrey Hinton在深层神经网络的训练上取得了突破。一方面,他证明了多隐层的人工神经网络具备更优异的特征学习能力,另一方面能通过逐层初始化克服此前一直困扰研究者的训练难题——基本原理是先通过大量无监督数据保证网络初始化,再用有监督数据在初始化好的或者是预训练的网络上优化调整。

受到这些因素的启发,如今的人脸或图像识别研究,大多基于CNN(Convolution Neural Networks)原理。CNN可以被视为一种逐层扫描的“机器”。第一层检测边缘、角点、平坦或不平坦的区域,这一层几乎不包含语义信息;第二层基于第一层检测的结果进行组合,并将组合传递给下一层,以此类推。多层扫描之下,累加准确率,计算机就在向前文提及的“让同一个人相似,不同的人有别”这一目标迈进。


CNN的学名为带有卷积结构的深度神经网络,这一网络识别物体还可分为两个步骤:图像分类和物体检测。在第一个阶段,计算机首先识别出物体的种类,例如人、动物或其他物品;第二个阶段,计算机获取物品在图像中的精确位置——这两个阶段分别回答了“是什么”和“在哪里”两个问题。微软的智能聊天机器人“小冰”具有辨识狗的品种的能力即是CNN的典型示例。首先,需要搭建一个好几层深度卷积网络。第一层跟人类视觉系统的定义很像,用来对一些小的边缘或者小的色块做一些检测;第二层会把这些小的结构组成大的结构,如狗腿和狗的眼睛;依次向上进行组织,最后就能鉴别出狗的种类来。其次,需要往这个带有卷积结构的深度神经网络里投入很多的图,训练系统识狗的准确度。

2013年,加州大学伯克利分校的研究者们提出了一种称为叫R-CNN方式(Region-based CNN)的物体检测方法,具有很高的识别准确度,它将每张图像分为多个窗口或个子区,在每个子区域应用神经网络进行分类。但其主要缺陷在于,对于实时检测,算法过慢。为了在一张图片上检测几个物体,整个神经网络可能需要运算上千次。


在微软亚洲研究院,视觉计算组的研究员们实现了一种称为空间金字塔聚合(Spatial Pyramid Pooling,SPP)的新算法,通过在内部特征识别,而不是每个区域从头检测,对整个图片只做一次计算。利用这种新算法,在不损失准确度的前提下,物体检测速度有了上百倍的提升。在2014年ImageNet大规模视觉识别挑战赛中,微软亚洲研究院采用SPP算法的系统取得了分类第三名和检测第二名的成绩。目前,这项技术已经成功转化进入OneDrive中。采用了这项技术后,OneDrive可以自动为上传的图片添加标签。同时,用户输入关键词,就可以搜索与之相对应的图片。

展望未来:计算机视觉和人类共舞

如果单纯识别面部,而不考虑发型和身体的其他部分,人类的正确率约为97.5%,而计算机目前则能达到99%以上。这是否意味着计算机已经胜过了人类?不是,因为我们不只观察面部,身材和体态都有助于我们认出对方。在复杂光照的真实环境下,人能够更智能地选择这些分支帮助自己决策,而计算机在这方面则要逊色许多。不过,如果数据量庞大,或者面对陌生的脸孔,计算机又更强大些。如果能够各扬其长,歌词中所唱的“借我一双慧眼吧”或许将会实现。


人类通过不断发明的新技术来替代旧技术去更高效和经济地完成任务。在计算机视觉领域亦是如此,我们开发更便捷人脸识别用于门禁系统,以替代手动的输入用户名和密码——Xbox One利用红外相机设计的人脸识别系统就颇受用户好评。

除上述人类自身也能做到的识别功能外,计算机视觉还可应用在那些人类能力所限,感觉器官不能及的领域和单调乏味的工作上——在微笑瞬间自动按下快门,帮助汽车驾驶员泊车入位,捕捉身体的姿态与电脑游戏互动,工厂中准确地焊接部件并检查缺陷,忙碌的购物季节帮助仓库分拣商品,离开家时扫地机器人清洁房间,自动将数码照片进行识别分类……或许在不久的将来,超市电子秤就能辨别出蔬菜的种类;门禁系统能分辨出带着礼物的朋友,抑或手持撬棒的即将行窃的歹徒;可穿戴设备和手机帮助我们识别出镜头中的任何物体并搜索出相关信息。更奇妙的是,它还能超越人类双眼的感官,用声波、红外线来感知这个世界,观察云层的汹涌起伏预测天气,监测车辆的运行调度交通,甚至突破我们的想象,帮助理论物理学家分析超过三维的空间中物体运动。

曾经,人类用眼睛记录了波澜壮阔的历史。未来,我们希望逐步开启计算机的眼,让它在看懂这个多彩的世界的同时,也能帮助人类更高效和智能的完成工作和生活。期待在计算机视觉和人类的共舞下,世界不仅有多彩,更有智慧。


作者简介:

微软亚洲研究院首席研究员 孙剑

CTO俱乐部“云计算创新与实践”沙龙:云计算的发展趋势与那些“坑” 一周消息树:大型网站系统与Java中间件 良心推荐:6款基于云的移动应用开发工具 Google Project Tango第二弹:可生成3D图像的平板电脑 API企业化战略部署三部曲(一) 高通产品市场经理刘晓光:详解骁龙Android SDK 苹果史上最大交易:斥资30亿美元收购Beats 微软是否应该提高Windows版本的推送频率? 咸鱼大翻身?索尼将发展可穿戴游戏设备 popping:基于Facebook Pop引擎的iOS动画库 《近匠》专访极路由CTO康神 真正智能中心应当这样做 为什么说Android才是游戏开发者的乐土? 开发移动医疗应用必知的10个掘金点 个推CTO叶新江:云推送技术如何助力产品开发 《近匠》Face++:漫谈人脸识别 无线充电技术赛高:随意走动也能电量满格 体验至上!移动Web应用JavaScript UI库App.js 专访中国国航:传统行业的“轻应用观” 开发者找众筹,哪些网站更靠谱? 48小时脑力激荡 中美青年创客大赛英特尔北京选拔赛 “微应用+大平台”推动企业软件走向碎片化 浅谈Hive vs. HBase 十款最新的JavaScript开发工具 JavaScript Promise启示录 百度携多位安全专家深入探讨安全人才快速培养机制 卡饭技术代表严佳:引入安全人才,企业应遵循S.L.E.E.P、S.T.A.R法则 百度资深研发工程师周晓波:平台+数据 百度培养安全人才的重要思路 代码审查是如何抹杀开发者积极性的? 事件分析平台EventHub开源 云计算智能交通行业论坛:李德毅院士谈智能车 多家知名企业分享应用实践 我伙呆!CRM生死对手微软及Salesforce或将联手 syntaxfromsql的问题 简单问题! java中可以使用类似于 X + =10;的语句? JSP中文存储问题!(高分求教) 如何得到当前日期的前一个月,结果是如‘200204’格式的字符串? 我该从哪里学起? 两个CDC问题,每个50分,不搞平均主义,先提出可^行^意见的拿分。 请问有没有湖北汉川市的朋友? 如何把一个自定义的类对象写进一个文件 INSERT时的一个小问题。 请求支援,一个初级问题,关于动态加载窗体 请求支援,一个初级问题,关于动态加载窗体 线程里执行查询时碰到的错误。。。。说BDE引擎内存不足。。请各位多多指教 delphi Microsoft Development Environment中如何拖拉web form控件? 关于cloudscape Win2000??? 如何在image或者PICTURE控件中保持图像的比例 小问题:使用image控件时,能不能用mask将图片的背景色给屏蔽掉? 如何在javascript中调用COM对象? WinCE emulator !!!!!! *************2000分求救!!!SOS!!!************** 线程里执行查询时碰到的错误。。。。说BDE引擎内存不足。。请各位多多指教 刚才我发了一个贴子,请问我怎样结贴?(不好意思,我真笨) JCreator LE 使用!?各位兄弟姐妹,用过JCreator LE的来给小弟指指路好吗? dbgrid 各位,请看下面一段有关线程同步的代码: 大家上来帮我看一下http://www.csdn.net/expert/topic/613/613969.xml?temp=.7868463 大家上来帮我看一下http://www.csdn.net/expert/topic/613/613969.xml?temp=.7868463 简单的一道题,各位高手指点一下把! 大家上来帮我看一下http://www.csdn.net/expert/topic/613/613969.xml?temp=.7868463 美丽的故事悲伤的结局 大家上来帮我看一下http://www.csdn.net/expert/topic/613/613969.xml?temp=.7868463 98安装故障,急!请帮看看! 大家上来帮我看一下http://www.csdn.net/expert/topic/613/613969.xml?temp=.7868463 oracle 入门的书籍,请大家推荐!本人是菜鸟现在想学习 oracle请大家多多指教!!!!! 谁有好的VB电子书籍 不会使用网上的控件,谁教我? **********四大网站被黑!!!********** 怎麼寫這兩條SQL語句;(1)顯示當前數據庫?(2)顯示當前所有用戶表? 急,謝謝 送分问题,绝对给分! 如何才能不改变字体大小? 数据窗口有bh(编号),name(名称)两列,编号是string型,用什么方法可快速查找出bh中的最大值?只准对数据窗口操作。 delphi(dll) 大话爱情大结局 ??如何编写邮件服务器? createfont怎样创建一个随意宽高的字体? 急,请问有函数可取字符串后面N位字符吗?在线等待 怎样显示报表页总数问题 在打印中如何实现实现小计(即每页显示金额的总和)100分 问一个简单的问题,关于初始化 请问谁有动态树状目录的原码啊,急需!! 儿子六年级了但语文拼音很差我该怎样辅导 一群小朋友在操场上做游戏(五年级奥数题)一群小朋友在操场上做游戏,如果再来两名女生,男生的人数是女生人数的2倍;如果走两名女生,男生人数就是女生 人数的3倍,一共有多少个小朋友 如图是有一些相同的小正方体构成的几何体,从不同方向看到的图形,这些正方体共有___个 怎么教好小学六年级语文课?怎么教好他们写作文? 一道游戏数学题.10个1级合成一个2级铜矿;10个2级合成一个3级铜矿;10个3级合成一个4级铜矿; 问题是多少个1级铜矿合成一个4级铜矿?怎么算的 小学中高年级语文教学的难点有哪些?就如阅读而言呢? 小学高年级语文如何实施”先学后教,当堂训练”具体点,急用. 世界上最高的大树有多高? 一个几何体由若干大小相同的小正方体组成,下列的图形是从不同方向看,该几合体,所得到的形状图,这个几何体的小正方体共有多少个? 小学六年级数学 下册 练习十六全部答案 世界上还有真正的美女吗?稀有动物啊! 小学六年级语文教学目标能不能告诉我下教学目标 如何教好小学高年级语文第一课时 世界ol,谁知道出了圣诞护符之外的,加驯兽战斗的装备,主要的就是不想换护符 由一些大小相同的小正方体组成的几何体从不同方向看到的平面图形如图9所示,那么组成该几何体的小正方体有多少个?第一个从正面看,第二个从左面看,第三个,从上面看 小学高年级语文活动课教 世界上到底有多少成语求大神帮助 求 江苏人民出版社 《轻松快乐过暑假》答案 谁能给篇满意的来会再给50分. 求 国标版《轻松快乐过寒假》答案 有哪些关于青春励志的散文我很喜欢读这些文章,希望大家推荐一些, 昨天晚上我熬夜看了一场足球比赛,所以我的睡眠不足 翻译 甲做120个机器零件所用的时间和乙做90个零件所用时间相等,又知每小时甲比乙多做5个零件求甲乙每小时做多少个零件 昨天晚上我在电视上看了一场精彩的足球赛.翻译为英文 幼儿园里3名小朋友去坐5把不同的椅子(每人只能坐一把),有多少种不同的坐法? 甲做160个零件所用的时间与乙做120个零件所用的时间相等,已知每小时甲、乙两人工甲做160个零件所用的时间与乙做120个零件所用的时间相等,已知每小时甲、乙两人共做35个零件.甲、乙两人 全班共10人,体育合格的女生有5人,男生有4人,请用两种方法求全班体育达标的合格率.急呀...记住,是两种..其中一种是(5+4)\10*100%=90% 幼儿园里有6名小朋友去坐5把不同的椅子(每人只能坐一把),有多少种不同的坐法? 甲做160个零件用的时间与乙做120个的零件所用时间相等,已知甲乙两个人共做350个零件,甲乙两个人每小时各做多少个 六(5)班有53人,上次体育达标测验有7人不合格,求合格率.(百分号前保留整数) 这个是某小学上学期体育达标情况的统计图.统计图是:不合格的2% 合格的18% 优秀的是20% 良好的是60%这所学校的达标率是多少?要有算式 如图 有一些大小相同的小正方体组成的简单几何体的从正面和从上面观察到的平面图形.1.画出这个几何体从左面观察到的平面图形2.若组成这个几何体的小正方体的块数为n,写出n的所有值 谁有七年级上册轻松快乐过寒假(国标版)的全部答案要标准的 某幼儿园买中.小型椅子共50把,中型椅子每把8元,小型椅子每把4元,买50把中型,小型椅子共花288元,问中.小型椅子各买了多少把?若设中型椅子买了x把,则可列方程为____(不用解出来,只列) 每种最好100字 求小学六年级语文基础知识 每班人数都是48人,六(1)班女生人数与六(2)班男生人数相等,六三班的女生人数占本班人数的八分之五,六年级一共有女生多少人? 木头的特性有哪些?(小学三年级科学) 1.以下列字为声旁的字都是翘舌音 写3至5个申直垂者2.以下列字为生旁的字都是平舌音,写3至5个次且司宗3.以下列字为生旁的字声母都是边音 L 写3至5个令凌雷里4.以下列字为生旁的字声母都是 六年级上册数学周末练习答案 我小孩七岁了,上小学二年级,但是任性,不喜欢写作业,脾气很坏,我要怎么教育她?一直不知道什么样的教育才适合她?好好的讲道理也不听,打骂也无济于事,从来不承认错误,对自己的错误,即使 房间里有凳子(3条腿)、椅子(四条腿)若干,每个凳子或椅子只能坐一人,一些人进来开会,只坐凳子或只坐椅子都不够坐,但每人都有椅子或凳子坐,且还有空位.已知人腿、凳子腿、椅子腿之 下面是某小学的体育达标成绩统计图.合格的有48%,得优的有15%,得良的有35%.已知不合格的有4人,请算各种成绩的人数 金属的特性有 请大虾们帮忙了,共六个填空 教室有三条腿的椅子和四条腿的椅子若干,已知椅子腿有60个,椅子一共有15把,求三条腿和四条腿的椅子有?2013年小升初的问卷题目 小学一年级语文课堂教学设计的方案(人教版) 由一些大小相同的小正方体组成简单几何体形状图左面是从正面看到的 右面的是左视图 至少几块小正方体能摆成?最多需要几块? 六年级1班的学生不到50人,在一次考试中,有1/7的学生得优,1/3的学生得良,1/2的学生及格,那么有多少人 同学参加体育达标测验的成绩.男生55人,达标率是60%.女生45人,达标率是40%,这个学校的达标率是多少 一个几何体由若干个完全相同的小正方体组成,从上面观察这个几何体,看到的形状如图所示.小正方形中的数目表示在该位置的小正方体的个数,请画出从正面和左面看得到的该几何体的平面图 某班学生人数不到50人,在一次考试中,有7分之1的学生“优”,3分之1的学生“良”,2分之1的学生“及格”不及格的有多少人?这个班有多少人?(列出算式,要答!) 六年级一班有46人,六年级二班有50人,从一班调几名学生到二班,就能使一班和二班的比为7:9? 体育课上进行60米测试.达标成绩为8.0s,下面是一小组8名男生的成绩记录,大于8.0s的记为正-0.8,+1,0,-1.2,-0.7,+0.6,-0.4,+0.7这小组的达标率是多少?平均成绩为多少秒? 某班学生不到100人,在一次考试中,有1/7的学生得了优,1/3的学生得了良,1/2学生及格,那么有多少人不及还有一个问;这个班有多少人,拜托了 《寒假里的我》! 求小学六年级语文的教学建议我第一年交小学六年级的语文,是在乡镇的中学,想知道上课的时候重点是教什么,是字,词,还是什么别的,希望有经验的老师不吝赐教,说说上课的时候都讲些什么, 在福州六年级的孩子补习语文哪里好?补习阅读理解,作文? 从学校去公园,小红用了10分钟,小军用了8分钟,小红小军速度的最简整数比是是4:5 还是5:4 要2000字以上的`如果好本人还追分`要2000字以上的`如果好本人还追分`要2000字以上的`如果好本人还追分`要2000字以上的`如果好本人还追分`要2000字以上的`如果好本人还追分`要2000字以上的`如
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘