说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

计算机视觉,让冰冷的机器看懂这个多彩的世界

HTML文档下载 WORD文档下载 PDF文档下载
计算机视觉能超越人类双眼的感官,用声波、红外线来感知一切。微软亚洲研究院首席研究员孙剑以如何让计算机看懂世界为主题,详细介绍计算机视觉的基本概念、面临挑战以及一些带来重要突破的技术并展望未来演进趋势。

从茹毛饮血的蛮荒,到钢筋水泥的城市,人类逐步将自身能力投射到计算机上。无论是计算能力,还是记忆能力,计算机的如今表现都堪称卓越。但仅拥有这些还远远不够,我们期待计算机可以做得更多。一部风靡全球《星际穿越》激起了无数人对探索浩瀚宇宙奥秘的渴望,也让许多人记住了Tars这个聪明可爱、幽默风趣的智能机器人。


“人工智能”主题的好莱坞电影一直广受影迷们的喜爱,人类用无尽的想象力和炫目的特技构筑了一个又一个无比精彩的未来世界,令人如痴如醉。不过,回到现实,计算机科学家们的行动力却看似远远赶不上电影艺术家们的想象力,电影终归是电影,要研发出一个像Tars一样能看懂周围世界、听懂人类语言、并和人类进行流畅对话的智能机器人,我们要走的路还有很长。

长时间来,让计算机能看、能听、能说一直是我和计算机界同行们孜孜以求的目标。耕耘在计算机视觉领域十余年,赋予计算机一双慧眼,让它也能看懂这个多彩的世界,一直是激励着我在这条充满挑战的道路上前行的重要力量。虽然计算机暂时还无法像电影中所展现的那般智能,但已经取得了很多令人惊喜的成绩。在这篇文章中,我将就如何让计算机能“看”懂世界这个主题,为大家介绍计算机视觉的基本概念、这个领域面临的挑战、一些带来重要突破的技术并展望未来的演进趋势。

世界如何在我们眼中形成?

对人类而言,“认人”似乎是与生俱来的本能,刚出生几天的婴儿就能模仿父母的表情;它赋予我们只凭极少细节就分辨彼此的能力,借着暗淡灯光我们仍能认出走廊那端的朋友。然而,这项对人类而言轻而易举的能力,对计算机而言却举步维艰。过去很长一段时间,计算机视觉技术徘徊不前,在进一步探求前,不如先谈谈我们是如何用眼睛观察世界的。

相信大家都在中学的物理课上尝过小孔成像的原理。不过人的眼睛要比小孔成像复杂得多,当我们观察物体时,每秒大约扫视3次,并有1次驻留。当视网膜的感光体感受到蜡烛的轮廓,一个被称为中央凹的区域其实是以扭曲变形的形式记录下蜡烛的形状。

那么问题来了,为何我们看到的世界既未扭曲也没有变形呢?很简单,因为人类拥有大脑皮层这个万能的“转换器”,它将我们的视觉神经捕捉到的信号转换为真实的形象。这个“转换器”可简化理解为四个区域,生物学家将它们分别称为V1、V2、V4和IT区。V1区的神经元,只针对整个视觉区域中很小的一部分做出反应,例如,某些神经元发现一条直线,就变得异常活跃。这条直线可以是任何事物的一部分,也许是桌边,也许是地板,也许是这篇文章某个字符的笔划。眼睛每扫视一次,这部分神经元的活动就可能发生快速变化。

奥秘出现在大脑皮层顶层的IT区,生物学家发现,物体在视野的任何地方出现(例如一张脸),某些神经元会一直处于固定的活跃状态中。也就是说,人类的视觉辨识是从视网膜到IT区,神经系统从能识别细微特征,到逐渐变为能识别目标。如果计算机视觉也可以拥有一个“转换器”,那么计算机识别的效率将大为提高,人眼视觉神经的运作为计算机视觉技术的突破提供了启迪。

计算机为何总是“雾里看花”?

尽管人眼识别的奥秘已经被逐步揭开,但直接应用于计算机上却非易事。我们会发现计算机识别总是在“雾里看花”,一旦光线、角度等发生变化,计算机难以跟上环境的节奏,就会误识。对计算机而言,识别一个在不同环境下的人,还不如识别在同一环境下的两个人来得简单。这是因为最初研究者试图将人脸想象为一个模板,用机器学习的方法掌握模板的规律。然而人脸虽然看起来是固定的,但角度、光线、打扮不同,样子也有差别,都令简单的模板难以匹配所有人脸。

因此,人脸识别的核心问题在于,如何让计算机忽略同一个人的内部差异,又能发现两个人之间的分别,即让同一个人相似,不同的人有别。


对人工神经网络的引进是计算机视觉超越模板识别的关键。然而人类尚且未完全掌握神经的运作机制时,又该如何引导计算机进步呢?人工神经网络在1960年代就已萌芽,初期理论只固定在简单的模型之上,即生物课上的“输入-隐层-输出”模型。在介绍神经的工作原理时,老师们一般都会简单告知是外界刺激接触到输入神经元,输入神经元再链接其他部分形成隐层,最后通过输出神经元表现出来。这些神经元的链接强度并不相同,就像不同乐谱的强弱高低不同,人工神经网络就是依靠这些神经元之间不同的链接强度,学会将输入方式映射到输出上。

不过“乐谱”只是静止不动的,而且只能从“输入走向输出”,不存在反向呈现。也就是说如果人静止不动,计算机也许可以通过这一原理读出,但这在现实生活中不可能实现。1980年代末期,用于人工神经网络的“反向传播算法”发明,它能将输出单元的错误传回输入单元,并记住它。这种方法令人工神经网络能从大量训练样本中学习统计规律,对未知事件做出预测。不过与大脑的复杂及层级结构相比,这种只包含一个隐层的神经网络构造还显得微不足道。

深层神经网络为计算机“拨云见日”

2006年,多伦多大学教授Geoffrey Hinton在深层神经网络的训练上取得了突破。一方面,他证明了多隐层的人工神经网络具备更优异的特征学习能力,另一方面能通过逐层初始化克服此前一直困扰研究者的训练难题——基本原理是先通过大量无监督数据保证网络初始化,再用有监督数据在初始化好的或者是预训练的网络上优化调整。

受到这些因素的启发,如今的人脸或图像识别研究,大多基于CNN(Convolution Neural Networks)原理。CNN可以被视为一种逐层扫描的“机器”。第一层检测边缘、角点、平坦或不平坦的区域,这一层几乎不包含语义信息;第二层基于第一层检测的结果进行组合,并将组合传递给下一层,以此类推。多层扫描之下,累加准确率,计算机就在向前文提及的“让同一个人相似,不同的人有别”这一目标迈进。


CNN的学名为带有卷积结构的深度神经网络,这一网络识别物体还可分为两个步骤:图像分类和物体检测。在第一个阶段,计算机首先识别出物体的种类,例如人、动物或其他物品;第二个阶段,计算机获取物品在图像中的精确位置——这两个阶段分别回答了“是什么”和“在哪里”两个问题。微软的智能聊天机器人“小冰”具有辨识狗的品种的能力即是CNN的典型示例。首先,需要搭建一个好几层深度卷积网络。第一层跟人类视觉系统的定义很像,用来对一些小的边缘或者小的色块做一些检测;第二层会把这些小的结构组成大的结构,如狗腿和狗的眼睛;依次向上进行组织,最后就能鉴别出狗的种类来。其次,需要往这个带有卷积结构的深度神经网络里投入很多的图,训练系统识狗的准确度。

2013年,加州大学伯克利分校的研究者们提出了一种称为叫R-CNN方式(Region-based CNN)的物体检测方法,具有很高的识别准确度,它将每张图像分为多个窗口或个子区,在每个子区域应用神经网络进行分类。但其主要缺陷在于,对于实时检测,算法过慢。为了在一张图片上检测几个物体,整个神经网络可能需要运算上千次。


在微软亚洲研究院,视觉计算组的研究员们实现了一种称为空间金字塔聚合(Spatial Pyramid Pooling,SPP)的新算法,通过在内部特征识别,而不是每个区域从头检测,对整个图片只做一次计算。利用这种新算法,在不损失准确度的前提下,物体检测速度有了上百倍的提升。在2014年ImageNet大规模视觉识别挑战赛中,微软亚洲研究院采用SPP算法的系统取得了分类第三名和检测第二名的成绩。目前,这项技术已经成功转化进入OneDrive中。采用了这项技术后,OneDrive可以自动为上传的图片添加标签。同时,用户输入关键词,就可以搜索与之相对应的图片。

展望未来:计算机视觉和人类共舞

如果单纯识别面部,而不考虑发型和身体的其他部分,人类的正确率约为97.5%,而计算机目前则能达到99%以上。这是否意味着计算机已经胜过了人类?不是,因为我们不只观察面部,身材和体态都有助于我们认出对方。在复杂光照的真实环境下,人能够更智能地选择这些分支帮助自己决策,而计算机在这方面则要逊色许多。不过,如果数据量庞大,或者面对陌生的脸孔,计算机又更强大些。如果能够各扬其长,歌词中所唱的“借我一双慧眼吧”或许将会实现。


人类通过不断发明的新技术来替代旧技术去更高效和经济地完成任务。在计算机视觉领域亦是如此,我们开发更便捷人脸识别用于门禁系统,以替代手动的输入用户名和密码——Xbox One利用红外相机设计的人脸识别系统就颇受用户好评。

除上述人类自身也能做到的识别功能外,计算机视觉还可应用在那些人类能力所限,感觉器官不能及的领域和单调乏味的工作上——在微笑瞬间自动按下快门,帮助汽车驾驶员泊车入位,捕捉身体的姿态与电脑游戏互动,工厂中准确地焊接部件并检查缺陷,忙碌的购物季节帮助仓库分拣商品,离开家时扫地机器人清洁房间,自动将数码照片进行识别分类……或许在不久的将来,超市电子秤就能辨别出蔬菜的种类;门禁系统能分辨出带着礼物的朋友,抑或手持撬棒的即将行窃的歹徒;可穿戴设备和手机帮助我们识别出镜头中的任何物体并搜索出相关信息。更奇妙的是,它还能超越人类双眼的感官,用声波、红外线来感知这个世界,观察云层的汹涌起伏预测天气,监测车辆的运行调度交通,甚至突破我们的想象,帮助理论物理学家分析超过三维的空间中物体运动。

曾经,人类用眼睛记录了波澜壮阔的历史。未来,我们希望逐步开启计算机的眼,让它在看懂这个多彩的世界的同时,也能帮助人类更高效和智能的完成工作和生活。期待在计算机视觉和人类的共舞下,世界不仅有多彩,更有智慧。


作者简介:

微软亚洲研究院首席研究员 孙剑

CGI技术及其开发(二)-Delphi资料 CGI技术及其开发(一)-Delphi资料 COM/DCOM中如何传递数组-Delphi资料 COM与DCOM的区别与联系-Delphi资料 Cookie的建立使用-Delphi资料 Delphi 3中Cookie的建立使用 Delphi 中 串 行 通 信 的 实 现 Delphi4.0 开发WEBMAIL程序 Delphi4的Winsocket编程 Delphi4开发WEBMAIL程序 Delphi编写网络程序的安全措施 DELPHI 和 THE INTERNET Delphi开发Web Server程序如何返回图像 Delphi开发Web Server程序响应用户的输入 DELPHI与INTERNET(二) DELPHI与INTERNET(一) Delphi中串行通信的实现 Email 服务器的简单实现-Delphi资料 Internet编程技巧-Delphi资料 SMTP组件的使用方法-Delphi资料 Web Server程序开发环境的建立-Delphi资料 WEB数据库的开发-Delphi资料 Win32 行程通讯的观念与技术-Delphi资料 编程发送E-mail-Delphi资料 调用那个函数得到本机的IP-Delphi资料 动态改变/添加网络设置中的 TCP/IP 的 DNS 地址-Delphi资料 任何动态改变/添加网络设置中的 TCP/IP 的 DNS 地址-Delphi资料 如何在程序中动态取得Win98的网络邻居中的工作组及计算机名-Delphi资料 动态设置DNS地址-Delphi资料 读取IE收藏夹内网址的信息-Delphi资料 改网络计算机名-Delphi资料 关于静态IP地址,急!!! 如何将tomcat做为windows的一项服务启动? 请问各位大虾,哪有paradox(INPRISE 公司产品)数据库(*.DB)的资料? 非法操作的问题 请问各位大虾,哪有paradox(INPRISE 公司产品)数据库(*.DB)的资料? 各位大虾救命啊!请问怎么在一个DIALOG中使用RICHEDITVIEW,谢谢大家了 ACCESS的删除问题 我有“处女”情结,可.............. 菜问题,,马上给分sendto问题 while和for的区别 安装的问题 我喜欢上公司的JJ怎么办????? 谁能帮我反编译?急 1.7gmsdn如何改成3张碟刻出来 启动慢? 有什么方法实现点击"提交"按钮后,弹出一个框显示表单里的数据,"确定"后再提交,"取消"后不提交? 请教vb 字符串问题 急!明天要啊!(帮忙啊!)分在另一贴给! 请问如何创建一个组控件,然后又可以动态调用?请进!:) 用Jbuilder开发,怎样配置才能开发j2me? 关于HOOK和键盘屏蔽的问题??? 如何在自己的网页上嵌入google的页面翻译功能 有关2k的内存问题 阴谋家已被清除!大家尽兴的庆祝呀! 问一下 C++基础的弱智(20分钟内结贴) 高手请看:实形变量在不同的过程中调用问题?(大家都要遇到的问题,来着有分!) 还是没解决呀!!1 350元左右的MP3播放器谁好阿?你给推荐一下? 由于工作需要,将要转到Linux平台,请问那位知道有什么好的SQL Client在Linux下? 昨天做成功了有限集手写汉字识别的程序,高兴,散分!!! SOS。。。一个很基础的问题 。。 系统设计和软件设计的说明书问题 [请问]两个JavaScript问题 一个企业的办公系统,使用人数5k人,预算多少合适? 我中了“冰河” 怎么办? 菜鸟问题:linux下怎么把文件a和b压缩成c啊? 请问大家一些事情(关于反汇编) 菜鸟问题:linux下怎么把文件a和b压缩成c啊? 资源管理器中选中的多个文件怎样传给我的程序 高分求购网页 在哪能下载SYBASE11.5的客户端和服务器端?急!!!!! 显示器的问题 请问如何搜索到网络中所有的消息名,即用Net Name命令显示出来的 急,有办法用java做个程序:输入“(3>4)or(3>5)",判断后输出其对应的bool值吗? 怎么在自己的程序里注册一个组件? 问一个小问题,高分相赠! mssql的JDBC那有得下,听说微软站上的那个只能连自己的SQL,有没有完全版的呀,在哪可以下? 高分求救,出现乱码了,怎么办?高手请进 DirectShow & Mpeg4! 将一sql语句放入了一个string变量中,我应该有什么函数执行他呢? 关于去掉绝对值的问题|x-1|+|x+1| 如何迅速解决即将面临的英语四级的难题,对一个英语挂科的人 移相全桥软开关变换器能与串联式谐振变换器相结合么 为什么取代反应要用纯溴而加成反应用溴水? 南昌大学英语过了四级,以前挂科的英语算学分吗我的大学英语挂了,补考好多次都没过,但这次把四级过了,不知道学分会不会自动补上?还是还要重修呀? 呵呵,我知道答案了当然,我好久没做这种高中题目了.也许有不对的地方你指出来啊.如果有疑问或不懂的地方再提问哈,我尽量解答. 请找Jack接电话怎么用英语说 我的英语超级烂,大一了,马上就要考四级了,而且还常挂科, 电机的内压敏电阻起什么作用 JC/T420-1991水泥原料中氯的化学分析方法 大三了,英语四级没过,计算机2级没过,经常挂科,我是不是完了? 怎样备好课? excel表格中,比较数值大小,自动填充颜色?excel表格中,当B1A1,表格底色自动填充绿色, 雅思的5.5、旧托福的550分是个什么概念是很难考吗?各位了解的的成绩都是多少?相当于大英几? 有一多肽的分子式为C59H76O21N12,将它彻底水解后,得到下列四种氨基酸(接内容)(接标题):谷氨酸C5H9NO4,甘氨酸C2H5NO2,丙氨酸C3H7NO2,苯丙氨酸C9H11NO2 求该多肽形成的基因中至少含有碱基多少 九江美丽的景色作文 潜水员在水中看岸上的小鸟,下图中能正确表示其光线的传播大致路径的是答案为何是C,而不是B? 谁知道托福550分是个什么概念?就是说相当于四六级或什么水平? 建最美上饶市,做最美上饶人作文450字左右,觉得好悬赏再题哦,明天之前. ajax异步请求如何理解RT 托福550分是什么概念?雅斯6级是什么概念? 关于描写上饶的作文 等比数列an满足a1=1,0<q<1/2,且对任意等比数k,ak-(a(k+1)+a(k+2))是该数列中的某一项 求q取值集合 求D选项解答 行李直挂用英语怎么说? 潜水员在水下观察岸边一棵树的树梢,他看到的是 变高了的树梢的虚像还是实像?如题 多层楼梯电路图我想要为六层楼安装楼梯电灯,但不懂电路图所以装不了,其控制为又向控制的,比如在一楼可以开与关一楼的楼梯灯,二楼可以控一楼的灯与二楼的楼梯间的灯亮与灭,依次累推, Care killed a cat,中文意思是什么? 该同志的成份、年龄、问你话程度、政治面貌等基本情况,家庭主要成员和主要社会关系的基本情况. C D 选项详解14.如图所示,一细光束中含有两种单色光(分别为红色和紫色),从空气斜射到透明的玻璃砖上,透过玻璃砖后,又射出到空气中,则 (D) 光束①②玻璃砖A.出射光线中①是紫色,② care kill a 大智慧里,个股,向前复权,和向后复权各是什么意思?为什么要向前复权? B D选项详解. care kills a cat.看不懂这句话,是个成语的意思,请翻译 股票中的向前复权、向后复权、高级复权、全流通复权和除权指的是什么啊?能举个例子吗? --- Guo Peng is my brother.(改为特殊疑问句)-----( )Gao Peng.(括号里只允许填一个词,但是像what‘s这样的也可以.) a stray cat 是什么意思啊 股票向前复权与向后复权的核心区别是什么向前复权与向后复权的核心区别是什么,对股票买卖操作影响在那里? 溴和什么管能团反应 向含有amolAlCl3的溶液中加入含bmolNaOH的溶液,生成Al(OH)3沉淀的物质的量可能是( ) ①amol ②bmol ③a/3mol ④0mol ⑤(4a-b)mol生成沉淀的物质的量可能是下列各项中的.和3 股市上要复权,请问有向前、后复权,还有全流通向前向后复权,还有全流通除权.如果我想复权到底是用哪种? 环丙烷和溴反应的类型是加成还是取代? 向含有amolALCI3的溶液中加入含有bmolKOH额溶液求生成的沉淀物质的量n(oh-):n(al3+) al元素的存在形式 al(oh)3沉淀量 b:a_时 al(oh)3 _________b:a_ al(oh)3+al3+ 交割与交收分别什么意思? 关于怪.妖怪.灵异.的动画有哪些呢虫师 XXXholic 夏目友人帐 怪—AYAKASHT 奇幻贵公子 滑头鬼之孙 地狱少女 心灵侦探八云 结界师 半妖绮丽谭 地狱教师 咎狗之血 都看过了 还有没有类似的 看好 一道物理证明题将任意多个质点从某一点以同样大小的速度|V|,在同一竖直面内沿不同方向同时抛出,试证明在任一时刻这些质点分散处在某一圆周上 到期交割和商品交收区别期货交易和远期交易里面有个区别就是期货交易履约方式为到期交割和对冲平仓,远期交易是商品交收.那么到期交割和商品交收有什么区别? CAT是什么意思 物理证明题一道此球表面电荷均匀分布,从球心移动到球的顶部做功W,求证,从球心向反向延长线上移动R的距离做功为-W不是很明白……我比较白……请说明白一点好吗 投资者由谁办理交割、交收? 沧州医专怎么样 用手挤瓶子,里面的水液面上升,猜想是水的热胀冷缩,要求证明不是用0~4°C的水来测试,可以吗是证明。我用的是0~4°C的水 潜水员在水下听到岸边人的讲话声是什么的传播 24的因数有哪些?18的因数有哪些 试证明:有一长度s被分成n个相等的部分,若质点一加速度a由这一长度的始端出发,质点通过每一部分的末端时加速度增加a/n,那么它经过后的速度是sqr(3as-as/n) 请问答案是什么,各个选项要解析一下 起个神秘怪诞的英文姓 考研英语长难句分析,Its beginning obscured by unemployment caused by the world economic slow-downIts beginning obscured by unemployment caused by the world economic slow-down,the new technological unemployment may emerge as the great socio-ec 挂科了怎么办 英语过不去 还要考4级 形容言谈举止离奇怪诞的成语 马耳他总统阿贝拉会见杜青林日本东北地区发生7.1级地震日本本州东海岸附近海域发生7.1级地日本福岛外海强震上修为7.1级 东京日本福岛县外海6.8级强震 气象厅发纽约油价25日继续反弹日本本州东海岸附近海域7.1级地震 北京10月购车摇号166万人参与 中日本福岛外海强震上修为7.1级 东京男子骚扰女性后入狱 出狱后强奸其妹妹日本福岛外海6.8级强震 或有海啸 小王子受洗四世同堂照全家福叙工程师开发软件可预警导弹袭击前美国国安局长“私聊”遭“直播”日本福岛县外海6.8级强震 气象厅发伦敦股市股指25日上涨义乌公布一批人事任免 任命3名副市长丽水男子利用感光材料提炼白银污染环境丽水33岁已婚已育少妇为嫁24岁小网男子强奸亲生女儿长达10年获刑7年日本福岛外海6.8级强震 或有海啸 百年过往,历久弥新中方加大交涉要求越制止暴力网坛新秀郑州竞技球迷可免费观赛人民日报刊文评治理露天烧烤:顺民意得豫剧电影《香魂塘畔的香魂女》研讨会在立即停止干扰中企钻探作业南苏丹新闻官员来郑研修下周一将参观河焦作市中福在线佳音频传孙杨今迎真正“试金石”延安公安副大队长找小姐遭拒大闹洗浴中京广铁路改跑黄河新桥云南持枪离队士兵上月底在越南被寻获女子50米蛙泳河南索冉夺金大河股票池(5月15日星期四)5个不明飞行物坠入黑龙江境内百岁老太免费做白内障手术事靠人为事在人为国大党认输“印度赢了”我军总长:中国不惹事也不怕事老桥退役,新桥上岗 3000余人四个私家车6年内免检
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘