说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

计算机视觉,让冰冷的机器看懂这个多彩的世界

HTML文档下载 WORD文档下载 PDF文档下载
计算机视觉能超越人类双眼的感官,用声波、红外线来感知一切。微软亚洲研究院首席研究员孙剑以如何让计算机看懂世界为主题,详细介绍计算机视觉的基本概念、面临挑战以及一些带来重要突破的技术并展望未来演进趋势。

从茹毛饮血的蛮荒,到钢筋水泥的城市,人类逐步将自身能力投射到计算机上。无论是计算能力,还是记忆能力,计算机的如今表现都堪称卓越。但仅拥有这些还远远不够,我们期待计算机可以做得更多。一部风靡全球《星际穿越》激起了无数人对探索浩瀚宇宙奥秘的渴望,也让许多人记住了Tars这个聪明可爱、幽默风趣的智能机器人。


“人工智能”主题的好莱坞电影一直广受影迷们的喜爱,人类用无尽的想象力和炫目的特技构筑了一个又一个无比精彩的未来世界,令人如痴如醉。不过,回到现实,计算机科学家们的行动力却看似远远赶不上电影艺术家们的想象力,电影终归是电影,要研发出一个像Tars一样能看懂周围世界、听懂人类语言、并和人类进行流畅对话的智能机器人,我们要走的路还有很长。

长时间来,让计算机能看、能听、能说一直是我和计算机界同行们孜孜以求的目标。耕耘在计算机视觉领域十余年,赋予计算机一双慧眼,让它也能看懂这个多彩的世界,一直是激励着我在这条充满挑战的道路上前行的重要力量。虽然计算机暂时还无法像电影中所展现的那般智能,但已经取得了很多令人惊喜的成绩。在这篇文章中,我将就如何让计算机能“看”懂世界这个主题,为大家介绍计算机视觉的基本概念、这个领域面临的挑战、一些带来重要突破的技术并展望未来的演进趋势。

世界如何在我们眼中形成?

对人类而言,“认人”似乎是与生俱来的本能,刚出生几天的婴儿就能模仿父母的表情;它赋予我们只凭极少细节就分辨彼此的能力,借着暗淡灯光我们仍能认出走廊那端的朋友。然而,这项对人类而言轻而易举的能力,对计算机而言却举步维艰。过去很长一段时间,计算机视觉技术徘徊不前,在进一步探求前,不如先谈谈我们是如何用眼睛观察世界的。

相信大家都在中学的物理课上尝过小孔成像的原理。不过人的眼睛要比小孔成像复杂得多,当我们观察物体时,每秒大约扫视3次,并有1次驻留。当视网膜的感光体感受到蜡烛的轮廓,一个被称为中央凹的区域其实是以扭曲变形的形式记录下蜡烛的形状。

那么问题来了,为何我们看到的世界既未扭曲也没有变形呢?很简单,因为人类拥有大脑皮层这个万能的“转换器”,它将我们的视觉神经捕捉到的信号转换为真实的形象。这个“转换器”可简化理解为四个区域,生物学家将它们分别称为V1、V2、V4和IT区。V1区的神经元,只针对整个视觉区域中很小的一部分做出反应,例如,某些神经元发现一条直线,就变得异常活跃。这条直线可以是任何事物的一部分,也许是桌边,也许是地板,也许是这篇文章某个字符的笔划。眼睛每扫视一次,这部分神经元的活动就可能发生快速变化。

奥秘出现在大脑皮层顶层的IT区,生物学家发现,物体在视野的任何地方出现(例如一张脸),某些神经元会一直处于固定的活跃状态中。也就是说,人类的视觉辨识是从视网膜到IT区,神经系统从能识别细微特征,到逐渐变为能识别目标。如果计算机视觉也可以拥有一个“转换器”,那么计算机识别的效率将大为提高,人眼视觉神经的运作为计算机视觉技术的突破提供了启迪。

计算机为何总是“雾里看花”?

尽管人眼识别的奥秘已经被逐步揭开,但直接应用于计算机上却非易事。我们会发现计算机识别总是在“雾里看花”,一旦光线、角度等发生变化,计算机难以跟上环境的节奏,就会误识。对计算机而言,识别一个在不同环境下的人,还不如识别在同一环境下的两个人来得简单。这是因为最初研究者试图将人脸想象为一个模板,用机器学习的方法掌握模板的规律。然而人脸虽然看起来是固定的,但角度、光线、打扮不同,样子也有差别,都令简单的模板难以匹配所有人脸。

因此,人脸识别的核心问题在于,如何让计算机忽略同一个人的内部差异,又能发现两个人之间的分别,即让同一个人相似,不同的人有别。


对人工神经网络的引进是计算机视觉超越模板识别的关键。然而人类尚且未完全掌握神经的运作机制时,又该如何引导计算机进步呢?人工神经网络在1960年代就已萌芽,初期理论只固定在简单的模型之上,即生物课上的“输入-隐层-输出”模型。在介绍神经的工作原理时,老师们一般都会简单告知是外界刺激接触到输入神经元,输入神经元再链接其他部分形成隐层,最后通过输出神经元表现出来。这些神经元的链接强度并不相同,就像不同乐谱的强弱高低不同,人工神经网络就是依靠这些神经元之间不同的链接强度,学会将输入方式映射到输出上。

不过“乐谱”只是静止不动的,而且只能从“输入走向输出”,不存在反向呈现。也就是说如果人静止不动,计算机也许可以通过这一原理读出,但这在现实生活中不可能实现。1980年代末期,用于人工神经网络的“反向传播算法”发明,它能将输出单元的错误传回输入单元,并记住它。这种方法令人工神经网络能从大量训练样本中学习统计规律,对未知事件做出预测。不过与大脑的复杂及层级结构相比,这种只包含一个隐层的神经网络构造还显得微不足道。

深层神经网络为计算机“拨云见日”

2006年,多伦多大学教授Geoffrey Hinton在深层神经网络的训练上取得了突破。一方面,他证明了多隐层的人工神经网络具备更优异的特征学习能力,另一方面能通过逐层初始化克服此前一直困扰研究者的训练难题——基本原理是先通过大量无监督数据保证网络初始化,再用有监督数据在初始化好的或者是预训练的网络上优化调整。

受到这些因素的启发,如今的人脸或图像识别研究,大多基于CNN(Convolution Neural Networks)原理。CNN可以被视为一种逐层扫描的“机器”。第一层检测边缘、角点、平坦或不平坦的区域,这一层几乎不包含语义信息;第二层基于第一层检测的结果进行组合,并将组合传递给下一层,以此类推。多层扫描之下,累加准确率,计算机就在向前文提及的“让同一个人相似,不同的人有别”这一目标迈进。


CNN的学名为带有卷积结构的深度神经网络,这一网络识别物体还可分为两个步骤:图像分类和物体检测。在第一个阶段,计算机首先识别出物体的种类,例如人、动物或其他物品;第二个阶段,计算机获取物品在图像中的精确位置——这两个阶段分别回答了“是什么”和“在哪里”两个问题。微软的智能聊天机器人“小冰”具有辨识狗的品种的能力即是CNN的典型示例。首先,需要搭建一个好几层深度卷积网络。第一层跟人类视觉系统的定义很像,用来对一些小的边缘或者小的色块做一些检测;第二层会把这些小的结构组成大的结构,如狗腿和狗的眼睛;依次向上进行组织,最后就能鉴别出狗的种类来。其次,需要往这个带有卷积结构的深度神经网络里投入很多的图,训练系统识狗的准确度。

2013年,加州大学伯克利分校的研究者们提出了一种称为叫R-CNN方式(Region-based CNN)的物体检测方法,具有很高的识别准确度,它将每张图像分为多个窗口或个子区,在每个子区域应用神经网络进行分类。但其主要缺陷在于,对于实时检测,算法过慢。为了在一张图片上检测几个物体,整个神经网络可能需要运算上千次。


在微软亚洲研究院,视觉计算组的研究员们实现了一种称为空间金字塔聚合(Spatial Pyramid Pooling,SPP)的新算法,通过在内部特征识别,而不是每个区域从头检测,对整个图片只做一次计算。利用这种新算法,在不损失准确度的前提下,物体检测速度有了上百倍的提升。在2014年ImageNet大规模视觉识别挑战赛中,微软亚洲研究院采用SPP算法的系统取得了分类第三名和检测第二名的成绩。目前,这项技术已经成功转化进入OneDrive中。采用了这项技术后,OneDrive可以自动为上传的图片添加标签。同时,用户输入关键词,就可以搜索与之相对应的图片。

展望未来:计算机视觉和人类共舞

如果单纯识别面部,而不考虑发型和身体的其他部分,人类的正确率约为97.5%,而计算机目前则能达到99%以上。这是否意味着计算机已经胜过了人类?不是,因为我们不只观察面部,身材和体态都有助于我们认出对方。在复杂光照的真实环境下,人能够更智能地选择这些分支帮助自己决策,而计算机在这方面则要逊色许多。不过,如果数据量庞大,或者面对陌生的脸孔,计算机又更强大些。如果能够各扬其长,歌词中所唱的“借我一双慧眼吧”或许将会实现。


人类通过不断发明的新技术来替代旧技术去更高效和经济地完成任务。在计算机视觉领域亦是如此,我们开发更便捷人脸识别用于门禁系统,以替代手动的输入用户名和密码——Xbox One利用红外相机设计的人脸识别系统就颇受用户好评。

除上述人类自身也能做到的识别功能外,计算机视觉还可应用在那些人类能力所限,感觉器官不能及的领域和单调乏味的工作上——在微笑瞬间自动按下快门,帮助汽车驾驶员泊车入位,捕捉身体的姿态与电脑游戏互动,工厂中准确地焊接部件并检查缺陷,忙碌的购物季节帮助仓库分拣商品,离开家时扫地机器人清洁房间,自动将数码照片进行识别分类……或许在不久的将来,超市电子秤就能辨别出蔬菜的种类;门禁系统能分辨出带着礼物的朋友,抑或手持撬棒的即将行窃的歹徒;可穿戴设备和手机帮助我们识别出镜头中的任何物体并搜索出相关信息。更奇妙的是,它还能超越人类双眼的感官,用声波、红外线来感知这个世界,观察云层的汹涌起伏预测天气,监测车辆的运行调度交通,甚至突破我们的想象,帮助理论物理学家分析超过三维的空间中物体运动。

曾经,人类用眼睛记录了波澜壮阔的历史。未来,我们希望逐步开启计算机的眼,让它在看懂这个多彩的世界的同时,也能帮助人类更高效和智能的完成工作和生活。期待在计算机视觉和人类的共舞下,世界不仅有多彩,更有智慧。


作者简介:

微软亚洲研究院首席研究员 孙剑

回顾:2014年最流行前端开发框架对比评测 实例讲解SQL注入攻击 调试大规模服务器集群的五大策略 .NET编译平台Rosly将迁移到Github Wasai虚拟现实头盔与体验馆发布:虚拟现实的线下经济 订票系统不再瘫痪 阿里云确认与12306合作 Apple前工程师Warren Moore:Swift中Metal使用初体验 手把手教学:详解Swift中的iOS设计模式 见微知著,那些触动人心的应用细节设计(一) 设计优秀API七大要诀 需求 细节 BI项目成功的五大要素 BI项目成功的五大要诀 最受程序员欢迎的公司榜单发布:2015 IT人才招聘趋势分析 Swift中的指针操作及使用 Android性能优化典范 专访Google涂鸦首席设计师Ryan Germick:为什么世界需要Doodle? 不炒作就会死!小米乐视生态布局的那些爱恨情仇 100个iOS开发/设计面试题汇总,你将如何作答? 王巍:关于Swift学习和Apple Watch开发的一些建议 微软发全息影像头戴装置HoloLens 体验很真实 相爱相杀?盘点迎新年的移动互联网撕逼大战 HealthKit开发教程:用Swift编写个健康应用! 真的不够用!Apple Watch常规使用续航3.5小时 Activiti实战 百度BAE携手科技寺助力应用一站式部署 不仅仅是高速传输,Qualcomm演示骁龙810处理器功能 利用JS高效开发原生游戏 Cocos 2d-JS中文版API文档正式上线 同行代码审查实战分析 在Swift中使用JavaScript的方法和技巧 增强用户体验 让网站和APP更具动感的几点建议 《近匠》蒲公英:一站式免费应用内测平台 谁会做软件狗?有钱赚了!!! 为什么我用QuickRep作的报表只能显示一条记录,而且columnHeaderBand上内容也显示不出来 请问在税务局开发数据库的同行么?? 大家好各位大侠请问Jeffrey Richter的windows核心程序设计是不是就是andvanced windows程序设计的第四版? 谁做过软件狗,马上来拿钱!!! 江苏省的成绩什么时候可以出来啊,我是徐州的 shockwaveflash没有hwnd,怎么办? chechy(chechy) 你在吗? 一个关于用excel做的日报的问题 谁会做软件狗,马上来拿钱!!! 给你下跪了,给你磕头了,给你鞠躬了。很简单的问题。谢谢 那位大哥能告诉我在VC中我要创建类的话应该做哪些工作步骤(要详细的,呵呵) 紧急求救,asp连接mysql问题 在使用twebbrowser的时候,怎样制止网页的自动刷新和跳转? vc编译器错了怎么办???突然死机,然后就不好好干了!!谢谢 ?如何将二进制的 值写如注册表? Delphi紧急求助! 我想问的是,返回的 ResultSet 中的某个字段(int 型),如何放到一个 int[]数组里去。因为 ResultSet 不知道怎样取 size,我又不想用 vector, ResultSet的getArray()方法也是莫名其妙。 c盘格式化后,怎样找到linux系统? 有意思 过来研究一下!!!!insert 的!!!!难道 25 不是 long integer 吗 我的程序debug版,一直调试好好的,我rebuid all 一下就出错了,错误如下:怎么回事? 位图问题? 怎样使用自定义的光标??? 我想找Hopen SDK的开发包。 为什么我的iis总是报500内部服务器错误。我先装的framework,后来升级了ie5.5,最后在w2kprofessional上装了iis,手动添加了aspx解析:指向aspnet_isapi.dll,为什么还报错? 那里有关于用组件上传图片并且显示上传图片的介绍 NT 上已安装好mysql服务器,WIN98 client连接不上,求救 程序员梦难圆,请大家给我这个非计算机专业的兄弟出出主意。 小弟是delphi初学者,师兄师姐们给我介绍一下object pascal自带的函数好么? 你知道如何禁止后退按钮吗? 请各位高高手!解决启动时ctrl+alt+del可结束任务的问题。 哪位大侠指点一下ActiveSkin怎么用的? 引用ado后,打包程序为什么如此之大 为什么我的iis总是报500内部服务器错误。我先装的framework,后来升级了ie5.5,最后在w2kprofessional上装了iis,手动添加了aspx解析:指向aspnet_isapi.dll,为什么还报错?? 散源代码(1)- 货郎担问题(TSP)分枝限界算法 (急)哪位大侠有关于power designer的书,中文的,谢谢 ■■在线等待,找到立刻送分,决不失言。CSDN兄弟在帮忙,PB7安装盘不能安装POWERJ,是吗?在那里可以找到POWERJ安装盘?■■ 哪个虚拟光驱的软件在XP下可以用,虚拟光驱和光驱魔术师都不行呀 有谁知道那里有可以放ASP代码网页的免费空间 请问在VC中如何使静态框中的字体变色? 若想在BDE-Administrator中使用*.mdb,必须将*.mdb注册到文件DSN或者系统DSN中吗? 请教,如何在其他的应用程序的title上(最小化按钮旁边)添加按钮? 为什么我的iis在运行.aspx(asp.net)文件总是报500内部服务器错误。我先装的framework,后来升级了ie5.5,最后在w2kprofessional上装了iis,手动添加了aspx解析:指向aspnet_isapi.dll ::SetDlgItemText(hDlg,IDC_EDIT1,(LPCTSTR)lby);???????? DatagramSocket和DatagramPacket??? delphi的ftp,pop3,http控件是否支持进行多线程连接? 大型调查 急急急!!!上海地区有没有12月份的java培训? 显示桌面有快捷键吗 应该有的 是什么 呀 为什么我的yamaha740声卡 win2000不认,驱动程序怎么也装不上呢? edit的keydown事件中如何响应table的filter对数值型数据的过滤?? 刚买的房子,为冬季装修成什么样的取暖方式犯了愁,发热电缆、电热膜、碳晶地暖哪个好?家住河南,刚刚买了房子,准备开始装修,由于小区没有集中供暖,装修前考虑冬季取暖就成了大问题.比 测量标准大气压的工具有哪些 如图所示是WP700型微波炉的铭牌,请计算:1此微波炉的输入电流 2用此微波炉加热食品2min,消耗多少电能,额定电压及频率:220v 50Hz 额定输入功率:1180w 额定输出功率:700w微波频率:2450MHz外形 电焊于气保焊区别是什么拜托了各位 水地暖高度,发热电缆高度,电热膜高度分别是多少 如题,微波炉工作一小时消耗的电能是多少 《己亥杂诗》全诗 电焊技术:怎样立焊?电焊技术.怎样立焊 微波炉一分钟用多少电 这段材料的意蕴是什么?一只章鱼的体重可以达到70磅.但是,如此庞大的家伙,身体却非常柔软,柔软到几乎可以将自己塞进任何一个想去的地方.章鱼没有脊椎,这使它可以穿过一个银币大小的洞. 电焊立焊怎么焊啊 微波炉一分钟几度电? 电焊的焊接,怎么焊才可以焊得又平又好看呢?我焊的是219的管 求帮我解释一下这段公务员中资料分析的意思.1估算法(选项大小差距大且复杂,可粗略估值)这个我可以理解.2直除(选项首位不同,或首两位不同时)3插值法(如果选项首位都是3,与1/3比,首 45钢表示什么材料 你知道怎么样能焊出又平又宽的焊缝么就跟电焊条一样 这段材料给我们的启示是什么 45是什么材料 有机食品什么意思啊 电采暖-用发热电缆好还是电热膜好? 材料牌号45是什么 古诗《己亥杂诗》的作者是谁 发热电缆和电热膜哪个比较好 S20C是什么材料?可以用45#代替吗? 有机食品是什么意思? 计量器具的A、B、C如何分类?如何确定计量器具是一次性检定的? 45#圆棒是什么材料 《已亥杂诗》意思,有诗九州生气恃风雷,万马齐喑究可哀.我劝天公重抖擞,不拘一格降人才. 己亥杂诗是谁的诗作者和诗全要 计量标准装置里的重复性和稳定性应该怎样做呀?因为外审时一个专家一种解释, 求已亥杂诗全诗 测量工具的种类 计量标准,标准器,检定装置的区别 有机食品什么意思 怎么用电焊焊立缝 变压器的设备容量和计算容量的区别图里的设备容量和计算容量是什么意思? 碳晶地暖的优缺点?碳晶地暖的系统组成?碳晶地暖价格?碳晶地暖品牌? 电焊立焊的手法是怎么焊 样本标准偏差和总体标准偏差有什么区别?就是计算器上的统计计算.样本标准偏差和总体标准偏差有什么区别? 碳纤维地暖和碳晶地暖到底有什么区别?哪个好?好在哪里? windows xp下ttf和ttc有什么不同 有缝不锈钢管与无缝不锈钢焊接有什么区别?我们现在设计的给水是有缝不锈钢管道,可是施工方采用的管件是无缝的,它们采用焊接有什么特殊要求吗?可以焊接再一起吗?需要采取什么样的保 什么是下行焊,垂直气电焊? TTC雾森是什么? 钢制对焊无缝弯头和钢板制对焊弯头的区别 已亥杂诗 全诗 六年级下册的己亥杂诗表达了作者怎样的思想感情?表达作者愿望的诗句是哪句?表达了什么愿望? 无缝等径三通 T(S)-DN250-SCH30-A1 SH/T3408-1996都是什么意思啊,能区分是焊接三通还是无缝三通么 材料意思是什么 己亥杂诗中哪一句抒发了作者渴求天降人才、报效祖国的心愿? 如何确切理解阅读材料中标点符号的意义和作用? 这是什么材料的?里面写着18K是什么意思? 已亥杂诗》中表达作者愿望的诗句是哪句?表达了什么愿望? 标点符号具有重要的作用、下面的三个句子文字完全相同 但标点符号不同 意思就有了差异 请你认真阅读这三个句子 分别说说每个句子的意思 完成后可以就不同标点的句意差异与同学进行 炭晶地暖好 还是电热膜好 有什么区别 《己亥杂诗》中表达作者愿望的诗句是哪句?表达了什么愿望? 本篇题目很特别,用了三种标点符号"!--?",具体解释它们的含义或作用 碳晶地暖与电热膜地暖的优劣比较多谢各位,请问他们对人的身体的影响是否有差别,以及其他方面! 《已亥杂诗》中表达作者愿望的诗句是那句?表达了什么愿望? 标点的作用.
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn