说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访格灵深瞳CTO赵勇:为" 计算机视觉" 赋予智慧的光芒

HTML文档下载 WORD文档下载 PDF文档下载
据说加入从事计算机视觉识别的格灵深瞳团队比进哈佛大学还难;投资人对其未来市场估值达几千亿……近期CTO俱乐部专访了格灵深瞳CTO赵勇,他曾供职于Google总部研究院,也是Google Glass最早期的核心研发成员。

在国内新兴的诸多技术型创业公司中,从事计算机视觉识别的格灵深瞳团队给人一种很神秘的色彩。据说他们的成员都在来自海内外一级名校的学霸,要加入他们比进哈佛大学还要困难;据说格灵深瞳的投资人,给这个团队的未来市场估值达几千亿……那么,格灵深瞳如何看待自己的事业和团队文化?不久前,来到格灵深瞳的办公场所,颐和园北面一座临河的古色古香的四合院内,CTO俱乐部采访了格灵深瞳CTO赵勇。赵勇是美国布朗大学计算机工程系的博士,毕业后供职于Google总部研究院任资深研究员,他也是Google Glass最早期的核心研发成员,2013年4月作为联合创始人创立格灵深瞳。


格灵深瞳联合创始人兼CTO  赵勇

格灵深瞳的内涵

CTO俱乐部:你们公司的名字“格灵深瞳”很特别,能讲讲它的由来吗?

赵勇:格灵深瞳最先有一个英文名字,叫Deep Glint,对于Deep(深度)它主要有两方面的寓意:第一,我们做的是三维深度视觉;第二,我们采用了深度学习的方法。我觉得这两个概念是计算机领域过去10年间最伟大的概念,所以我希望我们公司的命名一定要和“深度”有关。那Glint是什么意思呢?它的原意是反光、闪耀,比如常用的应用场景是人的眼眸啪地闪烁一下,好比日本漫画里那种又大又有闪光的眼睛。一双闪烁着光的眼睛意味着是有灵性的、智慧的眼睛。我们原来打算把中文商标注册成“深瞳”,但没有成功(有一部同名电影把相关商标申请了),便换成“格灵深瞳”。

CTO俱乐部:如果用清晰、简洁的话语来描述,格灵深瞳正在从事什么事业?

赵勇:Visual Understanding和Artificial Intelligence。Visual Understanding指“去理解视觉信号”,比如对于一张拍摄下来的照片,去解读它里面发生了什么事情。 Artificial Intelligence是基于你对这个世界的观察,产生一些判断的、思维的结果,能够形成一个感知系统。它的范围可小可大,比如我的朋友李志飞做的“出门问问”App,你说一句话“我想买一碗炒面”,它就能帮你寻找附近的饭馆;比如我另一个朋友余凯在百度做的工作,可以通过照片来识别出具体某个人;还有我的老东家Google做的无人驾驶汽车,它可以自动把乘客从A点运动到B点。以上例子都属于Artificial Intelligence。格灵深瞳的事业就是基于Visual Understanding做一些Artificial Intelligence方面的应用。

人工智能PK人类智能:是否具备创新和情感

CTO俱乐部:据我所知,现在语义识别、图像识别的技术都不是特别成熟,而关于你们的Visual Understanding层面,举例说在具体社会风俗环境下,可能人的手势或者特征的意义不同,对上述问题你们有没有从技术上提炼出一些框架性的原则?

赵勇:没有,所以你必须很好地界定你的问题范围。如果有人问我说,机器人、人工智能会不会把人杀了?如果把杀人(或者绣花)当作一个高级的行为,那么现在人工智能还处在一个饮毛茹血、刀耕火种的年代。所以我们基本上是先做一些简单的事情,把肚子先填饱。但这些简单的事情只要能交给机器人去做,它也会变成一件伟大的事情。我们经常对外宣称,我们的使命是让计算机看懂这个世界。但世界很大,所以我们先一步一步地看。我们现在的目标是先看懂两件事,第一件事情是人,第二件事情是车。我们看人包含哪些内容呢?它有四个层次,第一个层次是微观层次,比如你的脸和手、你是谁、你的手在做什么;第二个层次是肢体动作,你是不是在跳舞、跳的是什么舞、你有没有在打架等,坦率地说,我们现在不能识别你跳什么舞,但可以识别你是不是在打架、你有没有在求救等;第三个层面是在一个摄像机里面,你是怎么运动的、你旁边的人是怎么运动,以及你们俩之间有没有什么关系;第四个层面是最高的层面,叫Visual Sensor Network,就是把前面三层都联网,这样你就有了更多的数据,比如一个人既在摄像机A又在摄像机B中出现,如果我们能够识别出他是同一个人,就有可能为这个人建立一个更长的轨迹,从更大的范围内去分析他的行为。

2015年起,我们将投入很多精力去研究车,因为车是人类行为的一种识别。现在中国每年有很多人死在交通事故中,因此如果我们能够利用人工智能解决安全问题,也将是一件功德无量的事情。此外,对于车辆行为大数据的挖掘,对城市管理和节能环保也会有重要作用。

CTO俱乐部:说到人工智能,电影《黑镜子》里面塑造了一个完全和真人一样的虚拟男友。人工智能将来是否有可能在技术上完美到能取代人类?

赵勇:我发现对于人工智能保持乐观的人都不是专业人士,专业人士一般都是保持悲观的。小说家可以写出非常美妙的东西,甚至一些游戏厂商,把游戏人物的行为也叫AI,但他们只是制定了一些行为模式,然后根据一些判断条件,生成不同的结果,所以这些表现都是预演好的,并不是真正的AI。我们现在真正能在科学上实现的AI是在感知层次,这两年无论是“深度学习”还是“机器学习”,都是范例教育,就是说我们把计算机当成一名学生,给他很多Sample,告诉他意义是什么。如果你的训练方法足够好,计算机系统便慢慢学会了它们,比如图像识别。可能现在猫狗识别不能很精确,但人脸已经很精确了,甚至超越了人识别的能力。但所有这些,本质是我们人类在教会计算机学习并重复一些人类会做的事情。如果让AI超越这个层次,让它去创造一个新东西,哪怕很微小,机器都没有办法做到。比如我某次去天津,发现路上的红绿灯是两个灯,不像北京那样是三个灯在跳跃,我们自己一般瞬间就能理解它,但却没有办法教会计算机去理解这样一个新型信号灯是什么意思。

另外,人类智能其实还有一个重要的组成部分叫“情感”,它是人类超越动物的重要标志。仅从结果来看,你会发现越高级的动物情感越丰富。尽管情感会使你在一个很困难的情况下做一些在短期内看并不理智的事情,但从长期来看,它对物种生存的帮助很大。比如所有的有情感的哺乳动物都会抚养子女。情感和逻辑思维之间到底是什么样的关系?目前我们还没有研究清楚,但当我们到这个层面来讨论时,其实已经超越了人工智能研究的范畴。在我看来,人工智能自身是没有意图的,它就是一个工具。

CTO俱乐部:能否畅想一下在计算机识别领域,未来有哪些发展趋势?

赵勇:我觉得从技术层面,大概分成两种思路去发展。第一种像百度那样只做识别,用户把数据给你,然后你提供一个答案。比如回答某张照片里面有没有海滩、落日等。也许你会问,难道我自己不懂这些吗?但当一名用户有1万张照片,因为要做PPT急需一张海滩落日的照片时,这样的识别技术就产生效率了。第二种是机器人型的,就是不管你问或者不问,它都在那里工作。比如我们的监控摄像头,无论是在安全领域、娱乐领域或者是商业分析领域,它都可以自动工作、搜集数据并且自动执行分析程序,给人一定的指导建议。比如一些商圈广场,如果装了我们的设备系统,它就能通过数据分析,建议商圈运营方“将店A换成另一家店B吧,因为在那么重要的位置,店A却吸引不了顾客流”等。格灵深瞳做的就是机器人,做监控系统时是监控机器人,做视频开车时则是安全驾驶机器人。

人才标准:每一个新人都是最强的

CTO俱乐部:听说你在很多大公司的实验室工作过,比如三菱电器研究所、Nvidia实验室、惠普实验室和Google实验室等,它们的研究文化有哪些不同?格灵深瞳和哪一家实验室的风格比较像?

赵勇:这几家实验室都在美国,其中有两家是日本公司(三菱电器、爱普生),比较有意思的是,这两家日本实验室中的研究员基本都是美国人。总体来说,三菱电器、爱普生和惠普实验室风格比较古板、严谨,Nvidia实验室稍微好一些。我在Nvidia实验室工作时,那里总共只有18名研究员,只有4、5个人在总部,其他的人都在家里工作;而且我跟我的导师,整个夏天就见过一面,因为他那个夏天正在骑自行车横游美国,只是偶尔打个电话给我——大家就是在那样的状态下工作。记得分配任务的时候,我问导师我的任务是什么呢?结果导师说,“这样吧,你先花两天时间想一下你的任务是什么,然后你接着去做就是了”。Google是最不一样的,我到Google去时,问了领导同样一个问题,我的任务是什么?他回答说是Making Friends。他认为公司这么大,我应该先去各个部门玩一玩,交些朋友,看看能不能帮助他们解决一些问题,因为“我们最终解决的问题是来自于现实的”。就是在这个过程中,我通过和几个同事的交流,一期启动了Google Glass项目。后来我在Google工作了一年多后,成为了PI(Principal Investigator),开始拥有了自己的Funding,可以根据自己的项目经费来决定自己做什么项目,申请多少工程师来自己的项目小组。因此Google实验室的文化氛围是我见过的所有美国公司当中最自由的,是我个人最喜欢这种方式,所以格灵深瞳的研究文化也最接近Google模式。现在和大多数互联网公司一样,我们对于技术研发人员不做考勤,我自己也尽量削减在技术团队中的权威形象,把组织结构扁平化,使得大家有更充分的时间和精力去考虑如何做出更多的贡献。

CTO俱乐部:曾经看过你们的招聘广告,听说要加入你们团队比进入哈佛大学还难,你心目中的人才标准是什么?

赵勇:从某个角度来说,美国普通大学生进入哈佛大学的录取率是6%~8%,这比我们高多了。对于人才的标准,我们技术部门其实很简单,我先讲个故事。当我从Google辞职时,去找一位曾经的领导,希望他给我一些建议。他叫Peter Norvig,曾是NASA(美国宇航局)的Research Director,曾经管理过2000多名研究员。他加入Google时,当时Google只有19名员工,他成为第20名员工,负责Google的研发和技术招聘。他给我提供了这样的建议:在任何时候,你都要确保你们招的这个人在某一个你关心的方面比你们每个人都强。他说如果你持续这么去做,你的团队会越来越强。所以我刚开始创建技术团队时,就是这么做的(实习生例外)。当然现在我们团队规模扩大了,策略就调整成:每次招聘的人,所有参与面试的同事都要给他投票,从0分到5分,3分是平均分,这是什么概念?3分就是我们团队哥们几个目前的水准,如果来面试的新人低于3.5分,我们就不会考虑。


还不是CTO俱乐部成员的各公司技术负责人,欢迎立即加入俱乐部:cto.csdn.net 。

3/30-4/10,最具价值TOP50 CTO联手,最懂程序员的招聘会火热进行中!

Data 控件使用有密码的 Access 数据库 -VB资料 Excel、Access、VB的结合应用 Microsoft SQL Server 7.0安装问题(二)-VB资料 主题: MDB文件的导出 使用 DAO-VB资料 Microsoft Access秘密、技巧和陷阱-VB资料 SQL的基本操作(1.数据类型) -VB资料 SQL的基本操作(2.数据库的相关操作)-VB资料 SQL的基本操作(3.表的相关操作) -VB资料 SQL的基本操作(4.数据的检索)-VB资料 SQL在VB中的使用及访问远程数据库 Text 转换为 Access MDB -VB资料 VB5.0数据库基础 非编程方式访问数据库-VB资料 VB用编程方式访问数据库 VB 5.0数据库设计技术讲座(4) VB5.0数据库编程经验小集 VB5在处理数据库时的几个“BUG” VB6.0中的几个新增数据库工具 VB处理数据库时求数据表记录总数的最佳方法 VB访问数据库的方案比较 VB数据库编程经验两则 VB数据库编空字段的处理 VB数据库多字段记录的录入 VB数据库记录查询四法 vb应用程序访问sql server方法探讨 VB中超长OLE数据库字段的操纵方法 VB中将数据转换为数据库文件 VB中远程数据库的访问 Visual Basic 的数据库编程 Visual Basic数据库数据的选项录入及选项增减与编辑 把资料输往Excel来列印-VB资料 如何禁止局域网中的MSN `×××怎样验证一个文本宽是否输入了汉字××× 为什么我的程序编译后跟没编译一样!大家救救我啊!急! JAVA发展趋势是什么? WEB服务器问题?????? 如何处理编码的问题 100分求助!关于多选框的问题!急啊!在线等!! 关于布局管理器的问题 recvfrom 的超时怎么不行呢? IIS不能访问asp文件,只能访问html文件,而且网页中的所有弹出类网页链接全都打不开(在线等) 在JSP里边怎么动态插入文件 设计物流系统应该考虑那些问题,实现那些功能,拜托 设计物流系统应该考虑那些问题,实现那些功能,拜托 php中的register_globals为off,怎么获得url中传递参数 设计物流系统应该考虑那些问题,实现那些功能,拜托 上海日記:震撼 这是为什么? 在JBuilder 下 如何单步debug SOAP 服务器端程序? 求助:手机短信是以什么编码发送的呢?UTF还是普通的GB2312? 另外移动和联通用的编码一样么? 急求《c#高级编程》2nd 英文版! windows 2003 下我的p4x266e 板载声卡驱动好了,但是没有声音,怎么解决? SOS:菜鸟问题! 如何来判断字段类型????初级问题..... 求助:请问vbscript什么函数可以让一个单精度的数保留两位小数 wps2000加密文件问题 程序员调查 C/S下如何访问ODBC数据库,客户端不配置任何东西。 大家有何看法???????????? 程序在系统启动时起动,如何做? 局域網計算機間訪問問題﹐進來看看﹗﹗ 为什么我向数据库插入数字时总是出错? 做网页是用切片好做还是用表格好? ftp代码,求救 中秋节,你和MM咋过的,有过风花雪月的事吗? 庆祝升级!!!一夜间有多了一条裤衩,爽歪歪了 我想捕获特殊字段…………高分…… 如何在iframe中表格边框成虚线? Repeater模版列中如何动态添加checkbox控件? 局网能用,internet上该如何用? 请问如何将自已做的网站在sohu、sina上做链接?收费吗? 请问ID怎么传送!!! 传递参数?? 请教高手:码距、码字概念,请举例说明。 原来有朋友问过我流水号要怎样生成才好,今天把这个函数奉献给CSDN里的新手们! 在PHP中有没有表示“千分位”的函数呢?怎么实现呢 开发工时问题,有数据库开发经验者请进 想上一套抄表系统,熟悉的清介绍一下功能,构造以及价格 TListView出现List index out of bounds 错误 在html里面实现在线播放时怎么定制自己的界面?? 请问谁知道 Result中的getArray()怎么用?如何将得到的sql数组转换成String[]或int[]? 请问用xdoclet生成ejb存根类具体是怎么做的 如图,已知角aob=180度,角mon=90度 在三角形ABC中角ABC对应边分别是abc 若a=1 b=2则角A的取值范围是在三角形ABC中,角A、B、C对应边分别是a、b、c 若a=1 b=2则角A的取值范围是 惊愕不已 已的意思是什么? 证明:图中的四边形MNOP是平行四边形此题能否用反证法来做,如果可以写上过程~如果不行说明原因~ 用勾股定理证的人你可以走了, 欲把西湖比西子中西湖和西子的相同点是什么不同点是什么 西子情写过那些小说?比如说《夫君太坏谁的错》《红尘醉挽柔情》《夫君太多谁的错》在哪里可以看到啊?她的小说一般在哪里连载啊? 跪求五年级下半期数学(课时百分百)第三单元测试卷答案! 等差数列an的前n项和sn,若a1=1,d=2,s(k+2)-sk=24,k= 《 生命的风景 》作者 如图∠mon=70°如图,∠MON=70°,点A、B分别在射线OM、ON上移动,BD是∠NBA的平分线,BD的反向延长线与∠BAO的平分线相交于点C.试猜想:∠ACB的大小是否随A、B的移动发生变化?如果保持不变,请给出 《问道》的解释全文 新闻分析:格鲁吉亚大选后内政外交如何新闻人物:格鲁吉亚当选总统马尔格韦拉研究:飞机座椅加宽1英寸 乘客睡眠质IPCC中国宣讲会:21世纪末全球气欧洲一航空公司推“慈善空姐日历” 泳德媒曝美国10年前已监听默克尔通讯 美国国安局:奥巴马并未参与讨论监听默印度反对派竞选集会遭袭 死亡人数上升美研究称因感到受尊敬50岁以上人群更澳大利亚一墓园将举行”恐怖”派对 迎俄罗斯兴起“护花行动”保护夜行年轻女曝慈世平今天将签约四川 143万美元中超 王晓龙梅开二度 富力客场5 1高清:大巴黎工体踩场伊布亮相 备战法备战法国超级杯“大巴黎”现身工体青奥会部分场次门票售罄 一百多场次售中超第17轮-辽宁宏运1-5广州富力2014斯坦科维奇杯 中国男篮胜安哥纳达尔因伤退出两项赛事2022年冬奥申委官网正式开通算算运动不足的成本(体坛观澜)兰州雁滩桥十字交通通行临时管制后 四护花冷少超级游戏编辑器奴颜婢色丹武无敌狐狸抱满怀扑倒吧,少爷带着魔兽闯天下弃妃当道网游之热血杀神寻爹启事:妈咪不好惹至纯医道三江源旅游桃江十三渚旅游燕子矶旅游伊犁九曲十八弯旅游阔克苏大峡谷旅游神农山旅游油麻地戏院旅游赤柱广场旅游赤柱跳蚤市场旅游百崖大峡谷旅游威尼斯人酒店旅游
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘