说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

专访格灵深瞳CTO赵勇:为" 计算机视觉" 赋予智慧的光芒

HTML文档下载 WORD文档下载 PDF文档下载
据说加入从事计算机视觉识别的格灵深瞳团队比进哈佛大学还难;投资人对其未来市场估值达几千亿……近期CTO俱乐部专访了格灵深瞳CTO赵勇,他曾供职于Google总部研究院,也是Google Glass最早期的核心研发成员。

在国内新兴的诸多技术型创业公司中,从事计算机视觉识别的格灵深瞳团队给人一种很神秘的色彩。据说他们的成员都在来自海内外一级名校的学霸,要加入他们比进哈佛大学还要困难;据说格灵深瞳的投资人,给这个团队的未来市场估值达几千亿……那么,格灵深瞳如何看待自己的事业和团队文化?不久前,来到格灵深瞳的办公场所,颐和园北面一座临河的古色古香的四合院内,CTO俱乐部采访了格灵深瞳CTO赵勇。赵勇是美国布朗大学计算机工程系的博士,毕业后供职于Google总部研究院任资深研究员,他也是Google Glass最早期的核心研发成员,2013年4月作为联合创始人创立格灵深瞳。


格灵深瞳联合创始人兼CTO  赵勇

格灵深瞳的内涵

CTO俱乐部:你们公司的名字“格灵深瞳”很特别,能讲讲它的由来吗?

赵勇:格灵深瞳最先有一个英文名字,叫Deep Glint,对于Deep(深度)它主要有两方面的寓意:第一,我们做的是三维深度视觉;第二,我们采用了深度学习的方法。我觉得这两个概念是计算机领域过去10年间最伟大的概念,所以我希望我们公司的命名一定要和“深度”有关。那Glint是什么意思呢?它的原意是反光、闪耀,比如常用的应用场景是人的眼眸啪地闪烁一下,好比日本漫画里那种又大又有闪光的眼睛。一双闪烁着光的眼睛意味着是有灵性的、智慧的眼睛。我们原来打算把中文商标注册成“深瞳”,但没有成功(有一部同名电影把相关商标申请了),便换成“格灵深瞳”。

CTO俱乐部:如果用清晰、简洁的话语来描述,格灵深瞳正在从事什么事业?

赵勇:Visual Understanding和Artificial Intelligence。Visual Understanding指“去理解视觉信号”,比如对于一张拍摄下来的照片,去解读它里面发生了什么事情。 Artificial Intelligence是基于你对这个世界的观察,产生一些判断的、思维的结果,能够形成一个感知系统。它的范围可小可大,比如我的朋友李志飞做的“出门问问”App,你说一句话“我想买一碗炒面”,它就能帮你寻找附近的饭馆;比如我另一个朋友余凯在百度做的工作,可以通过照片来识别出具体某个人;还有我的老东家Google做的无人驾驶汽车,它可以自动把乘客从A点运动到B点。以上例子都属于Artificial Intelligence。格灵深瞳的事业就是基于Visual Understanding做一些Artificial Intelligence方面的应用。

人工智能PK人类智能:是否具备创新和情感

CTO俱乐部:据我所知,现在语义识别、图像识别的技术都不是特别成熟,而关于你们的Visual Understanding层面,举例说在具体社会风俗环境下,可能人的手势或者特征的意义不同,对上述问题你们有没有从技术上提炼出一些框架性的原则?

赵勇:没有,所以你必须很好地界定你的问题范围。如果有人问我说,机器人、人工智能会不会把人杀了?如果把杀人(或者绣花)当作一个高级的行为,那么现在人工智能还处在一个饮毛茹血、刀耕火种的年代。所以我们基本上是先做一些简单的事情,把肚子先填饱。但这些简单的事情只要能交给机器人去做,它也会变成一件伟大的事情。我们经常对外宣称,我们的使命是让计算机看懂这个世界。但世界很大,所以我们先一步一步地看。我们现在的目标是先看懂两件事,第一件事情是人,第二件事情是车。我们看人包含哪些内容呢?它有四个层次,第一个层次是微观层次,比如你的脸和手、你是谁、你的手在做什么;第二个层次是肢体动作,你是不是在跳舞、跳的是什么舞、你有没有在打架等,坦率地说,我们现在不能识别你跳什么舞,但可以识别你是不是在打架、你有没有在求救等;第三个层面是在一个摄像机里面,你是怎么运动的、你旁边的人是怎么运动,以及你们俩之间有没有什么关系;第四个层面是最高的层面,叫Visual Sensor Network,就是把前面三层都联网,这样你就有了更多的数据,比如一个人既在摄像机A又在摄像机B中出现,如果我们能够识别出他是同一个人,就有可能为这个人建立一个更长的轨迹,从更大的范围内去分析他的行为。

2015年起,我们将投入很多精力去研究车,因为车是人类行为的一种识别。现在中国每年有很多人死在交通事故中,因此如果我们能够利用人工智能解决安全问题,也将是一件功德无量的事情。此外,对于车辆行为大数据的挖掘,对城市管理和节能环保也会有重要作用。

CTO俱乐部:说到人工智能,电影《黑镜子》里面塑造了一个完全和真人一样的虚拟男友。人工智能将来是否有可能在技术上完美到能取代人类?

赵勇:我发现对于人工智能保持乐观的人都不是专业人士,专业人士一般都是保持悲观的。小说家可以写出非常美妙的东西,甚至一些游戏厂商,把游戏人物的行为也叫AI,但他们只是制定了一些行为模式,然后根据一些判断条件,生成不同的结果,所以这些表现都是预演好的,并不是真正的AI。我们现在真正能在科学上实现的AI是在感知层次,这两年无论是“深度学习”还是“机器学习”,都是范例教育,就是说我们把计算机当成一名学生,给他很多Sample,告诉他意义是什么。如果你的训练方法足够好,计算机系统便慢慢学会了它们,比如图像识别。可能现在猫狗识别不能很精确,但人脸已经很精确了,甚至超越了人识别的能力。但所有这些,本质是我们人类在教会计算机学习并重复一些人类会做的事情。如果让AI超越这个层次,让它去创造一个新东西,哪怕很微小,机器都没有办法做到。比如我某次去天津,发现路上的红绿灯是两个灯,不像北京那样是三个灯在跳跃,我们自己一般瞬间就能理解它,但却没有办法教会计算机去理解这样一个新型信号灯是什么意思。

另外,人类智能其实还有一个重要的组成部分叫“情感”,它是人类超越动物的重要标志。仅从结果来看,你会发现越高级的动物情感越丰富。尽管情感会使你在一个很困难的情况下做一些在短期内看并不理智的事情,但从长期来看,它对物种生存的帮助很大。比如所有的有情感的哺乳动物都会抚养子女。情感和逻辑思维之间到底是什么样的关系?目前我们还没有研究清楚,但当我们到这个层面来讨论时,其实已经超越了人工智能研究的范畴。在我看来,人工智能自身是没有意图的,它就是一个工具。

CTO俱乐部:能否畅想一下在计算机识别领域,未来有哪些发展趋势?

赵勇:我觉得从技术层面,大概分成两种思路去发展。第一种像百度那样只做识别,用户把数据给你,然后你提供一个答案。比如回答某张照片里面有没有海滩、落日等。也许你会问,难道我自己不懂这些吗?但当一名用户有1万张照片,因为要做PPT急需一张海滩落日的照片时,这样的识别技术就产生效率了。第二种是机器人型的,就是不管你问或者不问,它都在那里工作。比如我们的监控摄像头,无论是在安全领域、娱乐领域或者是商业分析领域,它都可以自动工作、搜集数据并且自动执行分析程序,给人一定的指导建议。比如一些商圈广场,如果装了我们的设备系统,它就能通过数据分析,建议商圈运营方“将店A换成另一家店B吧,因为在那么重要的位置,店A却吸引不了顾客流”等。格灵深瞳做的就是机器人,做监控系统时是监控机器人,做视频开车时则是安全驾驶机器人。

人才标准:每一个新人都是最强的

CTO俱乐部:听说你在很多大公司的实验室工作过,比如三菱电器研究所、Nvidia实验室、惠普实验室和Google实验室等,它们的研究文化有哪些不同?格灵深瞳和哪一家实验室的风格比较像?

赵勇:这几家实验室都在美国,其中有两家是日本公司(三菱电器、爱普生),比较有意思的是,这两家日本实验室中的研究员基本都是美国人。总体来说,三菱电器、爱普生和惠普实验室风格比较古板、严谨,Nvidia实验室稍微好一些。我在Nvidia实验室工作时,那里总共只有18名研究员,只有4、5个人在总部,其他的人都在家里工作;而且我跟我的导师,整个夏天就见过一面,因为他那个夏天正在骑自行车横游美国,只是偶尔打个电话给我——大家就是在那样的状态下工作。记得分配任务的时候,我问导师我的任务是什么呢?结果导师说,“这样吧,你先花两天时间想一下你的任务是什么,然后你接着去做就是了”。Google是最不一样的,我到Google去时,问了领导同样一个问题,我的任务是什么?他回答说是Making Friends。他认为公司这么大,我应该先去各个部门玩一玩,交些朋友,看看能不能帮助他们解决一些问题,因为“我们最终解决的问题是来自于现实的”。就是在这个过程中,我通过和几个同事的交流,一期启动了Google Glass项目。后来我在Google工作了一年多后,成为了PI(Principal Investigator),开始拥有了自己的Funding,可以根据自己的项目经费来决定自己做什么项目,申请多少工程师来自己的项目小组。因此Google实验室的文化氛围是我见过的所有美国公司当中最自由的,是我个人最喜欢这种方式,所以格灵深瞳的研究文化也最接近Google模式。现在和大多数互联网公司一样,我们对于技术研发人员不做考勤,我自己也尽量削减在技术团队中的权威形象,把组织结构扁平化,使得大家有更充分的时间和精力去考虑如何做出更多的贡献。

CTO俱乐部:曾经看过你们的招聘广告,听说要加入你们团队比进入哈佛大学还难,你心目中的人才标准是什么?

赵勇:从某个角度来说,美国普通大学生进入哈佛大学的录取率是6%~8%,这比我们高多了。对于人才的标准,我们技术部门其实很简单,我先讲个故事。当我从Google辞职时,去找一位曾经的领导,希望他给我一些建议。他叫Peter Norvig,曾是NASA(美国宇航局)的Research Director,曾经管理过2000多名研究员。他加入Google时,当时Google只有19名员工,他成为第20名员工,负责Google的研发和技术招聘。他给我提供了这样的建议:在任何时候,你都要确保你们招的这个人在某一个你关心的方面比你们每个人都强。他说如果你持续这么去做,你的团队会越来越强。所以我刚开始创建技术团队时,就是这么做的(实习生例外)。当然现在我们团队规模扩大了,策略就调整成:每次招聘的人,所有参与面试的同事都要给他投票,从0分到5分,3分是平均分,这是什么概念?3分就是我们团队哥们几个目前的水准,如果来面试的新人低于3.5分,我们就不会考虑。


还不是CTO俱乐部成员的各公司技术负责人,欢迎立即加入俱乐部:cto.csdn.net 。

3/30-4/10,最具价值TOP50 CTO联手,最懂程序员的招聘会火热进行中!

流行从这里开始,MDCC 2014十大人气产品榜单揭晓! 专访POWER 8编程挑战赛选手唐刚:大数据计算永远是主角 微信公众号认证命名松绑,您怎么看? LambdaNet:纯Haskell实现的人工神经网络库 专注模式识别,易道博识为海量信息输入提供便捷之门 【问底】Michael G. Noll:整合Kafka到Spark Streaming——代码示例和挑战 2014年手游和社交游戏行业重要趋势解读 腾讯副总裁罗道锋:共建全国最大安全云库 5分钟内数据精准共享 Connected Cycle 一举两得的智能自行车踏板 CES可穿戴产品前瞻:汽车厂商入局智能手表领域 果断Mark!国外程序员收集整理的PHP资源大全 Google 2015项目前瞻:智能隐形眼镜、Google X、Ara Swift的坑:如何实现enum的多选? Swift,其实没那么任性 如何利用单台服务器实现10万多个Git仓库托管 Swift的初始化方法 TIOBE 2015年1月编程语言排行榜:JavaScript成大赢家 为什么iOS开发不需要Storyboard? 仅有纽扣大小的开发板 Intel Curie “撒娇”的豌豆荚?被百度手机助手屏蔽太糟心! 【工具推荐】Pgcli—自动完成和语法高亮的Postgres命令行工具 CES 2015:挑一款机器人带回家? 夜行、睡眠与健康:CES 2015十款酷炫的可穿戴产品 Java 9中新的货币API 唯“简”不破,Apple Watch App的设计之道 Google Glass从X labs“毕业”,更换项目负责人 不进化,则消亡——互联网时代企业管理的十项实践 RedMonk 2015年1月编程语言排行榜:进击的Swift! 微信开放JS SDK,这场web巨变意味着什么? 盘点一些iOS开发技巧:Swift和Objective-C 2014年,那些“颜值”爆表的UI动画 急问VC中的声音函数 奇怪,我实在没招了。。。 动动动画画画???? 现在用于B/S结构的软件一般用什么开发工具? 我给自己一个要求 JDO和SQL Server2000建立表的映射关系时,datetime类型如何映射? 如何实现listview的ItemDbClick事件 请问:如何给Forpro数据库表增加一个字段? 如何判断鼠标不在我的窗体上 高分排错! 关于session的问题 这种Select效果怎么做? 问问各位大虾,怎么才能让我的activeX控件没有安全提示就能直接运行啊 问个关于控件边框拖动的问题 请教大侠 怎样在ToolBar上移动鼠标时,其按钮对应的图片显示不同外观(默认情况下,按钮只是突起) 哪里有MCS-51教程的电子书(急用)? DATETIME类型让我保存失败。 赛扬级的CPU运行.NET Framework 行不行??? 急 关于一个初始化问题? 紧急求救~~ 关于触发器 急 关于一个初始化问题? 一个关于日志的问题,解决不了请教高人!! 请问交换机的端口有mac地址吗? 如果附件名太长,用javamail收邮件附件收不到,怎么办? 请教更精练的代码 嗅探到局域网里机子的MAC地址,可以通过MAC知道他的IP地址吗?还有进来再说吧…… 程序运行 关于<object></object>组件数据提交问题! 熟悉呼叫中心的朋友请进了 如何停止FTP文件下载?函数如何实现 如何获得省略号代表的参数内容? 如何将Tlis中的指针信息保存成二进制(或文本文件),给个思路或套路! 我实在无法看见这个阿头!!!!!!!!!!! 熟悉呼叫中心的朋友请进了 请教大家:有关动态库的问题 后天去德国了!送分!!!有没有想去德国的弟兄!! 请问一下在线聊天原理和方法 求解C#从上手到精通时间 大家帮帮我 如何解决WebBrowser是没有标记为安全的ActiveX? 100分!!! 请教,近来有分 vc中有方便的调用webservice的开发工具包吗? 两个文件之间参数传递问题请教! 求解C#从上手到精通时间 熟悉呼叫中心的朋友请进了 我是一个菜鸟,简单问题 这样的SQL语句如何写? ie 浏览网页时,有时cpu 会用到100%,奔4 的17G,为什么会这样? 谁有Roxio VideoPack 5以上的版本?能下马上给分 吐血求救!我的语音程序不知道为什么,总是有重复的声音! ,中心思想通过了什么,表达或说明,体现了什么通过了什么事,说明了什么道理惑品质 09年初一下语文最有可能考的作文试题明天就考了,我是四川德阳的,就帮我看看,作文最大可能考什么,还有,那些要背的课文最容易考啊,那篇中点课文要考,还有文言文靠那片,不哟啊那些没用的 如果你要毁灭世界,请带我一起.这句话表达什么女对男 什么叫“帽子戏法”和“梅开二度”?足球里总是有这两个词, 如何应试提分成考语文作文 凝集反应和沉淀反应有何异同 背影的中心思想是什么 为什么"福"字要倒贴? 1.Don't send four of anything to a Japanese because the Japanese word "four" sounds like the word for "death".It ______ bad luckA.shows B brings C means D gives为什么用C 不用B 指它带来坏运气2.--I'm afraid if the kids go on playing such k 背影的中心思想 为什么福字要倒贴谁可也顺便告诉我这事的由来 1.Liu Hua is a _______ girl,but she has a ______nane.A japan china B American Chinese C Italy Chinese D japanesechinese2.My home is ______ school,so I often walk to school.A far away B not near C far from D not far from 3.How many _______ have you me 背影中心思想. “福”字倒贴的由来? 人体骨髓中的造血干细胞具有终生分裂能力,如果其中一个干细胞连续分裂5次,得到得到的细胞个数是A、5B、10C、55D、32 什么是帽子戏法? 为什么人们喜欢将一个“福”字倒贴? A型血的血清中的凝集素是 A 抗A凝集素 B 抗B凝集素 C 抗A抗B凝集素 D 都没有 什么叫帽子戏法 好汉不提当年勇,下面那句是什么? 血清中有凝集素还是凝集原 还是都有 是一个球队一场比赛进三个球么 还是. 好汉不提当年勇出自哪里(谁说的) ab型血个体的血清中所含凝集素是以下哪一种情况?a含凝集素A b 含凝集素B c兼含凝集素a和b d不含凝集素a和b 其( )里之丑人见而美之其里之丑人见而美之中的“其”是什么意思 什么叫“好汉不提当年勇”? char s[]=" an apple" ; printf(" %d\n",strlen(s)); A)7 B)8 C)9 D)10 其里之丑人见而美之的意思 为什么“好汉不提当年勇?”古人说的话自有它的深意,好汉不提当年勇是我常听到的古话.可是,为什么?为什么好汉就不能提当年勇了? 立的反义词是什么 万能五笔如何实行五笔与拼音互译就是当拼音出现要打出的字时,可以看见它的五笔字形,反之可以见它的拼音 中的四个"背影"表达怎样的感情 语文作文高手请进(5)降低要求!请用以下两组词语分别写两端段优美或者很有哲理的话(每段尽可能简练).没有哲理或优美,只要通顺,和逻辑就行了!不要用近义词替代词语,有些词不好放在 背影 重点句子的解释 古代江南地区房屋特点也是急需写小说的问题. 语文四年级下册的第四单元作文 高手请进不要复制 自己写 是关于战争的那个小孩 作文高手请进 jewels jewellery jewel jewelries分别什么意思?有什么区别? 浮梅槛记 译文不需要原文 钻石的英文单词? jewellery,jewel1.She lost a treasured_at the party last night.2.All of her_was put in a safe. 江南地区的著名诗人有哪些?古代的. 中国传统文化福字为什么倒贴 jewellery英语怎么读 钟面上5时45分,时针在分针后面多少度?(要算式,要讲解) 儿子永远写不好的字是什么字?(打一字谜)小学三年级《品德与生活》课后练习与评价的一个题 给远方朋友的一封信 作文 写这学期令你感动的一件事 二次函数与一次函围成的图像的面积,可以用联立得到方程,再求这个方程的微积分得到所求面积吗? 我儿子做事总丢三落四,字 也 写不好 进错球门叫“自摆乌龙”,练进两球叫“梅开二度”,三球叫“帽子戏法”,还有什么词语啊?新出现的词语,包含语文水平,不一定是足球要认真些, 二次函数与一次函数有两个交点时,它们的联立方程组有两个解还是两组解? 中国人过春节“福”字为什么要倒着贴? 自摆乌龙 梅开二度 帽子戏法是不是成语与语言学、现代汉语相关的内容 二次函数是方程吗 春节“福”字为什么要倒过来贴? 请问帽子戏法就是梅开二度么? 什么是“二八定律”,是谁提出来的?什么是二八定律,都有哪些二八定律,是谁最先提出来的? 求一篇作文,要求如下:1.通过写景交代时间.2.从听觉.触觉.嗅觉和视觉去修饰描写物体.3.运用拟人手法从人的感觉去写.4.通过人物的对比描写反映人物的特点.我知道这难度很大,如果有好的, 什么叫帽子戏法,梅开二度aaaaaaaaaaa 今天就要!用所给的单词的正确形式填空用所给的单词的正确形式填空1、where is_____(nancy)mask?2、i would like_____(buy)some masks.3、how much_____(be)the masks?4、there aren't_____(some)sofas in the sittin 帮我赏析一篇作文,3Q《那一次我哭了》打开记忆的小窗,我想起了上个学期的一天,想起了那感动人心的一幕……那天,我们学校请来了一个外地的教授,给我们讲了一堂生动的感恩教育课.他在 打造两岸经贸合作升级版 ECFA后续美媒:失业者重找工作需要做的五件事外媒曝查尔斯不想当国王 王位或将越代美媒:中国能成为生物技术领域领导者吗美霸主地位逐渐丧失 “去美国化”引争港媒:华人强烈抗议“杀光中国人”言论俄外长与联合国叙问题特使讨论筹备叙问联合国-阿盟叙特使称伊朗应参加叙问题法国正式要求美国停止监听行为 希望低中国养老困局难解 老人:不知十几万够求同存异破壁垒 两岸携手打造中华文化日本欲解禁武器出口 妄图“一箭三雕”美媒:中美日竞争转向拼经济 争亚洲“日媒:美国家安全局曾请求日本协助监听美国海军基地发生枪击案 两人受伤凶手聚焦去美国化:是否为世界多极化发展必联合国-阿盟叙特使称伊朗应参加叙问题“绿色和平”成员登埃菲尔铁塔 悬空表俄外长与联合国叙问题特使讨论筹备叙问解密以色列版007:最爱暗杀 钟爱炸胡万林拒为堂妹看病:这病我治不好 去母子为泄私愤擅自毁人果林 赔款道歉获无限极“2014养生行走日活动”将于湖南:新建小区养老设施人均用地不少于甘肃沿丝路兴建多个自驾游基地青奥会物资通关享“一站式”服务 已完F-35战机起火原因查明 发动机部件民间后援会首成立 劳工力挺连胜文入台被爆用替代役男辅选 柯文哲团队:愿坦新北警方破获一间职业赌场 赌客惊呼:巴西预计今年本国经济增长将放缓逐梦在娱乐贾静雯因台风困上海 担心赶不上徐若瑄麦德姆台风:新北3万户停电 台北树木潘世伟澄清不伦恋:若男秘书就成同性恋妻住院皮包被窃 丈夫吸烟室巧遇小偷香港夜生活集中地 尖沙咀台风“麦德姆”下午3时30分登陆福建不断提升社会治理服务群众的能力和水平17省300余名学生被香港中文大学(“占中”金主黎智英遭起底:巨资收买反韩国公布新的旅游宣传主题 目标年接纳
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘