说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

《近匠》豌豆荚李大海:用搜索敲开手机娱乐平台之门

HTML文档下载 WORD文档下载 PDF文档下载
《近匠》第48期:不久前,豌豆荚发布了"应用内搜索"技术协议。初步提供了对应用内搜索的检索、收录和调起标准。还同步上线了“应用内搜索”接入申请入口。豌豆荚已不再是简单的应用平台,逐渐变成了娱乐搜索中心。

2014年3月,豌豆荚发布了垂直应用搜索的"应用内搜索"技术协议。初步提供了对应用内搜索的检索、收录和调起标准。同一时间,豌豆荚同步上线了“应用内搜索”接入申请入口。应该说搜索是豌豆荚的重要战略之一,而开放接口的一个重要原因在于,在已经培养一段时间的用户习惯后,豌豆荚的深度用户已不满足于现有应用的内容。同时,部分通过豌豆荚分发的应用已经开始与豌豆荚接触希望成为应用内搜索的来源之一。

应用内搜索的意义在于,像当年的Web网站一样,试图将移动互联网打通,使手机应用之间的关系,不再像现在一样是一个个的信息孤岛,而是可以通过搜索将信息内容串联起来。此前,Google在Android 4.4中推出的App Indexing便试图做到这一点,即将应用内容URL化,方便被搜索引擎抓取。而作为一家应用平台,着力打造应用内搜索,除了能从侧面提高被调起应用的下载量,有利于增强豌豆荚分发优势外,还可以打破各家内容的瓶颈,将视频、 电子书等内容在搜索内进行聚合,探索移动搜索的同时去发现渠道市场的新形式。

那么,豌豆荚在应用内搜索方面都做了哪些实践?应用内搜索技术在国内目前处于哪个阶段?又有哪些机遇与挑战留给开发者?针对这些问题,CSDN近日对豌豆荚搜索平台技术负责人李大海进行了专访。


CSDN:请简单介绍一下你的工作经历。

李大海:我2006年毕业于北京大学基础数学系,之后加入了谷歌中国,在谷歌待了四年多以后,跟当时的谷歌北京工程副院长刘俊一起创业做云云网。去年 8 月来到豌豆荚,负责搜索业务方面的事情。目前,我的主要工作是跟着搜索平台团队一起为公司的搜索产品提供技术支持。

CSDN:能否介绍一下豌豆荚的搜索技术团队?

李大海:豌豆荚早在2012年就开始做应用搜索,团队是按照典型的搜索引擎架构来分工的。工作内容包括爬虫、后台的数据处理、检索、排序,以及对用户意图的理解等。当然,随着公司业务的变化,我们的团队也一直在变。随着业务功能的增加,团队的规模也在不断壮大。 

CSDN:今年你们的工作取得了哪些成绩?

李大海:今年是我们从应用搜索向手机娱乐搜索转变的过程,这个过程有很多阶段性成果,比如我们的电子书、视频以及壁纸搜索,在线上服务了很多的用户。这些业务的变化促使我们在人员的规模和分配上也作出了一些调整。

CSDN:豌豆荚现在所做的应用内搜索是一个什么样的体验?

李大海:我们是把App的内容做了一个索引,给用户提供一个完全直达的体验。以电子书为例,用户通过搜索找到自己想看的书,豌豆荚可以直接把用户带到相应的 App 中去(比如《多酷书城》),你可以免费试读也可以下载。而这些 App 则变得更像传统互联网的网站,不再是信息孤岛。

CSDN:现在一些巨头也在向应用内搜索方向进行尝试,请问你怎样看待这种现象?在你看来,应用内搜索业务在竞争中得胜的关键是什么?

李大海:应用内搜索是一个非常新的领域,从产品形态上来看,它一定是基于手机使用场景发展起来的产品。豌豆荚一直专注于移动使用场景,为用户打造简单有爱的手机应用,我们也是第一个把应用内搜索产品化的公司。我们看到有越来越多的公司认可这件事,并且加入到这个领域当中,这是非常令人高兴的现象。说起应用内搜索的关键,我认为以下三点比较重要:全面、准确、情景化。尤其是全面、准确,这是用户愿不愿意用你的搜索产品的关键。另外,数据的积累客观上也能形成竞争的壁垒。豌豆荚在移动领域积累了4年的数据,这正是我们的优势。

CSDN:这样看来,豌豆荚已不再是一个单纯的应用平台?

李大海:是的。其实我们最终想做的事情是一个手机上的综合的内容搜索,把手机娱乐场景下的所有内容全面建立起来。当然,这需要一些时间,让用户对产品的认知慢慢改变。

CSDN:前不久,豌豆荚与《猫眼电影》合作,提供基于场景的搜索内容反馈。在你看来,理想的场景推送是一种怎样的体验?

李大海:我认为,理想的场景推送就是准确把握住用户需求。在搜索的场景下,我们知道用户需求后,再根据其他一些条件去判断,成功率和准确率会高很多。举个例子,一个智能的生活类搜索引擎,在用户晚上十点,以“川菜”为关键词进行搜索时,应当结合用户所处的位置,为用户提供附近能吃宵夜的川菜馆,而不是那些虽然流行但已经关门了的馆子。这就是所谓的“智能”,它不是虚无炫酷的,而是对用户需求的的准确判断。豌豆荚最近引入了电影票门类,在搜索最近热映的电影时,比如《后会无期》,用户可以直接点击第一条搜索结果开始选座购票,这样,用户会被直接带到猫眼电影 App 中,整个流程是无缝、流畅的。


CSDN:应用内搜索用到了一个关键技术,即Deeplink,能否简单介绍一下这一技术?

李大海:Deeplink在互联网发展的早年就提出来了,当时的概念是与首页对立的,“藏在首页之下的页面”,再后来,搜索引擎行业把这个概念跟爬虫容易抓取到的内容相对起来。我们认为,还有更多的互联网内容是藏在这些页面之后没被人看到的,也就是说,我们看到的信息只是冰山一角,更多的数据实际上是藏在冰山的下面的。现在,Deeplink更具体的是指App里面的内容。我们知道,App是组成移动互联网的一个个细胞,它对应着以前的网站。但它与网站不同的是,App的内容是孤立的,没有超链接的技术规范。所以,想知道App内有哪些好的内容从 App外部是不太容易做到的,这些内容隐藏得很深。针对这一情况,人们开始找出一些技术方案来解决这一问题,这些技术解决方案统称为Deeplink。

CSDN:能否举一些例子,具体讲讲Deeplink的实现原理?

李大海:现在已经有很多公司在定义自己的Deep Link规范,比如豌豆荚的应用内搜索技术协议(http://developer.wandoujia.com/search),Google的App Indexing(https://developers.google.com/app-indexing),Quixey的AppURL(http://appurl.org)和Facebook的App Links(http://applinks.org)等。

这些协议都有一个共同特点,通过某种方式代替URL来描述资源,为了与普通的(Web)URL对应,我们姑且称之为App URL,再使用第三方工具把App URL解释为Android系统或其它移动操作系统的原生App调起方式,打开App内对应的资源。这些协议要变得可用,都需要App首先能支持系统原生的外部调起方式。在Android上,这就是使用intent-filter来响应特定的intent。

拿豌豆荚的应用内搜索技术协议来说,我们使用Microdata+扩展的Sitemap来结构化地描述内容资源(这里的内容资源有比如视频和电子书等),在每个资源的描述文件中使用标签xhtml:link来描述该资源在Android上对应的打开方式,当这个资源在搜索结果中被点击时,标签xhtml:link中的内容会被豌豆荚翻译成相应的intent,让Android系统调用合适的Action。

下面是一个具体的例子:


这个视频的App URL就是“example://play/movie/xxx”,在调用的时候,豌豆荚会向系统构造一个intent,这个intent的action是"android.intent.action.VIEW",category是 "android.intent.category.DEFAULT",scheme是“example”,host是“play”等。这样,只要App在manifest文件中通过intent-filter注册了这样的intent响应能力,就能够顺利调起这个视频,进而开始播放了。

CSDN:这个过程当中会不会引起一些安全性的问题?

李大海:首先,从豌豆荚下载的应用我们会进行严格的认证,我们的应用内搜索本身也是在这些验证、审核过的应用的基础上把里面的内容提供给用户。用户能够搜索到这些内容,就表明这个内容本身的安全性是有保证的。第二, 用户在点击这个内容之后,会通过刚才提到的技术直接调起对应的App,打开相应的资源。到这里豌豆荚的工作就结束了,接着就是由对应App接手这个工作继续为用户服务,豌豆荚不能也不会获取和监听用户的使用信息。

CSDN:这是不是说,你们要去与开发者沟通,取得他们的支持,才能真正实现Deep link所预想的想法?

李大海:是这样的。真正支持Deeplink的开发者还非常少,所以我们为了实现预想的用户体验效果,必须跟开发者合作,跟他们解释需要做的事情和可以获得的好处,这是很难绕开的事情。目前,我们已经与超过50家合作伙伴达成了合作。最近也在准备上线自动接入内容的新版开发者中心,提升接入效率。

CSDN:作为豌豆荚搜索平台的技术负责人,你的常用开发工具是什么?

李大海:我研究生毕业前就是一个Liunx爱好者,是北京大学Linux俱乐部的常任会员。进入谷歌之后,也一直在Linux平台下做开发,日常使用的操作系统是Ubuntu,平时使用Vim进行代码编写,开发语言主要是用C++和Java,偶尔用一下Python,对Go语言也很感兴趣。

CSDN:在你的技术实践当中,有哪些建议与心得可以给到开发者?

李大海:现在是一个开源的时代,我建议开发者多了解开源界的动向,对常用的开源框架和工具,以及一些现成的存储系统有所了解,这样,在需要快速实现一个原型系统的时候能够以很低的时间和成本完成。比如Java和 Spring框架、Hadoop、Hbase、Hive、Storm、Spark等。另外,在移动互联网时代,我们经常需要处理海量数据。我建议开发者,在开发的时候,一开始就要想好怎样能把代码写得对分布式比较友好。比如选用数据库解决方案的时候虽然一开始量可能很小,但还是要想清楚到底是MySQL更合适业务需要,还是用HBase这样的Non-SQL数据库就足够了。如果采用MySQL,以后数据量大了可能会怎么运营?诸如此类。


【《近匠》上海庆科:智能家居背后的连接和交互方案提供商】《近匠》第47期:今年国内智能硬件团队不断涌现,而专注于智能家居方向的团队数量多。同时,一些如海尔、美的这样的老品牌也开始走向智能化。在这些智能家居背后,有着一个重要的云方案提供商,那就是上海庆科。

【《近匠》图灵机器人:App和移动硬件的智慧大脑】《近匠》第46期,图灵机器人是为开发者提供智能语义处理能力(包括语义理解,智能问答,知识库对接等)的服务。目前已经积累近百亿条语料库和GB级别基础数据,本期专访联合创始人韦克礼,听他详解“智慧大脑”。

【《近匠》Blueware何晓阳,不做中国的New Relic】《近匠》第45期,APM指“端到端应用性能管理”,可以对应用的传输链进行统一、实时深入分析。目前这一领域最广为人知的公司是美国的New Relic。作为一家中国APM提供商,Blueware希望APM可以为更多国内开发者所用。

回顾更多内容及线下开发者活动信息,请关注mobilehub公众微信号(ID: mobilehub)


寻求《近匠》免费报道,请私信:@CSDN移动,或发送邮件至mobile#csdn.net。

Infoworld Bossie Awards:最好的开源App锦集 除了乔布斯的鼠标 值得装入时间胶囊的十大科技产品 2013中国互联网安全大会:云环境带来的安全隐患和机遇 2013中国互联网安全大会:软件安全新挑战 专访Line大中华区总裁:即使卖萌,也能深入人心 iOS开发者必备:四款后端服务工具 市场研究公司:iPhone5C/5S成本分别是173、199美元 对软件开发有利的5个敏捷编程方法 移动端性能大比拼:CSS Sprites vs. Data URI 三大峰会七大论坛,2013移动开发者大会将于11月在京举行 黑莓47亿美元收购的背后 微软或成最大受益者 搜索大战升级:360搜狗相互起诉对方不正当竞争 诺基亚将于10月22日发布6款新产品 平板Lumia 2520等 从17美元到50美元 Facebook股价上涨背后的两大关键 12个理由:为什么我会认为Android比iOS 7好! AMD推 "Mantle" API 欲释放GPU全部潜能 Salesforce架构:日事务过13亿,2.4万TPS的数据库峰值 久违的iOS,新鲜的SDK,豌豆荚发布云相册 喜大普奔:谷歌15岁了,生日快乐! 传福特CEO Alan Mulally目前最有希望执掌微软 微软计划将WP8和Win8应用商店合并?太好了! 响应开发者要求:Kinect for Windows SDK 1.8发布 OpenStack基金会BD总监:希望有更多的中国公司加入 CTO如何避免决策失控(三):从CEO角度看CTO的应对能力 IT界需求最旺的16项技能 PMC发布8系列RAID卡 找准国内互联网企业需求 早Google一步,eBay数据中心率先搭载了火星上使用的技术 目标专利2000,技术研发人员占55%,斐讯的厚积薄发 SwiftStack CEO:分布式存储的未来 触控陈昊芝:“好声音”标王对移动游戏未来的预测 Office将更强大:微软正开发Office Reader和Office Lens 浏览器里能否使用带有界面的ActiveX Dialog中Edit控件对应的变量m_edit_string(CString型)如何得到控件中显示的串 各位:哪里有PB 7.0下载? 新学jbuilder请教前辈:听说用jbuilder做出来的东西脱离jbuilder环境后运行通常要改好多东西,怎么做能避免这类情况?用jbuilder做开发要 GetWindowNext怎么老是返回NULL? 我想学java,但是,我现在只会c++? 急都急死了,快教教我如何用Resin配jsp服务器啊?? 请问哪里可以找到Delphi 6 Developer's Guide这本书? 请问VB中怎么把从ms sqlserver中查到的记录输出到其它库中?如foxpro …… http://www.ws.net.cn/cgi-bin/lb2/topic.cgi?forum=1&topic=6696&show=0快了看看,有没有你们喜欢的女生? 爽呀!!!Visual Studio.net实在是正点呀! 我想用delphi自带的Micorsoft help workshop做帮助行么,在delphi哪里呀,我没找到! 我打算按下一个按钮实现ctrl+space切换输入法的功能,可是不好使,大家帮我看看 在dreamweave ultradev下如何把ASP与本地服务器上的数据库连接起来。 请教,来者有份,200分大放送, 初学者关于Package的问题 再贴WebLogic Server 和 Weblogic Integration 有何不同,各是用来做什么的? 我在APPlication中开始处加上如下代码,在PB下运行时没问题,怎么编译后执行exe文件后老提示连不??为什么,请赐教!! 在静态切分窗口中,如何显示标题? 求教大虾:如何给软件加上licence限制 抗议CSDN帖子内容为楷体,同意者举手! 如何在画布上画一个带箭头的直线. *-->为对话框应用上妆!在线等待 [诚征交友]不诚勿扰,请条件适合男士入内 有谁用过Cute ftp上传软件,为什么一进行文件同步时,就出现404 object not find的错误 关于界面对象丢失的问题…… 请大家看看这个问题。 我真的很需要帮助。。。请问谁有360度可以许多张图片旋转的代码 360度全景特效 高分求树型结构源代码 现在出了本Jbuilder5的书。有没有谁有这本电子书啊? 高分求树型结构源代码 SDK问题 这句sql有问题吗? 关于驱动程序开发! 在SQL-SERVER中出现数据死锁的情况一般是什么,若是由多个用户同时向数据库更新数据而导致的死锁,解决此问题的办法有那些? 寻找源代码排版软件? 有没有用VC写过短信接收程序,我在接收中文时出现乱码。 请教大虾:用mideaplayer来播放一首歌,如何用progressbar来表示进度? 我想学习驱动程序的开发,请大家帮我推荐几本这方面的书? 编译出错,不解?请高手指点。 能否用Delphi 实现类似东石公司的虚拟光驱系统。 我想学习驱动程序的开发,请大家帮我推荐几本这方面的书? include头文件的问题 急!!!为什么TBlobField 下载时大小受限制,怎么解决? 关于导出动态连接库中的类的问题,不知道这里有没有高手? 一个让我痛苦了n天的问题 关于Hook的一个问题 联合查询如何修改? 获取密码时出错???? my gf photo 我想问一下,java生成的.class文件能不能通过某种工具生成.exe文件? 稀有气体的原子结构很稳定,与此相关的核外电子排布特点是_____ 包含关系{a}含与A与属于关系a∈A有什么区别?试结合实际做出解释 子集和真子集有什么区别?若A={1,2,3},B={1,2,3}那么A是B的子集,B也是A的子集?而且两集合相等?若A={1,2},B={1,2,3},那么A是B的子集?还是真子集? 判断题基础三章6 资产=负债+所有者权益是最基本的会计等式,即第一个会计等式() A对 B错判断题基础三章6 资产=负债+所有者权益是最基本的会计等式,即第一个会计等式() A对 B错 若1mol某烷烃燃烧后,测得产物中含有m molCO2和n molCO,则该烷烃分子中氢原子个数为Am+nB2[m+n】Cm-n+2D2【n+m+1】解释一下啊 双曲线的渐近线公式 68g的二氧化碳其中含氧原子多少mol 1mol某烷烃完全燃烧时消耗氧为多少mol,生成多少水? 双曲线顶点到渐近线的距离, ( )mol 水分子中所含有的氧原子数与1.5mol二氧化碳分子中含有的氧原子数相同 关于集合求A∩B和A∪B的区别设A={x|x 如果双曲线经过点(6,如果双曲线经过点(6,√3)且它的两条渐近线方程是x+-3y=0,那么双曲线方程是?方法 8g O2与___L(标准情况)的Co2气体所含氧原子数相同.与____mol SO2所含分紫数相同 集合{(a,b)}与{a,b}的区别就是集合带括号(a,b)与集合不带括号a,b 双曲线共渐近线说明什么? 多少mol的CO2中含有0.25mol的氧原子? 差集A-B与B-A有什么差别举个例子 双曲线的渐近线的问题为什么可以讲双曲线的标准式的1改成0求渐近线呢?这个又表示什么意义呢? 已知F1、F2分别是双曲线C:x^2/a^2-y^2/b^2=1的左右焦点,若F2关于渐近线的对称点恰落在以F1为圆心,丨OF1丨为半径的圆上,则双曲线C的离心率为A.根号三 B.3 C.根号二 D.2求详细解答 A交B=空集 和A U B=空集 有什么区别?A U B=空集 可以德到什么结论? 双曲线渐近线求法通法是化为标准式 再将右边的1变为0 请问是何道理 已知F1、F2分别是双曲线x^2/a^2-y^2/b^2=1(a>0,b>0)的左、右焦点,过F2与双曲线的一条渐近线平行的直线交另一条渐近线于点M,若∠F1MF2为锐角,则双曲线离心率的取值范围?求详解. {a,b}和{b,a}是不同的集合么? 为什么在解决天体运动问题中天体的匀速圆周运动所需的向心力由万有引力完全提供,不是万有引力还提供给重力,只分一点给向心力吗?我搞不懂啦! 高一物理必修二中天体运动中天体运动通过近日点或远日点所扫过的面积 高一物理必修2题目某同学使小球沿课桌面飞出,用数码相机拍摄小球做平抛运动的录像{每秒15帧照片},并将小球运动的照片打印出来.请问:他大约可以得到几帧小球正在空中运动的照片?{麻烦 已知地球半径为R,地球附近重力加速度为g,计算在距地面高为h的圆形轨道上的卫星做匀速圆周运动的线速度v和周期T. 今天学的引力…老师讲的也快,书上写的太阳对行星和行星对太阳的力我都明白了,但是跟两物体质量成正比没看懂,说它们的力是相互的.那为什么不乘二?就算跟两行星质量有关…那引力有方 填空题 所有 还有实验题 怎么算的 有两个不同轨道上的行星A和B绕着它们的中心体C运动,三点始终保持一条直线,且A和B分别在两端.AB为L,A质量为m,B质量为M.求T为什么这道题不符合公式 M=4π²R³/GT²它们的周期一样,中 会计基础.这句.任何一项经济业务的发生都会引起资产或权益的增减变化,但始终保持资产=权益这一平衡会计基础.这句.任何一项经济业务的发生都会引起资产或权益的增减变化,但始终保持资 1.两颗小行星都绕太阳做圆周运动,它们的周期分别是T和3T,则它们绕太阳运动的轨道半径之比为多少?2.已知太阳光从太阳射到地球需要500s,地球绕太阳公转的周期约为3.2X10的七次方秒,地球的质 下列( )经济业务的发生不会使得“资产=负债+所有者权益”这一会计等式左右双方的总额发生变动.分别说明原因,下列( )经济业务的发生不会使得“资产=负债+所有者权益”这一会计等 已知双曲线C与双曲线y²/2-x²=1有相同的渐近线,且C的一个顶点为(1,0),C的焦点为F1,F2,在曲线C上有一点M满足MF1·MF2=0,求点M到x轴的距离, A、B两艘快艇在湖面上做匀速圆周运动,在相同的时间内,它们通过的路程之比是4:3,运动方向改变的角度之比是3:2,它们的向心加速度之比是多少? 氧化铁中混有二氧化硅怎么除 置换反应是氧化还原反应吗?RT 已知F1、F2分别是双曲线C:x^2/a^2-y^2/b^2=1的左右焦点,若F2关于渐近线的对称点恰落在以F1为圆心,绝对值OF1为半径的圆上,则双曲线C的离心率为( B)B、3 C、根号2 高一物理必修2题目,麻烦告诉我怎么做?某只走时准确的时钟,分针与时针由转动轴到针尖的长度之比为1.2:1. (1)分针与时针的角速度之比等于多少? (2)分针针尖与时针针尖的线速度之比 关于概率论与数理统计的一个问题:概率、事件、发生与不发生的关系问题.必然事件,必然发生,概率等于1;不可能事件,不可能发生,概率等于0;我想问的是为什么不能倒过来推(也就是概率 “a真含于B”与“a属于B”的区别 两焦点在Y轴上的双曲线的渐近线是什么? 哪些分子中原子的最外层达到8电子稳定结构 包含关系{a}含于A与属于关系a属于A有什么区别 集合A是集合B的真子集与集合A是集合B的子集之间有什么区别? 氧化还原反应和置换反应有什么区别和相同啊~能易懂的说下吗?是不是还有什么化合价变不变的啊`~ {a}含于A与a属于A有什么区别 以集合U=a,b,c,d 的子集中选出2个不同的子集,需同时满足以下两个条件:(1)a、b都要选出;(2)对选出的任意两个子集A和B,必有 ,那么共有 种不同的选法必有A属于B或B属于A 有36种 的确是选 某原子的结构图是8.2.6.该核电荷数是什么?该原子在化学反应中容易得到多少个电子? 体积相同的实心铜球和铝球都浸没在水,则浮力情况?PS:是要用阿基米德原理还是F浮=G物? 完全燃烧标况下气态烷烃的混合物2.24升,生成二氧化碳6.6克,水4.05克,求我算了几次 总和答案不对 置换反应与氧化还原反应有什么区别? 包含关系{a}含于A与属于关系a∈A有什么区别?能举例子吗 子集与真子集有共同点,当A集合属于B集合时,怎么区分A集合是B集合的子集或真子集呢 在发生化学反应时原子一定会变成稳定结构吗?(就是最外层变成8) a∈A 和a包含于A有什么区别 举例说明 某气态烷烃和气态烯烃的混合物2.24L,完全燃烧后水重4.05克,二氧化碳6.6克,书混合气体平均分子量.求混合气体的成份和体积百分组成 当一氧化碳与二氧化碳质量比为2:3时,氧原子的个数比是多少 包含关系{a}含于A与属于关系a∈A有什么区别?有人说是包含关系指的是集合之间的关系,例如集合A={1,2,3}集合B={1,2},那么A就包含B而属于关系指的是元素和集合之间的关系如集合A={1,2,3},那么1就 集合a属于集合b 集合a是集合b的子集 集合a是集合b的真子集 三种说法的区别
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘