说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

年交易额1800亿美元,揭秘PayPal成功背后的三大热门技术

HTML文档下载 WORD文档下载 PDF文档下载
图挖掘、NLP算法、机器学习,PayPal幕后俨然是个数据科学家的世界。利用图挖掘,发现交易背后的隐藏价值;利用文本挖掘,了解用户偏好;还有大量用Python和Java编写的机器学习算法,可以用来挖掘更加复杂的数据。

【编者按】作为全球在线支付平台,PayPal,其方便、快捷的支付方式深受用户追捧,近几年PayPal致力于通过数据分析为用户创造更多价值,在2013年,实现年交易额1800亿美元、年交易数量30亿笔,PayPal的成功和它在业务上的不断创新是分不开的,但其背后强大的数据技术同样让人艳羡,Datanami主编Alex Woodie为我们带来了精彩分析。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。

以下为译文:


PayPal作为一个成功的第三方支付平台,掌握了大量的用户数据,其便捷的支付方式也为PayPal赢得了大量电商的支持,尤其是对于资源有限的小商户。几年前,PayPal发起了一个基于Hadoop的数据挖掘项目,运用多种数据分析手段将自身打造成一个更加可靠的服务性支付平台,帮助商户变得更加精明,此项目取得了巨大的成功。

PayPal成功的背后

PayPal已发展成为一个价值60亿美元的电子商务交易界巨头。2013年,该公司帮助买家和卖家完成的交易额达1800亿美元,涉及商品和服务等各种交易达30亿次,拥有1.43亿个活跃用户,而实际上,这些成就背后的数据才是真正价值源泉。

该公司处于电子商务的十字路口,这给了它独特视角去研究人们在线购买的习惯。PayPal可以了解到人们买了什么、从哪买、具体的交易方式、用的是什么设备,这些信息形成了一个数据宝库。PayPal数据技术团队中的一个数据科学家Vamshi Ambati告诉我们PayPal正在尝试利用这些庞大数据为用户和商家创造更多价值。

最近,Ambati在Hadoop创新峰会上向我们介绍了他的团队关注的三个主要领域——图挖掘、文本分析和机器学习,并分享了一些经验和见解。


图挖掘

PayPal通过图挖掘帮助数据科学家和营销人员直观地标识数据中出现的一切明显趋势,分析出其中有价值的信息。Ambati说:“我们尝试从图中提取变量,或者发现某种模式,并利用这些变量和模式建立预测模型和分析模型。”

图挖掘中的图指的是描述某种关系的图形,类似于图论中的图,图在对复杂结构的建模过程中变得越来越要,这些复杂结构包括电路、图像、生物网络还有Web等等。从大量的数据中提取信息,建立图表或者其它的图形结构,便于直观的分析,以挖掘有价值的信息。多用于社会网络分析和关系型数据分析。

随着大量结构化数据分析需求的增加,图挖掘在数据挖掘中的地位越来越重要。

PayPal使用英特尔的图建模器并基于Hadoop、ApacheGiraph和GraphLab算法构建图,出于不同的目的会构建不同的图。例如,一个融合了社交媒体信息与交易数据的图有助于将社会媒体活动与交易活动联系起来,而分析交易数据中的用户点击流将有助于了解用户的购买倾向。

PayPal还利用图分析为商户提供排名和推荐服务,该公司为其商户提供潜在消费者图,使商户了解有多少消费者在两个节点之间存在共同点,“还可以帮助商户了解与竞争对手之间的差别,了解与同行相比自身具有哪些竞争优势。”

检测欺诈是图处理的最大用例。公司配置图中节点,对消费者登录商家帐户的设备作出响应。如果一个消费者使用了不同的IP地址或手机帐户登录,PayPal就需要提高警惕,防止用户账户中的钱被盗走。“我们也要了解是否存在诈骗团体的存在,往往图中的一个节点存在欺诈行为,同时还会伴随着3到4个节点的交易或者现金存取行为,这种情况很有可能是团体诈骗,通过图分析,我们可以将他们一网打尽。”

NLP文本挖掘

PayPal基于Hadoop的文本挖掘系统是公司内各种数据科学活动的关键组成部分,这些数据科学活动包括预测建模、情绪分析、影响力评级、简历排名还有主题建模和聚类分析。Ambati说:“如果没有仪表盘程序,这些文本本身不存在任何额外的价值,不过这些文本可以与我们的其他数据结合起来使用,而且有一些公司或许会需要这些数据进行更多的预测建模。”

该公司使用NLP(自然语言处理)算法从交易过程的谈话数据中提取有价值的信息,提高商户交易的成功率。

然而PayPal没有采用Netflix那种直接的推荐方式。Netflix通过四或五星级评级标识用户的偏好,然后采用商品推荐系统向用户推荐商品。但Ambati指出,事实上,用户购买某种商品并不能说明用户喜欢这个商品,Netflix的方式存在问题。

“当消费者浏览商户的商品时,我们事实上并不知道消费者是否对商户有好感,因为有可能消费者只是对品牌或者商品感兴趣,所以我们进行文本挖掘,分析产品信息以了解消费者是否对某种品牌感兴趣,然后再进行商品推荐。”

机器学习

PayPal数据科学家Vamshi Ambati

很多的数据PayPal采用图处理和NLP挖掘,这两种常用的方式也将成为公司第三个核心数据分析的基础,所谓的第三个核心指的是数据挖掘与机器学习算法。PayPal的数据挖掘系统很大程度上建立在用Python和Java编写的机器学习算法上,它们都运行于Hadoop平台上,用于挖掘复杂的数据模型并得到有用的信息。

为商户构建预测模型是一个常见的用例,PayPal利用大量数据研究消费者的购买习惯——这些数据远比eBay的小商户积累得多。得益于PayPal的数据科学团队,商户可以利用PayPal大量数据存储库和专门知识获得竞争优势。

PayPal还将构建一个商户预测模型来帮助他们确定哪些客户有可能会流失、哪些客户会拖欠、哪些客户会再次购买。“作为商户,你可能对你的客户不是特别了解,但PayPal掌握了大量有关消费者的信息。仔细想想,其实PayPal并没有消费者,它的顾客是商户,商户的顾客是消费者,因此PayPal间接的拥有消费者。我们通过商户跟消费者打交道,所以我们希望能够为商户提供这些功能,以帮助改善消费者的用户体验。”

PayPal正在研究YARN,而且试图利用Spark和Storm,它还和明尼苏达大学一起研究“深度学习”。该公司花了相当多的时间为eBay建立推荐引擎,Ambari说:“如果你看到了邀请你去eBay购物的广告,这很有可能就是我们做的。”

原文链接:How PayPal Makes Merchants Smarter through Data Mining(编译/毛梦琪 审校/魏伟)


以“云计算大数据 推动智慧中国”为主题的第六届中国云计算大会将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上报名
豌豆“荚”油!B轮融资1.2亿美元的豌豆荚 2013年终盘点:10款最精巧的硬件开发板 SquareWear:可替代Lilypad Arduino的开发板 开放数据:2014年最热门的竞争领域 IE11虚拟机免费面向广大开发者 九城搭建的一个以Hadoop为基础的大数据平台 Windows 8复杂性的代价到底有多大? 在发布前,第一代iPhone其实并不完善 市场占有率调查:iOS 7秒杀Android 4.4 AWS会赢、OpenStack会消亡、Connected Cars可防僵尸攻击 谷歌以32亿美金收购iPod之父的创业公司Nest 物联网时代来临 微软2014,有你期待的吗? 映趣科技发布inWatch Z/inWatch X 后者采用全彩透明柔性屏 程序员没有天才:暴风影音首席架构师鲍金龙访谈 开放式创新改变世界——OpenStack生态系统将重新洗牌 Java 8最终发布日期敲定,即使有bug也要发布 Meteor PK Django,谁更适合开发实时Web应用? 学编程就像选家具:去宜家还是从种树开始? 前车之鉴 十二个年度最差设计网站汇集 冷暖交替,2014年编程兴衰趋势预测 诺基亚出Android手机,微软或将受惠 苹果不收购Nest的大猜想 Netflix开源S3一致性提升利器S3mper Fi 《近匠》第06期:UCloud——目标!完整云服务 小三上位:Windows Phone不容忽视的契机 “详解Visual Studio 2013”全国巡讲北京站:无忧开发iOS及Android应用 Chrome最新版:快速静音及在Win8中建Chrome OS系统 雅虎COO Henrique de Castro因业绩不佳被解雇 分析比特币背后的数据算法,抢占背后巨大市场先机 美食菜谱将会成创业风口的两大理由 Windows XP杀毒软件更新 将被延至2015年7月 急。。。关于字体属性 Jbuilder5.0 注册码,那个想要,我这儿有!今天刚搞到! 高手再哪里,网络程序!!!请赐教,高分!!! 如何在vc中静态调用dl中的函数? 循环里的变量为什么读不出? ADO的问题,请指教 用Delphi6导入VB做的ActiveX控件,为何不能生成VCL类?怎末办? 我给你出个谜语,你帮我解答个问题? 关于SQL SERVER的图片问题 读取二进制注册表的问题! 请问编写AWT的面向对象JAVA程序用哪个开发软件比较好? 关于手机铃声图片的下载 为何去不到记录值? 软件包 给点建议,做什么都打不起精神.学习也学习不进去,我看我要完蛋了都22了什么都不会 菜鸟问题:编译报错(WINDOWS.H already included),急! 数据绑定问题 关于组件ProgID的疑惑: RealPlayer的最新版本是什么? 哪里可以下载? 请教调试问题? 急!我的weblogic的控制台怎么不让进行create操作? 好郁悶啊﹐大家幫幫我﹗ jsp中的select VC中如何打包 在文本中输入,在下拉框中动态显示,大家多帮忙! 寻找算法!! 参与有分了!! 各位大哥,有关软件测试的好书或好的网站能给小妹介绍一下么? 谢谢各位先!! 学习打不起精神.也不刻苦.天天玩,我看我要完蛋了. 软件发布,KindDiary日记软件 PowerBuilder 中Datawindow和Report的本质区别是什么,什么时候该用Report? MEMO字段在SQLSERVER里应为什么类型? 在vc++中client和server端的socket连接断掉了,server端如何能够立刻就知道,而不需server端send的时侯才发觉。 学习c++,到底要看那些方面的书?我现在在看vc++技术内幕,essential c++,effective c++,大家说还应该看什么书? 在VC下使用ODBC绑定时间数据时的问题的解决! 如何动态更改主窗口的菜单? asp编程主题显示,若是汉字则为前15个字,若是字符则前25个,怎么编码?谢谢! 用VBA如何去读服务器上的DOC文档? 一个小而急手的问题 请问哪里有检测IP包的软件? 从网上邻居连接nt时在小窗口中输入用户名和口令的过程如何在程序中实现? 请问:wise的注册吗怎么设置?偶在注册码是不是在第四步--〉对话框--〉注册信息/序列号里,添加了一个编辑文本,但里面就不知道该怎么版了 //牛虻 java applet怎样存取本地文件?我没有更多的分,但我尽己所能 请问:怎么用java执行web页中的javascript脚本? 请问:如何给分?急! 调用动态链结库的错误(BCB调VC的动态链结库)! 兄弟们,ExpressBars 4.1 那里有下的。 请问连接adoconnection的问题? 请大家谈谈自己的学习经验!!现在很多技术,很多书,有些人说:你应该看什么什么书,说了一大堆。我都晕了,不知道自己应该掌握什么? KindDiary日记软件 我想买一块视频采集卡,可否给点意见!!!!! 如何获得对话框中莫个控件地句柄 一个圆柱长3米,从长的1/3处切一刀,表面积增加了6.28平方米,较长的一段体积是多少立方米?快 车辆时速跑100码的时候是每小时跑100公里吗?能顺便说说发动机转速表是怎么回事吗? 36、52、48 它们的互质数是什么?请说明基本原理及其公式谢谢 把高1米的圆柱锯成三段,表面积增加了4平方米,原来这个圆柱的体积是()立方米 汽车时速100码相当每小时跑多少公里 36、25、48 它们的互质数是什么?请说明基本原理及其公式谢谢 把高1m的圆柱锯成3段,表面积增加了4平方米,原来这个圆柱的体积是多少立方米 汽车以100码的速度撞了狗会怎么样 一项工程,甲队单独修要20天,乙队单独修要30天.如果两队合修5天,还剩下工程的几分之几? 将一个圆柱平均截成3段,每段长2米,表面积增加16平方米,原圆柱的体积是()立方米. 肩宽1尺1,胸围2尺8分别是多少厘米? 步进电机的转动惯量如何计算?想用步进电机带动一个重量为2吨的圆形零件旋转,需要分度,启动和停止频繁,不知道需要选用多大的步进电机,感激!旋转速度不需要太高 但是电机不能出现丢步 蓝鲸每小时游59.5千米,比海豚的速度慢百分之15.海豚每小时游多少千米 肩宽1尺3,腰围2尺2,臀部2尺8,以上数据等于CM啊 关于步进电机的转矩,转动惯量的选择:通过步进电机驱动滚轴,绕收已经脏的滤纸,如何选择电机?机械结构如图所示:①是干净的滤纸直径80mm,宽250mm,重量很轻,大概一两斤.②是通过步进电机带动 蓝鲸每小时可以游60千米,比海豚的速度慢1/7,海豚每小时可以游多少千米?(用方程) 求piece by piece-Feeder的中文歌词是Feeder的 不要搞错 求中文歌词Sitting on a corner streetChildren playing at my feetSee the smiles on ice cream facesFeel myself begin to sinkAs the wind blows through my skinLeaves me open to temptati 已知,1nm=10的负九次方m现有一个156mm³的空间,可以存放多少个1nm³的微粒 六年应用题:蓝鲸每小时可以游60千米,比海豚的速度慢7分一,海豚每小时可以有多少千米? three-by-five-inch什么意思 一种花岗石,每立方中13分之24吨,20分之13立方米重多少吨?一块长方形菜地,长20M,宽是长的5分之4,宽( )M,面积是( )平方米? 蓝鲸每小时可以游60千米,比海豚的速度慢1/7,海豚每小时可以游多少千米?(用方程) 一个长方体水池,长5米、宽4米、深3米.在水池里放入36立方米的水,水深米. 一立方米的花岗石有好重? 蓝鲸每小时游动的速度是海豚的七分之六正好比海豚慢10千米,蓝鲸和海豚每小时各可以游多少千米?用解方程 2尺3是多少cm 请问一立方米花岗岩有多重? 3.504 inch OD x 4.0 inch 2尺4等于多少CM? 60000平方米等于几公顷 一条公路15天修完,平均每天修这条公路的几分只几?一个星期修这条公路的几分之几? 2尺等于多少cm 一项工程,甲单独做8天完成,乙单独做10天完成,甲、乙一起做这项工程的4分之3,需要几天? 这条题怎么样计算:蓝鲸每小时可以游60千米,比海豚的速度慢百分之十五,海豚每小时可以游多少千米? 2尺3换算成CM是多少啊 甲、乙两个工程队共同完成一项工程需用10天,现由甲队先做3天,再由乙队接着做4天,共完成这项工程的八...甲、乙两个工程队共同完成一项工程需用10天,现由甲队先做3天,再由乙队接着做4天, 一尺,一拳,一寸里具体的数字概念 就是问一尺是多少CM? 3x+2x=145 怎么计算?请说明基本原理及其公式好吗谢谢 问甲乙两个工程队共同完成一项工程需用10天,现由甲对先做3天,再由乙对接着做4天,共完成这项工程的3/8, 挖一个长方体形状的水池,水池长为10米,宽为6米,深2.5米,水池占地多少平方米?能盛水多少立方米 一个长方体水池中长是8米,宽5米,池中有水60立方米.池中水深多少米? 一项工程,甲队独做10天完成,乙队独做8天完成,甲、乙合作,多少天能完成这项工程的4分之3. 一个长方体形状的水池,长20米,宽15米,深2米.这个水池最多能蓄水多少立方米的水 一项工程,甲队单独做需要6天完成,已队单独做需要8天完成,如果两队合作3天后,剩下的由已队单独做...快一项工程,甲队单独做需要6天完成,已队单独做需要8天完成,如果两队合作3天后,剩下的 甲,乙两个工程队共同完成一项工程需用10天,现由甲队先做3天,再由乙队接着做4天,共共同完成这项工程的3/8,问甲,乙两队独立完成这项工程需要多少天?最好过程写仔细点哈,不是共同接 挖一个长10米、宽8.5米的长方体形状的水池.挖出153立方米的土,这个水池挖了多深? kgf/cm =9.8N/cmkgf/cm或者N/cm是什么单位,是否还有别的单位能表示N/cm 或者 kgf/cm 力矩的单位是什么? 一个长方体形状的水池,长5米、宽2米、深1.5米.在池中注水9吨(1立方米水重1.5吨),池内水深多少米? 一个长方体水池,底面是边长为20米的正方形,深4米,现在水池中盛水只有2.5米这时水池中的水有多少立方米 力矩怎么解释 用单位怎么来表示用数字怎么来体现 5feet 8 inch 是多高? 1英寸磅等于多少牛米 力矩的单位是 英语翻译Usinga full 8 1/2- by 11-inch page,draw two concentric circles (a circle within acircle) – the inner circle representing the core of your self-concept and theouter circle the more flexible,changeable selves.Within the inner circle,list 1pm等于多少cm?1nm等于多少cm? 0.4m=(?)cm 用一根84厘米的铁丝围成一个正方体框架,再糊上彩纸,共需彩纸多少平方厘米? 修一条路,甲独修20天完成,乙独修要45天完成,两队合修8天后,还剩这条路的几分之几没有修? 父亲和儿子今年的年龄分别是36岁和8岁,几年后父亲的年龄是儿子的3倍?请说明基本原理及其公式好吗谢谢
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn