说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

小而美的Diffbot:将Web页面转化为数据库,获多位科技大佬注资

HTML文档下载 WORD文档下载 PDF文档下载
Diffbot是一家小而美的初创公司,该公司通过视觉处理、机器学习来处理Web页面,然后转化为可用的数据库。它还获得很多科技明星的支持,其中就有Sun公司创始人之一、Google的首位天使投资人Andy Bechtolsheim。

Diffbot是一家小而美的初创公司,该公司通过计算机视觉、机器学习和人工智能来处理Web页面,并计划实现整个网页的“机器可读”。不久前Diffbot发布了新的API,可以帮助用户将产品网页转化为可重用的数据,进而用以定价分析和产品追踪,以及其他方面的一些应用。

Diffbot的理念就是通过“视觉机器人”来扫描和识别不同的网页类型(主要是非结构化的数据),再将这些丰富的数据源应用于其他应用。Diffbot创始人兼首席执行官Mike Tung表示:“我们在获取页面之后会对其进行分析,然后通过成熟先进的技术进行结构化的处理。”

Diffbot的API使用计算机视觉将网页信息转化成数据库,软件开发者可以提取其中的数据进行再次利用,包括产品图片、航运成本、折扣价格、SKU码以及建议零售价等等。(信息来源于CloudTimes)

Diffbot将大多数Web页面划分为数个大类——新闻消息,头版,图片,事件和概要等等。Diffbot 首先识别这些部分,然后转化为可用的数据库格式。该公司已经发布了头版API和文章API,还有产品API。

Diffbot的服务价格

Diffbot的客户包括Instapaper(一种保存网页以便稍后阅读的服务),它就是现将这些数据进行结构化的处理,然后再将其重新展示在移动设备上。

在该领域,专业级的供应商都是一些科技巨头,像谷歌、微软和雅虎这些公司在如何更好地理解Web页面上都做过很多的努力,而且谷歌研究院和微软研究院都有类似的项目,只不过这些项目都放在“黑匣子”里,一般不会轻易示人。Tung表示,Diffbot的不同之处就在于其API以及Web扫描的SaaS服务都会对大众进行开放。

Diffbot得到很多科技明星的融资支持,包括Andy Bechtolsheim(斯坦福大学的校友、Google首位天使投资人,Sun公司创始人之一)、Sky Dayton(EarthLink和Boingo Wireless的创始人)、Joi Ito(MIT Media实验室主任)、 Brad Garlinghouse(前雅虎高级副总裁)以及Jonathan Heiliger(Facebook技术运营副总裁)。

总部位于加州Palo Alto的Diffbot成立于2008年,斯坦福大学的两名博士生Mike Tung和Leith Abdulla请假创办了这家公司。(文/王鹏,审校/仲浩) 

原文链接:Diffbot aims to convert the web into one big database, one page at a time

Cloud Edge:2013年国际“云先锋”系列报道
序号 公司名称 成立时间 CEO/CTO 风险投资 公司产品/方向
1. HStreaming 2011年 Jana Uhlig $ 1M (B) 实时Hadoop系统
2. CitusData
2012年 
Matt Ocko

CitusDB
3. Backblaze
2009年
Gleb Budman

开源存储硬件
4. Kickboard
2009年 Jennifer Medberry
$2.8M(A)
Kickboard(数据分析)
5. Elasticsearch
2012年
Shay Banon
$24 M(B)
开源搜索引擎
6. Appcore
2008年 Jeff Tegethoff
$6M  (B)
企业内部部署IaaS平台
7. Pertino
2011年 Craig Elliott
$20 M(B)
软件定义网络(SDN)
8. SwiftStack 2011年 Joe Arnold $6.1M(A) 软件定义存储
9. Spiral Genetics
2009年 Adina Mangubat $3M(A)
DNA序列数据分析平台
10. DNNResearch
2012年 Geoffrey Hinton  
深度学习
11. AppNeta
2011年 Jim Melvin  $16M(C) 
应用性能管理(APM)
12. Concurrent
2008年 Chris K. Wensel $4M(A) 
Java大数据框架
13. AirWatch
2003年 John Marshall
$200M(A) 
移动设备管理
14. Pluribus 
2012年 Robert Drost
$44M(C) 
虚拟化网络
15. Bina Technology
2006年 Narges Bani Asadi
 $6.5M(B)
基因测序平台
16. Sociocast
2010年 Albert Azout
 $1M(B)
数据预测分析
17. ParElastic
2010年
Ken Rugg
 $5.7M(A)
数据库虚拟化引擎
18. Optimizely
2009年
Dan Siroker
 $28M(A)
A/B 测试服务
19. Instart Logic
2010年
Manav Mital
 $17M(B)
网络性能
20. CloudFlare
2010年
Matthew Prince
 $20M(B)
云安全、网络性能
21. Ionic Security
2012年
Ted Schlein
 $9.4M(A)
云安全
22. MemSQL
2011年
Eric Frenkiel
 $5M(A)
MemSQL
23. Qubole
2012年
Ashish Thusoo
 $7M(A)
AWS平台Hive服务
24. Clustrix
2005年
Robin Purohit
 $16.5M(C)
Clustrix Sierra
25. Cloudant
2008年
Derek Schoettle
 $12M(B)
DBaaS
26. DataTorrent
2012年
Phu Hoang
 $8M(B)
实时数据分析
27. WibiData
2010年
Christophe Bisciglia
 $15M(B)
Hadoop商用套件
28. Dataminr
2009年
Ted Bailey
 $30M(C)
实时数据分析
29. PlumGrid
2011年
Awais Nemat
 $10.7M(A)
软件定义网络(SDN)
30. Meldium
2012年 Anton Vaynshtok
 $1 M(A)
商业密码管理
31. Myrrix 2012年 Sean Owen  
大数据,机器学习
32. Alpine data Labs
2010年 Joe Otto
 $7.5 M(A)
大数据预测分析
33. Context Relevant
2012年
Stephen Purpura
 $7 M(A)
大数据预测分析
34. Datameer
2009年
Stefan Groschupf
$9.2M(B)
大数据预测分析
35. Skytree
2012年
Alexander Gray
 
机器学习
36. Wise.io
2012年
Joshua Bloom
 
机器学习
37. Treasure Data
2012年
Hiro Yoshikawa
 $10 M(总)
企业级数据仓库
38. NimbusBase
2012年
Alex Volodarsky
 
存储API
39. Zimory
2007年
Ruediger Baumann
 $20 M(B)
IaaS 协作管理软件
40. DataStax
2010年
 Billy Bosworth
 $45 M(B)
商业级NoSQL数据库
41. ZestFinance
2012年
Douglas Merrill
 $20 M(C)
机器学习+大数据分析
42. InfoChimps
2009年
Jim Kasksade
 $5M(总)
大数据查询及处理平台
43. DigitalOcean
2012年
Ben Uretsky
 $3.2M
IaaS平台,云主机服务
44. SOASTA
2006年
Tom Lounibos
 $30M
云负载测试
45. Birst
2004年
Brad Peters
 $38M
商业智能、数据分析
46. Hortonworks
2011年
Rob Bearden
 $98M (总)
Hadoop数据平台
47. Parse.ly
2012年
Sachin Kamdar
 $5M (A)
预测分析平台
48. Diffbot
2008年
Mike Tung
 $2M (A)
机器学习,视觉处理
备注:2013年8月30日更新,持续更新中......

详解Amazon Redshift 移动周报:再见,2012!你好,2013! 英特尔或在2月宣布其电视计划:提供分类频道 Prismatic:用机器学习分析用户兴趣只需10秒钟 谷歌布局亚太地区数据中心建设 服务响应速度有望提升30% 2013年移动互联网行业技术趋势前瞻 老骥伏枥志在千里:回顾微软这一年 2013或将崛起 水落石出:在与谷歌苹果竞购创业公司中微软胜出 用扁平化的界面设计吸引用户 2012年12月份全球主流浏览器市场份额排行榜 冲榜不一定要刷榜:增加游戏曝光度的7大杀手锏 科技vs政治:FTC对Google的反垄断调查结束背后 威胁百度:奇虎360确认将与谷歌达成合作关系 Facebook更新Messenger应用 推免费网络电话服务 网上疯传iOS7概念设计:Dashboard是真是假? 过时的UI设计 Ubuntu手机系统前途不被看好 三星将于今年发布Tizen设备 将对苹果形成威胁? 分享9条经典的编程语录 国际著名黑客大赛介绍与比较 微软Azure CDN服务全球范围内出现宕机 双向多功能U盘:从Android设备到PC还有多远? 证明了自己:微软Win8获美国防部6.17亿订单 2013 Facebook黑客杯报名即将开始 解决Win8下IE10无法打开的故障 [简讯] Scala 2.10.0发布! 收购传闻:Apple一厢情愿还是Waze待价而沽 回顾过去,展望2013:移动开发引擎、工具和语言盘点 成本为0!Netflix开源工具Janitor Monkey清理AWS iOS开发者讲述在Google工作的三个月 GitHub历史上最糟糕宕机事故回放及反省 疑因竞争 谷歌有意让地图与WP手机不兼容 请问Delphi的控件只有bpl、dcu、res、frm,在BCB中怎么使用?谢谢! 怎么把數據寫入.dbf中!!!!!!!!!!!!! 为什么不能在WIN2K下运行?? help!! 哪位高能告诉我怎么做? 头文件怎么写? 有人知道split函数的详细用法吗,各个参数的意义? 真的有所谓的第四种情感吗????? 请问怎样在HTML的编程环境下,能直接读取到JPG和GIF图片文件的高度和宽度(用pixel表示)? 有没有与msxml4.0有关的基础性的文章? ---> 服务器端和客户端软件同时写一个数据项产生冲突,如何解决???急急急 <--- 为什么我的函数声明编译出错 com中如何创建非可视组件实例 有关程序员考试的问题,请大家帮帮忙!!谢谢! session 问题 如何实现文件夹共享 如何用系统监视器查看远程的计算机的系统运行情况? 为什么这段代码不行啊?? 上INTERNET时,如何得到本机拔号IP地址? 多进程使用单值信号量协调,设置 SEM_UNDO, 执行semop 时返回 errno = ENOSPC,如何解决 多进程使用单值信号量协调,设置 SEM_UNDO, 执行semop 时返回 errno = ENOSPC,如何解决 如何用asp连接db2数据库,请附带源码(急) 高分求救 我下载了一个linux2.4.6正式版内核,它是作什么用的?一定给你分,帮帮忙! “神舟三号”飞船发射成功 巨简单,可是俺不会! 上INTERNET时,如何得到本机拔号IP地址?(非局域网IP) 请问如何在DBGRID的TITLE部分,添加自定义按钮或者图像等 多进程使用单值信号量协调,设置 SEM_UNDO, 执行semop 时返回 errno = ENOSPC,如何解决 哪位大侠知道SQL server 里面的updatetext语法怎么写? 两个问题,十分简单,万望指教 偶是新手。要用到sybase数据库,但是只有PB8光盘,听说这上面只有客户端…… 哪里可以找到delphi的函数原型??回者高分伺侯!!!!!!!! 如何将数据邦定到DropDownList控件?(十万火急) 在CB中delete data[] 与delete[] data 有何不同? float 类型 的用法问题(很值得注意呀!!!!!!!!!!!!!!!!!!!!) 在BCB中的Edit菜单下有Tab order,如何才能正确的使用呢?(附详细内容) TWebBrowser 容器中,我发现居然不能拷贝其中选定的内容.为什么,那里出错了吗? 大型表的更新问题 请教:在按页滚动的记录集中怎样得知当前记录所在的页? 谁有2002年度mcse考试试题? 再贴程序员征婚照:) 在线的进来问点问题(jsp/javabean), 实在没有分了其它帖子中送出 请问哪里有介绍用Delphi开发类似Foxmail邮件程序的文章 讨论一下怎么看别人写的代码吧 有个BC源程序用了BC下特有的类complex类,怎样做才能在VC下编译通过? VB高手请进来!!!! 小弟想考cisco认证(ccna),请大家推荐好的书籍和站点! J2EE我下载了,怎么用?安装我会,安装后怎么用? 这段程序有内存泄露吗? 强列抗议???? 重量是4kg的木块,放在水平桌面上,运动时受到的摩擦力是木块中立的0.2倍.(1)要使木块在此水平面上以0.2m/s匀速直线运动,需要对木块施加多大的压力?(2)要是木块在此水平面上以0.5m/s匀速 一个物体在地球表面所受的重力为G1(不计地球自转),在离地面h高处所受的重力为G2,则地球的半径为_____.若已知物体的质量为m,那么在离地h高处的重力加速度为_____ 一个梯形的上底是20cm.上底是5cm.把上底延长5cm ,面积增加20平方cm,那么梯形的高是多少? 小明的体重是48.6千克小华的体重比小明体重的六分之五还少2千克�� 在桌面上推一个小木块,当木块的中心正好推到桌子边缘(一半在桌子上一半悬空),木块会掉下去吗? 一物体在地面受重力为G1,在离地面高H处受重力为G2,则地球的半径为求解 这几款衣服比较好看 本人身高1.69 体重60KG 请大家给点意见 装修材料都有哪些种类? 一物体在地面7受9重力为G1,在离地面高h处受重力为G2,则地球半径是多少 一长轻质木板置于光滑水平地面上,木板上放质量分别为mA=1kg和mB=2kg的A、B两物块,A、B与木板之间的动摩擦因素都为μ=0.2,水平恒力F作用在A物块上,如图所示(重力加速g=则:( ) A.若F=1N,则物块 10项室内装饰装修材料国家标准是什么? 物体在地面上重力为G1,则他在高处地面为R处得重力G2=___,此处的重力加速度g'=___(已知地球表面处重力加速已知地球表面处重力加速度为g0 小明前年体重为40千克,去年减轻了10分之1,今年又增加了10分之1,今年体重是多少千克? 某同学身高1.80m,质量为65kg,站立举手达到的高度为2.20m,设他蹬地的力的大小恒定为1060N,求他的重心下降多少米开始蹬地才能摸到2.65m的高度 一物体在地球表面的重力为G,在离地面高h处所受重力为G2,则地球半径为 小明今年的体重是48千克 某同学身高1.80M,站立举手达到的高度为2.20M他起跳后能摸到的最大高度是2.60m,问他的起跳速度是多大?我就是想问,列了方程以后,(Vt)²-(Vo)²=2gS,居然解得V0的平方是负数,按理说,设竖直向 可多选1一质点在某段时间内做曲线运动,则在这段时间内( )A速度一定不断改变,加速度也一定不断改变 B 速度和加速度都可以不变C速度一定不断改变,加速度可以不变 D 速度可以不变,加速度 MA=2kg的木板在光滑的水平面上以2m每秒的速度向右运动,t=0时,mb=1kg的铁块以va=1米每秒的速度水平向左滑上木板.b于a之间的动摩擦因素=0.1,若b刚好没有滑出木板,则板的长度至少为多少?整个过程 放在斜面上的物体,所受的重力G可以分解为沿斜面向下的的分力G1与垂直斜面的分力G2,但斜面增大时A.G1减小,G2增大 B.都增大 c.都减小 DG1增大,G2减小 如图,在梯形ABCD中,AD‖BC AB=5 AD=2 BC=8 CD=2求梯形的面积 地球上重1千克的物体,到月球上大约重0.16千克.一位宇航员在月球上重11.52千克,他在地球上重多少千克 装饰材料前景如何?什么类型的装饰材料,会更好些? 一.瓶子的质量为300g,装满水后总重量为7.84N,倒掉水,装满某种液体后重为11.76N,这种液体的密度是多少?二.一个物体在月球上受到月球吸引力为98N.问:(1)它在地球受到多少牛的重力?(2)它 1.梯形ABCD中,AD//BC,角ABC=60°,BD平分角ABC,BC =2AB,求四边形ABCD是等腰梯形. 谁知道装饰材料中金属装饰材料的种类及特点?我对这些不懂, 一道高中简单的物理题!(关于重力势能的)!甲,乙两物体的质量之比是2:1.若两物体的重力势能相等,若乙物体的质量为2kg,那么当两物体的重力势能均增加10J,则甲物体的高度增大______m(g取10 梯形ABCD重,AD∥BC,AB=CD,AV⊥BD,若AD+BC=4√2cm,求(1)对角线AC的厂;(2)梯形ABCD的面积再不好意思,太心急打错字。梯形ABCD中,AD∥BC,AB=CD,AC⊥BD,若AD+BC=4√2cm,求(1)对角线AC的长;(2) 装饰材料类型中的金属装饰材料的种类及特点有哪些? 本人身高155.,体重70kg,很自卑,我是一个女生,我应该穿什么样的衣服.而且我胸部也很丰满. 梯形ABCD,AD//BC,对角线AC,BD相互垂直,且AC=8,BD=8,求梯形的高? 起跳摸高是学生常进行的一项活动,小亮同学身高1.72 m,体重60 kg,站立时举手达到2.14 m,他弯曲两腿,再用力蹬地,经0.4 s竖直跳起,设他蹬地的力大小恒为1050 N,不计空气阻力,取g=10 m/s2,求小亮同学 某同学身高1.8m,体重为70kg,在2010年校级田径运动会,他参加背越式跳高比赛,起跳后身体横着越过了1.8m高的横杆.请问 1.他在跳高的过程中克服重力所做的功约是多少(人体在站立式重心离地面 设曲线y=ax3+bx2+cx+d(a<0) 以原点为极小值点,函数图像过点(1,1) 用a表示函数的极大值 放在斜面上的物体,所受重力G可以分解使物体沿斜面向下滑的分力G1和使物体压紧斜面的分力G2为什么G1=G *Sina 用轻弹簧竖直悬挂质量为m的物体,静止时弹簧伸长量为x,现用该弹簧沿斜面方向 2.某同学身高1.8m,在运动会上他参加跳高比赛,起跳后身体横着越过了1.8m高度的横杆,据此可以估算出他离地时获得的竖直向上的速度大约为(取g=l0m/s2)( )A.2 m/s B.4 m/sC.6 m/s D.8 m/s选B, 下列句子中的省略号起什么作用?①表示心理活动的时断时续②表示省略递增的次数③表示语意的跳跃 ④表示说话结巴,欲言又止1.是他来啦?……不,还没来!……为什么把他们报过来 质量为100kg的物体,置于倾斜角为30掳的斜面上,求物体所受重力沿斜面方向的分力G1和垂直于斜面方向上...质量为100kg的物体,置于倾斜角为30掳的斜面上,求物体所受重力沿斜面方向的分力G1和垂 某同学身高1·8m体重70kg,在迎亚运田径运动会上参加背跃式跳高比赛,起跳后身体横着越过了1·8m高的横杆请问:他在跳高的过程中克服重力所做的功约是多少?(人体在站立时重心离地面高度 一个质量为70kg的人在电梯中用体重计称重,发现电梯静止时,体重计读数为( )N当电梯以a=g向下做匀速加速运动时,读数为( )N;当电梯以a=g向下做匀减速运动时,体重计读数为( )N(取g 装潢材料怎么分类 等腰梯形的面积为160cm²,上底比高多4cm,下底比高多20cm,求这个梯形的高 电梯里放有一个弹簧体重计,质量为60kg的人站在体重计上,求下列四种情况中体重计的读数1.电梯不动或匀速运动2.电梯以2m/s2,的加速度匀加速上升3.电梯以2m/s2,的加速度匀减速上升4.电梯做自 建筑装饰材料分类 某同学身高1.8m,在运动会上参加跳高比赛,起跳后身体横着越过了1.8m高度的横杆,求他竖直向上的速度?膳蛙?昂整个小溪像一条金龙,横卧在家乡的土拾见右边几棵青翠的竹,左边是斧民在荆楚灿 一个质量为70kg的人在电梯中用体重计称重,发现电梯静止时,体重计读数为( )N(取g=10N/kg) 装潢材料的分类 等腰梯形的面积为160cm²,上底比高多4cm,下底比高多20cm,这梯形的高是 我身高166厘米体重55千克算很胖吗?要多少才合适?我身高166厘米体重55千克算很胖吗?要多少才合适? 已知直角梯形的上底是20CM,下底是34CM,其中阴影部分的面积是442CM.这个梯形的面积是多少 某同学身高1.8米,在运动会上参加跳高比赛,起跳后身体超越了1.8米高度的横杆,据此可估算出他起跳时竖直上的速度约为多少 已知集合M={x|2x2-3x-90},求(1)M交N(2)M并N 英语翻译Brad Pitt在其中一集中客串了Ross高中同学的角色. 一个梯形的面积是6平方厘米,高是3cm,上底比下底短2.4cm,上底是( )cm,下底是( )cm. 不等式组{x-y+2>=0;x+y+2>=0;2x-y-2所确定的平面区域是记为D,不是0,上面写错了。 英语翻译1、需要许多训练,2、组织一次画展.3、跟他们开玩笑.4、用到挖出尖牙.5、全世界.6、收到许多礼物.7、看舞狮.8、看上去像老虎.9、得到许多红包.10、在午夜.11、在唐人街 某同学身高1.8m,在运动会上他参加跳高比赛,起跳后身体横着越过了1.8m高度的横杆我想知道为什么重心要上升0.9m才能跳过去?为什么要取一半? 一个木块由桌面边缘推出一半的时候,对桌面的压力大小会有什么变化 地球对月亮有没有引力? 贴在墙上的镜子取不下来怎么办
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘