说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

小而美的Diffbot:将Web页面转化为数据库,获多位科技大佬注资

HTML文档下载 WORD文档下载 PDF文档下载
Diffbot是一家小而美的初创公司,该公司通过视觉处理、机器学习来处理Web页面,然后转化为可用的数据库。它还获得很多科技明星的支持,其中就有Sun公司创始人之一、Google的首位天使投资人Andy Bechtolsheim。

Diffbot是一家小而美的初创公司,该公司通过计算机视觉、机器学习和人工智能来处理Web页面,并计划实现整个网页的“机器可读”。不久前Diffbot发布了新的API,可以帮助用户将产品网页转化为可重用的数据,进而用以定价分析和产品追踪,以及其他方面的一些应用。

Diffbot的理念就是通过“视觉机器人”来扫描和识别不同的网页类型(主要是非结构化的数据),再将这些丰富的数据源应用于其他应用。Diffbot创始人兼首席执行官Mike Tung表示:“我们在获取页面之后会对其进行分析,然后通过成熟先进的技术进行结构化的处理。”

Diffbot的API使用计算机视觉将网页信息转化成数据库,软件开发者可以提取其中的数据进行再次利用,包括产品图片、航运成本、折扣价格、SKU码以及建议零售价等等。(信息来源于CloudTimes)

Diffbot将大多数Web页面划分为数个大类——新闻消息,头版,图片,事件和概要等等。Diffbot 首先识别这些部分,然后转化为可用的数据库格式。该公司已经发布了头版API和文章API,还有产品API。

Diffbot的服务价格

Diffbot的客户包括Instapaper(一种保存网页以便稍后阅读的服务),它就是现将这些数据进行结构化的处理,然后再将其重新展示在移动设备上。

在该领域,专业级的供应商都是一些科技巨头,像谷歌、微软和雅虎这些公司在如何更好地理解Web页面上都做过很多的努力,而且谷歌研究院和微软研究院都有类似的项目,只不过这些项目都放在“黑匣子”里,一般不会轻易示人。Tung表示,Diffbot的不同之处就在于其API以及Web扫描的SaaS服务都会对大众进行开放。

Diffbot得到很多科技明星的融资支持,包括Andy Bechtolsheim(斯坦福大学的校友、Google首位天使投资人,Sun公司创始人之一)、Sky Dayton(EarthLink和Boingo Wireless的创始人)、Joi Ito(MIT Media实验室主任)、 Brad Garlinghouse(前雅虎高级副总裁)以及Jonathan Heiliger(Facebook技术运营副总裁)。

总部位于加州Palo Alto的Diffbot成立于2008年,斯坦福大学的两名博士生Mike Tung和Leith Abdulla请假创办了这家公司。(文/王鹏,审校/仲浩) 

原文链接:Diffbot aims to convert the web into one big database, one page at a time

Cloud Edge:2013年国际“云先锋”系列报道
序号 公司名称 成立时间 CEO/CTO 风险投资 公司产品/方向
1. HStreaming 2011年 Jana Uhlig $ 1M (B) 实时Hadoop系统
2. CitusData
2012年 
Matt Ocko

CitusDB
3. Backblaze
2009年
Gleb Budman

开源存储硬件
4. Kickboard
2009年 Jennifer Medberry
$2.8M(A)
Kickboard(数据分析)
5. Elasticsearch
2012年
Shay Banon
$24 M(B)
开源搜索引擎
6. Appcore
2008年 Jeff Tegethoff
$6M  (B)
企业内部部署IaaS平台
7. Pertino
2011年 Craig Elliott
$20 M(B)
软件定义网络(SDN)
8. SwiftStack 2011年 Joe Arnold $6.1M(A) 软件定义存储
9. Spiral Genetics
2009年 Adina Mangubat $3M(A)
DNA序列数据分析平台
10. DNNResearch
2012年 Geoffrey Hinton  
深度学习
11. AppNeta
2011年 Jim Melvin  $16M(C) 
应用性能管理(APM)
12. Concurrent
2008年 Chris K. Wensel $4M(A) 
Java大数据框架
13. AirWatch
2003年 John Marshall
$200M(A) 
移动设备管理
14. Pluribus 
2012年 Robert Drost
$44M(C) 
虚拟化网络
15. Bina Technology
2006年 Narges Bani Asadi
 $6.5M(B)
基因测序平台
16. Sociocast
2010年 Albert Azout
 $1M(B)
数据预测分析
17. ParElastic
2010年
Ken Rugg
 $5.7M(A)
数据库虚拟化引擎
18. Optimizely
2009年
Dan Siroker
 $28M(A)
A/B 测试服务
19. Instart Logic
2010年
Manav Mital
 $17M(B)
网络性能
20. CloudFlare
2010年
Matthew Prince
 $20M(B)
云安全、网络性能
21. Ionic Security
2012年
Ted Schlein
 $9.4M(A)
云安全
22. MemSQL
2011年
Eric Frenkiel
 $5M(A)
MemSQL
23. Qubole
2012年
Ashish Thusoo
 $7M(A)
AWS平台Hive服务
24. Clustrix
2005年
Robin Purohit
 $16.5M(C)
Clustrix Sierra
25. Cloudant
2008年
Derek Schoettle
 $12M(B)
DBaaS
26. DataTorrent
2012年
Phu Hoang
 $8M(B)
实时数据分析
27. WibiData
2010年
Christophe Bisciglia
 $15M(B)
Hadoop商用套件
28. Dataminr
2009年
Ted Bailey
 $30M(C)
实时数据分析
29. PlumGrid
2011年
Awais Nemat
 $10.7M(A)
软件定义网络(SDN)
30. Meldium
2012年 Anton Vaynshtok
 $1 M(A)
商业密码管理
31. Myrrix 2012年 Sean Owen  
大数据,机器学习
32. Alpine data Labs
2010年 Joe Otto
 $7.5 M(A)
大数据预测分析
33. Context Relevant
2012年
Stephen Purpura
 $7 M(A)
大数据预测分析
34. Datameer
2009年
Stefan Groschupf
$9.2M(B)
大数据预测分析
35. Skytree
2012年
Alexander Gray
 
机器学习
36. Wise.io
2012年
Joshua Bloom
 
机器学习
37. Treasure Data
2012年
Hiro Yoshikawa
 $10 M(总)
企业级数据仓库
38. NimbusBase
2012年
Alex Volodarsky
 
存储API
39. Zimory
2007年
Ruediger Baumann
 $20 M(B)
IaaS 协作管理软件
40. DataStax
2010年
 Billy Bosworth
 $45 M(B)
商业级NoSQL数据库
41. ZestFinance
2012年
Douglas Merrill
 $20 M(C)
机器学习+大数据分析
42. InfoChimps
2009年
Jim Kasksade
 $5M(总)
大数据查询及处理平台
43. DigitalOcean
2012年
Ben Uretsky
 $3.2M
IaaS平台,云主机服务
44. SOASTA
2006年
Tom Lounibos
 $30M
云负载测试
45. Birst
2004年
Brad Peters
 $38M
商业智能、数据分析
46. Hortonworks
2011年
Rob Bearden
 $98M (总)
Hadoop数据平台
47. Parse.ly
2012年
Sachin Kamdar
 $5M (A)
预测分析平台
48. Diffbot
2008年
Mike Tung
 $2M (A)
机器学习,视觉处理
备注:2013年8月30日更新,持续更新中......

备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘