说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

小而美的Diffbot:将Web页面转化为数据库,获多位科技大佬注资

HTML文档下载 WORD文档下载 PDF文档下载
Diffbot是一家小而美的初创公司,该公司通过视觉处理、机器学习来处理Web页面,然后转化为可用的数据库。它还获得很多科技明星的支持,其中就有Sun公司创始人之一、Google的首位天使投资人Andy Bechtolsheim。

Diffbot是一家小而美的初创公司,该公司通过计算机视觉、机器学习和人工智能来处理Web页面,并计划实现整个网页的“机器可读”。不久前Diffbot发布了新的API,可以帮助用户将产品网页转化为可重用的数据,进而用以定价分析和产品追踪,以及其他方面的一些应用。

Diffbot的理念就是通过“视觉机器人”来扫描和识别不同的网页类型(主要是非结构化的数据),再将这些丰富的数据源应用于其他应用。Diffbot创始人兼首席执行官Mike Tung表示:“我们在获取页面之后会对其进行分析,然后通过成熟先进的技术进行结构化的处理。”

Diffbot的API使用计算机视觉将网页信息转化成数据库,软件开发者可以提取其中的数据进行再次利用,包括产品图片、航运成本、折扣价格、SKU码以及建议零售价等等。(信息来源于CloudTimes)

Diffbot将大多数Web页面划分为数个大类——新闻消息,头版,图片,事件和概要等等。Diffbot 首先识别这些部分,然后转化为可用的数据库格式。该公司已经发布了头版API和文章API,还有产品API。

Diffbot的服务价格

Diffbot的客户包括Instapaper(一种保存网页以便稍后阅读的服务),它就是现将这些数据进行结构化的处理,然后再将其重新展示在移动设备上。

在该领域,专业级的供应商都是一些科技巨头,像谷歌、微软和雅虎这些公司在如何更好地理解Web页面上都做过很多的努力,而且谷歌研究院和微软研究院都有类似的项目,只不过这些项目都放在“黑匣子”里,一般不会轻易示人。Tung表示,Diffbot的不同之处就在于其API以及Web扫描的SaaS服务都会对大众进行开放。

Diffbot得到很多科技明星的融资支持,包括Andy Bechtolsheim(斯坦福大学的校友、Google首位天使投资人,Sun公司创始人之一)、Sky Dayton(EarthLink和Boingo Wireless的创始人)、Joi Ito(MIT Media实验室主任)、 Brad Garlinghouse(前雅虎高级副总裁)以及Jonathan Heiliger(Facebook技术运营副总裁)。

总部位于加州Palo Alto的Diffbot成立于2008年,斯坦福大学的两名博士生Mike Tung和Leith Abdulla请假创办了这家公司。(文/王鹏,审校/仲浩) 

原文链接:Diffbot aims to convert the web into one big database, one page at a time

Cloud Edge:2013年国际“云先锋”系列报道
序号 公司名称 成立时间 CEO/CTO 风险投资 公司产品/方向
1. HStreaming 2011年 Jana Uhlig $ 1M (B) 实时Hadoop系统
2. CitusData
2012年 
Matt Ocko

CitusDB
3. Backblaze
2009年
Gleb Budman

开源存储硬件
4. Kickboard
2009年 Jennifer Medberry
$2.8M(A)
Kickboard(数据分析)
5. Elasticsearch
2012年
Shay Banon
$24 M(B)
开源搜索引擎
6. Appcore
2008年 Jeff Tegethoff
$6M  (B)
企业内部部署IaaS平台
7. Pertino
2011年 Craig Elliott
$20 M(B)
软件定义网络(SDN)
8. SwiftStack 2011年 Joe Arnold $6.1M(A) 软件定义存储
9. Spiral Genetics
2009年 Adina Mangubat $3M(A)
DNA序列数据分析平台
10. DNNResearch
2012年 Geoffrey Hinton  
深度学习
11. AppNeta
2011年 Jim Melvin  $16M(C) 
应用性能管理(APM)
12. Concurrent
2008年 Chris K. Wensel $4M(A) 
Java大数据框架
13. AirWatch
2003年 John Marshall
$200M(A) 
移动设备管理
14. Pluribus 
2012年 Robert Drost
$44M(C) 
虚拟化网络
15. Bina Technology
2006年 Narges Bani Asadi
 $6.5M(B)
基因测序平台
16. Sociocast
2010年 Albert Azout
 $1M(B)
数据预测分析
17. ParElastic
2010年
Ken Rugg
 $5.7M(A)
数据库虚拟化引擎
18. Optimizely
2009年
Dan Siroker
 $28M(A)
A/B 测试服务
19. Instart Logic
2010年
Manav Mital
 $17M(B)
网络性能
20. CloudFlare
2010年
Matthew Prince
 $20M(B)
云安全、网络性能
21. Ionic Security
2012年
Ted Schlein
 $9.4M(A)
云安全
22. MemSQL
2011年
Eric Frenkiel
 $5M(A)
MemSQL
23. Qubole
2012年
Ashish Thusoo
 $7M(A)
AWS平台Hive服务
24. Clustrix
2005年
Robin Purohit
 $16.5M(C)
Clustrix Sierra
25. Cloudant
2008年
Derek Schoettle
 $12M(B)
DBaaS
26. DataTorrent
2012年
Phu Hoang
 $8M(B)
实时数据分析
27. WibiData
2010年
Christophe Bisciglia
 $15M(B)
Hadoop商用套件
28. Dataminr
2009年
Ted Bailey
 $30M(C)
实时数据分析
29. PlumGrid
2011年
Awais Nemat
 $10.7M(A)
软件定义网络(SDN)
30. Meldium
2012年 Anton Vaynshtok
 $1 M(A)
商业密码管理
31. Myrrix 2012年 Sean Owen  
大数据,机器学习
32. Alpine data Labs
2010年 Joe Otto
 $7.5 M(A)
大数据预测分析
33. Context Relevant
2012年
Stephen Purpura
 $7 M(A)
大数据预测分析
34. Datameer
2009年
Stefan Groschupf
$9.2M(B)
大数据预测分析
35. Skytree
2012年
Alexander Gray
 
机器学习
36. Wise.io
2012年
Joshua Bloom
 
机器学习
37. Treasure Data
2012年
Hiro Yoshikawa
 $10 M(总)
企业级数据仓库
38. NimbusBase
2012年
Alex Volodarsky
 
存储API
39. Zimory
2007年
Ruediger Baumann
 $20 M(B)
IaaS 协作管理软件
40. DataStax
2010年
 Billy Bosworth
 $45 M(B)
商业级NoSQL数据库
41. ZestFinance
2012年
Douglas Merrill
 $20 M(C)
机器学习+大数据分析
42. InfoChimps
2009年
Jim Kasksade
 $5M(总)
大数据查询及处理平台
43. DigitalOcean
2012年
Ben Uretsky
 $3.2M
IaaS平台,云主机服务
44. SOASTA
2006年
Tom Lounibos
 $30M
云负载测试
45. Birst
2004年
Brad Peters
 $38M
商业智能、数据分析
46. Hortonworks
2011年
Rob Bearden
 $98M (总)
Hadoop数据平台
47. Parse.ly
2012年
Sachin Kamdar
 $5M (A)
预测分析平台
48. Diffbot
2008年
Mike Tung
 $2M (A)
机器学习,视觉处理
备注:2013年8月30日更新,持续更新中......

《近匠》HBuilder:如何用JS调用几十万原生API? littleBits新推Cloud Module,普通人也能DIY智能硬件 如何创建浮动式标签模式? Office 365正式落地中国——移动为先,云为先 .NET Native:C++的性能 C#的产能? Arduino联合创始人Tom Igoe:创客,因何而创 【走近院士】高文:多媒体大数据的影响及面临的挑战 微软SQL Server 2014三大新特性:集成内存OLTP、BI和混合云搭建 Linux将会统治桌面端的7个原因 Intel首席科学家Randolph Wang:详解Edison AMD Mantle再添新作,引发下代GPU架构猜想 谈DAM决策,自建还是SaaS 证据显示:Linux战争已经转移到OpenStack RestKit:iOS开发必备,告别众多无聊代码 技术新突破:手机和平板可远程控制PC,Chrome Remote Desktop亮相 物联网高速公路上,快数据如何驱动分析 苹果或将使用雅虎的搜索引擎,抛弃谷歌 百万用户规模的系统如何扩展 大数据需要软件定义存储 倒计36小时!2014中国Spark技术峰会即将召开! 设计师专宠,Startup强大的UI设计框架 走进金山云:从技术走向服务 Qt Creator 3.1.0发布,全面支持iOS、Android、WP Google大中华区总裁石博盟与中国大学生畅谈科技与创新 阿里云:从防到攻,深入浅出DDoS 大数据处理分析的六大最好工具 微软:Windows Phone开发者可回复用户评价 不断缩水后的微博上市首日大涨19% 曾一度涨超40% Snapdragon LLVM编译器全新升级 支持骁龙64位处理器 EDP:基于Node.JS与NPM的企业级开发平台 想改变世界,先改变自己——知名Hacker、发明家Mitch Altman专访 俺要写一个简单的文本的报文,string类型的 关于生成文件的方法?..... 有谁能告诉一下我CVS和SSF是什么?,具体是指些什么?? WIN2K 的问题:1、怎么允许本地普通用户(user)关机;2、怎么能让本地普通用户开机后,客户机连接到SQL SERVER?3、为什么我的SQL量SERVER2K需要停止然后再启动客户才能用? 如何用VB把存储在ORACLE库中的图片字段取出成.JPG格式的图片文件????急在外出差呀多谢了~~~~~ 如何退出函数?exit function??? 测试2000的TCP/IP是否通,用什么命令 求助开发课程表提示 (*****向斑竹你提个小见意,大家最好都来看看,这个想法好不好!****) 为什么我做的增加功能有两个必须要按两次“添加”按钮才能新增一条记录啊? 很急,请教高手,如何把一个ip格式的字符串转换成ip类型,不是用getbyname(),而是像int和string转换一样的概念 请问如何让基于对话框的工具条一开始就浮在上面 来者有分,关于ado的 毛子青论文<<动态规划的优化>>,一个最长子序列的算法,请高手看过来(给出c实现代码的送20分!) 在鼠标单击时间中,可以使用什么函数取得鼠标点击处的坐标值 怎样在单击左键时弹出PopupMenu? 连续20多天加班,近来明显感到体力透支,做个调查!!!(有分) ASP调用VB编写的ActiveX DLL的问题 请教一sql语句 在Unix下用cc(实际上是cc_bundled文件)编译c程序时,报错“const" will become a keyword,或者告诉我“Function prototypes are an ANSI feature" 为何加入winsock2.h后会出现很多问题? 热烈庆祝:Kingron重出江湖!!!菜鸟们有福喽……散分 you shen me qu bie ? please tell me , xie xie ! [■■■Delphi猛料■■■]V1.3发布~~~~~~~更新到2001.12.12 提问:如何在ToolBar上加控件? 我在OLE里调用了word2000文档,为什么只显示第一页,我查了半天资料都没有解决,请帮我 哪里有多媒体软件制作论文啊? 继续请教各位前辈:能否将非新增加的字段定义成计算字段?谢谢! 软件创意、需求大汇集:列创意,拿专家分,120分值大赠送(以后可继续追加) 局渔网 巨简单问题~~~ 进来有分,回答多分,不够再加!!! 关于关闭和启动数据库的问题,很急的!! java VS c#^-^ ?? 请进 寻求QuickReport3以上版本 for Delphi3 的源代码或者安装包? 請問哪大俠用過 ibm 的 bridge2java啊,我把Excel的所有類都導出來了,但它的QuickExcel.java文件還是運行不了, 求救!新装了一块硬盘,为何找不到呀? SetWindowLong函数在delphi里可用,为什么在c++builder 中不能用??? 用弹出式菜单命令弹出一个dialog,可以响应键盘,可是不响应鼠标? 请教,Inserts类是拿来干什么用的? !!!急急急!!!怎样在WIN2000下把NTFS转换成FAT32啊。数据不丢失。 回复太短!或太长!!! visio2002的数据库建模,能不能生成SQL脚本? 急急啊,有關servlet的問題,源碼如下: 添加数据的问题 坐标问题 unix下的nfs Merry Christmas! 给分!祝大家一路发! 每个文件(目录)有3种权限 写DLL? 我定义了三个CSS样式表 高分求教:谁用pb7作过三层结构的东东,我现在要做啦,指点一下吗 甲物体质量为乙物体的三分之一,乙物体体积是甲物体体积的2倍,求乙物体的密度明天就得交 对澳大利亚西海岸荒漠环境的形成起重要作用的的洋流属于什么洋流?如题选项:A.风海流 B.密度流 C.补偿流 D.暖流正确答案好像是C, 为什么马达加斯加岛的东部形成了热带雨林气候而西部形成了热带草原气候 有甲乙两金属块,甲的密度是乙的5分之2,乙的质量是甲的2倍,那么甲的体积是乙的多少? 拉尼娜现象对赤道逆流和秘鲁暖流及环太平洋的洋流和气候有什么影响?还有厄而尼诺现象 马达加斯加岛的东侧为热带雨林气候,形成此类气候类型的原因是什么?是不是和迎风坡有关系?什么是迎风坡?感激不尽~ 甲物体的质量是乙物体的3倍,使甲,乙两个物体的体积之比为3:2,求甲,乙两物体的密度之比 为什么水银温度计用过要甩,否则就无法继续用呢? 回归线附近的马达加斯加岛东部不是热带草原气候而是热带雨林气候? 关于海水结冰问题海面上的水结冰,结成的冰融化后与没有结成冰的水的含盐量大概是多少比多少,如果给出各是百分之几更好.还有把海水晒成盐这种工艺叫做海水什么? 有甲乙两物体,家的密度是乙的密度的三分之二,乙的体积是甲的体积的四分之五,那么甲的质量是乙的质量的多少倍,快 急 为什么用完温度计要把水银甩回去?而且再怎么甩也甩不回原点? 中国那些地区海水结冰了? 澳大利亚东北部海域有大量的珊瑚礁,分析这些珊瑚礁的正面作用. 水银温度计是否可以把水银甩下去以迅速再用? 海水易结冰还是河水易结冰? 珊瑚礁群分布在澳大利亚的什么海域? 将一块石蜡,分别放入足量的水和酒精中,当石蜡静止时,它排开水的体积与排开酒精的体积之比为 (ρ石蜡=0.9×103kg/m3,ρ酒精=0.8×103kg/m3) 家庭和实验室常用的温度计是根据什么的规律来测量的 有谁知道除了水银外,在常温下密度大于2的液体,混合液体也可. 地处太平洋与印度洋、亚洲与大洋洲之间的“十字路口”是指? 固体密度大概是液体密度的多少倍? 常温常压下为液体且密度大于水的物质1,苯;2,硝基苯;3,溴苯;4,CCl;5,溴乙烷;6,乙酸乙酯 为什么澳大利亚人口集中在太平洋沿岸地区? 固体密度大于液体密度? 索马里半岛的沿岸热带沙漠气候的形成愿因? (1)以亚洲太平洋沿岸地区为例,比较自地纬至高纬各气候类型的气候特征的主要差异(2)以亚欧大陆中高纬度地区为例,比较大路西岸,大陆内部,大陆东岸各气候类型的气候特征的主要差异. 河水和海水哪个更容易结冰 这句话对么?在秘鲁寒流影响下,沿岸热带沙漠气候所跨经度范围广 处于亚洲与大洋洲之间,连接太平洋与印度洋的海上通道是 为什么海水比河水难结冰 澳大利亚上的热带沙漠气候和非洲撒哈拉沙漠在形成原因上的共同点? 一个实心物体放在水中静止时处于漂浮状态,有4/1的体积露出水面,求该物体的密度? 怎么样求固体,液体的密度用五种方法测量物体的密度,方法越多越好。、文字说明,最好有图画,要讲清楚,不能有遗漏, 索马里半岛热带沙漠气候形成的原因 甲 乙两个实心物体漂浮在水面上,体积之比为2比1,浸在水中部分的体积之比为1比2,那么它们的密度比是多少. 540kg的水化成冰 体积是多少 为什么索马里是热带沙漠气候 质量相等但密度不同的A、B两个小球,方放入水中后都处于漂浮状态,其露出水面部分的体积是总体积的三分之一和一半,则两球A.受的浮力比FA:FB=2:3B.受的浮力比FA:FB=1:1C.密度比ρA:ρB=3:4D. 1kg的水化成冰它的质量、体积分别是多少? 怎样测冰块的密度?放在水里算体积怕化了,切割成规则体不准确,在切割过程中也很容易化,应该怎样测冰块的密度呢?试验工具随便选,并写出冰的密度的表达式. 将密度均匀、重为10N的物体放入水中,静止后物体漂浮在水面,若将露出水面的部分切去后,剩下部分重为8N则物体密度为A、1g/cm3 B、0.8g/cm3 C、0.2g/cm3 D、1.2g/cm3 甲乙两木块的质量比为3:2,其体积比为1:2,则其密度比为多少? 一个容积为3*10^-4立方米的瓶内盛有0.2千克的水,一只口渴的乌鸦每次将一块质量为0.01千克的小石子投入瓶中,当乌鸦投了25块相同的小石子后,水面上升到瓶口,求:1.瓶内石块的总体积.2.石块的 热带雨林气候的成因!a终年气温高,气流下沉强烈 b终年气温高,气流上升旺盛 甲乙两质量分布均匀的物体的体积相同,它们的质量之比是5:3,则它们的密度之比是_________.若甲截去3/5, 1:体积为30平方厘米的铜球的质量为89克,将它的中空部分注满某种液体后球的总质量是361克,求注入的液体密度的大小.(p铜=8.9*10的三次方 千克/立方米)2:一只烧杯装满水,总质量为350克,放 氧气不易溶与水,那水中的生物怎么生存呢(不是生物问题) 海水结冰是盐为什么会分离出来? EGYPT RED SEA (埃及、红海)是埃及在前面,还是红海在前面EGYPT RED SEA (埃及、红海)是该EGYPT(埃及)在前面,还是该RED SEA(红海)在前面呢? 如果氧气在水中溶解很大时我们可以在水中活吗瞎想的 .冬天,小明在海边散步,发现路面上的水结冰了,但海水并没有结冰,他猜想:可能是海水中含有盐,导致凝固表格 中美洲的尼加拉瓜,洪都拉斯,萨尔瓦多,巴拿马,哥斯达黎加,厄瓜多尔,这些国家经济怎么样? 请问:物质溶解在水中,体积是否会发生改变如果是NaCl溶于水呢 某物质的密度是105kg/m3,该物质的状态是?a.固态 b.液态 c.气态 d.无法判断额,不好意思啊.密度是1.5kg/m3啊 澳大利亚西海岸的气候和美国西海岸的气候类似吗?还是说南北半球的洋流有很大差异,导致气候截然不同.还有就是澳大利亚的那个地区与美国的加州气候类似.珀斯和悉尼哪个城市的气候会更 一块糖在水中溶解后,水和糖的总体积有什么变化?为什么? 什么状态的物体密度大 固态还是液态还是气态 泰国,新加坡,新西兰,澳大利亚,科威特,秘鲁,智利名称的原意 水中溶解物质时 温度或体积为啥有变化
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn