说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

WDC超链接图:涵盖35亿网页、1280亿超链接

HTML文档下载 WORD文档下载 PDF文档下载
曼海姆大学研究人员公开了据称是目前最大规模的网络超链接图,涵盖35亿个网页和1280亿个超链接。

近日,曼海姆大学研究人员公开了一个巨型的网络超链接图(Web Data Commons Hyperlink Graph),以便于公众进行网络研究。这个网络图是从Common Crawl(一个提供网络爬虫数据的非营利性组织) 2012年语料库中提取的,涵盖35亿个网页和1280亿个超链接,很可能是现在最大的公开可用图。

这个图对于进行网络分析以及从事以下研究工作的人员将有很大的帮助:

  1. 搜索算法,并根据网页之间的超链接进行排名;
  2. 垃圾邮件检测方法,识别出“欺骗”搜索引擎的网页;
  3. 图分析算法,可以用超链接图来测试工具的扩展性\和性能;
  4. 在特定的局部领域的网络科学和链接模式,目的是识别管理这些领域的社会机制。

这些超链接图提供了4个不同级别的聚合:

  1. 页面级图:每个节点及其所有细节,代表一个单一的web页面,每个弧代表两页之间的一个超链接;
  2. 子域级别图:通过子域聚合页面图。在图中的每个节点表示一个特定子域 (像research.dws.uni-mannheim.de) ,如果分属不同子域间的页面存在至少一个超链接,则两个子域间存在弧;
  3. 第一级子域图:每个节点都代表一个第一级子域名(如dws.uni-mannheim.de ),所有下方的子域聚合到该域;
  4. Pay级别域图:每个节点代表一个Pay级别域 (置于uni-mannheim.de),如果分属不同Pay级别域间的页面存在至少一个超链接,则弧存在。


各级别图的规模如下:

页面图:35.63亿个节点,1287.36亿个弧

子域图:1.01亿个节点,20.43亿个弧

第一级子域图:0.95亿个节点,19.37亿个弧

Pay级别域图:0.43亿个节点,6.23亿个弧

其它公开的超链接图和网络爬虫数据集合:

另外,Laboratory for Web Algorithms和Stanford Large Network Dataset Collection也提供类似的超链接图数据,但是相比WDC Hyperlink Graph,数据规模较小、也较旧。(编译/李新宇 审校/周小璐)

原文链接:WDC Huge Web Graph - 128 billion hyperlinks - publicly available

备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘