说三道四 > 文档快照
HTML文档下载 WORD文档下载 PDF文档下载
近日,曼海姆大学研究人员公开了一个巨型的网络超链接图(Web Data Commons Hyperlink Graph),以便于公众进行网络研究。这个网络图是从Common Crawl(一个提供网络爬虫数据的非营利性组织) 2012年语料库中提取的,涵盖35亿个网页和1280亿个超链接,很可能是现在最大的公开可用图。
这个图对于进行网络分析以及从事以下研究工作的人员将有很大的帮助:
这些超链接图提供了4个不同级别的聚合:
各级别图的规模如下:
页面图:35.63亿个节点,1287.36亿个弧
子域图:1.01亿个节点,20.43亿个弧
第一级子域图:0.95亿个节点,19.37亿个弧
Pay级别域图:0.43亿个节点,6.23亿个弧
其它公开的超链接图和网络爬虫数据集合:
另外,Laboratory for Web Algorithms和Stanford Large Network Dataset Collection也提供类似的超链接图数据,但是相比WDC Hyperlink Graph,数据规模较小、也较旧。(编译/李新宇 审校/周小璐)
原文链接:WDC Huge Web Graph - 128 billion hyperlinks - publicly available