说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

如何把一个网站上的数据自动抓取到自己的数据库中呢(给一实例)

编辑:说三道四文库 发布时间:2018-09-19 01:18
HTML文档下载 WORD文档下载 PDF文档下载
如何把一个网站上的数据自动抓取过来,自己使用啊?求各位大侠进来晃晃啊!
写一个采集器就好了!简单
这个可要看你自己的技术.Good Luck!

一切问题都不是问题,最后都是时间问题。
http://developer.51cto.com/art/200909/150013.htm
引用 2 楼 zhoukang0916 的回复:
这个可要看你自己的技术.Good Luck!

一切问题都不是问题,最后都是时间问题。
+
webclient抓取网站内容
httpwebrequest
System.Net.WebClient wc = new System.Net.WebClient();
 wc.Credentials = System.Net.CredentialCache.DefaultCredentials;
 Byte[] pageData = wc.DownloadData(PageUrl);
string Content= System.Text.Encoding.Default.GetString(pageData);
 
 
帅哥,怎么用这种鄙视的态度了,当你还是菜鸟的时候,你就没有菜的时候?我不相信!
引用 4 楼 andyxl 的回复:
引用 2 楼 zhoukang0916 的回复:

这个可要看你自己的技术.Good Luck!

一切问题都不是问题,最后都是时间问题。
+

不是抓去整个页面的数据,而是其中的内容,比如说一个图片库,一个文章库
楼主,这个你先得去分析你要抓取数据的页面,分析页面的源码
然后将页面源码抓取过来,写正则表达式,过滤页面源码,得到你想要的数据
这个就是常说的小偷程序啊,
本人写过一个,源程序不方便在这边帖,如果需要,可以给我留言,我发给你
数据采集
引用 7 楼 hftime 的回复:
引用 4 楼 andyxl 的回复:

引用 2 楼 zhoukang0916 的回复:

这个可要看你自己的技术.Good Luck!

一切问题都不是问题,最后都是时间问题。
+

不是抓去整个页面的数据,而是其中的内容,比如说一个图片库,一个文章库

还是先把页面的html拿下来吧,然后再利用正则,取出你想要的内容。
楼上说的抓的整个页面都包括你要的内容了。
数据采集
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘