flytian 发表于 2010-8-12 13:57:11

谁能采集到这个网页的内容,谁才是真正的采集牛人

今天不小心看到这个网页的源代码~~~

http://222.35.76.135/cafta/(4ydzeyi30y3i0545d1wkfm45)/SecondPage.aspx?ID=5782&sqls=DayNews

日了~~~、

谁有本事采集它的文章内容,

并把方法贴出


俺就服了,牛人~~

lxy2010 发表于 2010-8-12 14:35:45

这个可以采集的到,用post方式采集网址,以这个http://222.35.76.135/cafta/(q3zoedm220hq5if4j4mwy555)/Default.aspx网页中的每日新闻为例,每日新闻网址为http://222.35.76.135/cafta/(q3zoedm220hq5if4j4mwy555)/IndexMoreList.aspx?tn=DayNews&pid=0,由于分页为550页,采集需要一些时间,现以采集前10页为例。具体的方法请看图:


lxy2010 发表于 2010-8-12 15:42:57

至于内容页的采集目前有些难度,这个网站的内容时经过编译的,要用到插件进行处理,具体可以参考http://wiki.locoy.com/doc-view-64.htm

flytian 发表于 2010-8-13 01:49:39

噢也~~搞顶了,谢谢
页: [1]
查看完整版本: 谁能采集到这个网页的内容,谁才是真正的采集牛人