谁能采集到这个网页的内容,谁才是真正的采集牛人
今天不小心看到这个网页的源代码~~~http://222.35.76.135/cafta/(4ydzeyi30y3i0545d1wkfm45)/SecondPage.aspx?ID=5782&sqls=DayNews
日了~~~、
谁有本事采集它的文章内容,
并把方法贴出
俺就服了,牛人~~ 这个可以采集的到,用post方式采集网址,以这个http://222.35.76.135/cafta/(q3zoedm220hq5if4j4mwy555)/Default.aspx网页中的每日新闻为例,每日新闻网址为http://222.35.76.135/cafta/(q3zoedm220hq5if4j4mwy555)/IndexMoreList.aspx?tn=DayNews&pid=0,由于分页为550页,采集需要一些时间,现以采集前10页为例。具体的方法请看图:
至于内容页的采集目前有些难度,这个网站的内容时经过编译的,要用到插件进行处理,具体可以参考http://wiki.locoy.com/doc-view-64.htm 噢也~~搞顶了,谢谢
页:
[1]