火车头不能做的事(超难的多页采集)
这个采集内容有的要登陆才能采到全部文章.但在文章低部有个脚本得点击才能出现另一个页面显示全文http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm 这是内容页 (不是全文)
http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm 这是全文
呵呵 我想这个要是能完美采集的话. 我看我得买个标准版了. 因为我的网站内容大部分来自这个网站 :( :( :( :(
你想想办法啊 呵呵 我也是新手. 刚入点门. 所以才没买标准版. 不过上面的多页采集我弄了好几天.也没办法 晕!我当是什么难题呢? 小ks! 普通版完全可以! 在多页中
将http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm 原帖由 rq204 于 2008-4-12 19:14 发表 http://bbs.locoy.com/images/common/back.gif
在多页中
将http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.as ...
呵呵,也没这么简单嘛!这是记录来路的 这个方法.我试了,不行.采到的只是把不全的文章从付采一遍. 我把火车头的教程都看过了. 还在网上找了好多正则软件(RegexTester,正则验证工具,正则狗,MTracer,T-Regex,正则工具).看看正则可以不. ali15ls 没学会 标题党帖子一般难得到实质性解答,说明问题详细情况即可.
[ 本帖最后由 沦陷今生 于 2008-4-12 19:54 编辑 ]
页:
[1]
2