sengl 发表于 2008-4-12 18:52:29

火车头不能做的事(超难的多页采集)

这个采集内容有的要登陆才能采到全部文章.但在文章低部有个脚本得点击才能出现另一个页面显示全文
http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm 这是内容页 (不是全文)


http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm  这是全文


     呵呵  我想这个要是能完美采集的话. 我看我得买个标准版了. 因为我的网站内容大部分来自这个网站

和平鸽323 发表于 2008-4-12 19:02:20

:( :( :( :(


你想想办法啊

sengl 发表于 2008-4-12 19:06:20

呵呵  我也是新手. 刚入点门.  所以才没买标准版.  不过上面的多页采集我弄了好几天.也没办法

soarb 发表于 2008-4-12 19:09:06

晕!我当是什么难题呢? 小ks!

soarb 发表于 2008-4-12 19:09:48

普通版完全可以!

rq204 发表于 2008-4-12 19:14:38

在多页中

将http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm 

soarb 发表于 2008-4-12 19:25:42

原帖由 rq204 于 2008-4-12 19:14 发表 http://bbs.locoy.com/images/common/back.gif
在多页中

将http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.as ...

呵呵,也没这么简单嘛!这是记录来路的

sengl 发表于 2008-4-12 19:36:09

这个方法.我试了,不行.采到的只是把不全的文章从付采一遍. 

sengl 发表于 2008-4-12 19:41:02

我把火车头的教程都看过了. 还在网上找了好多正则软件(RegexTester,正则验证工具,正则狗,MTracer,T-Regex,正则工具).看看正则可以不.  ali15ls 没学会

沦陷今生 发表于 2008-4-12 19:52:21

标题党帖子一般难得到实质性解答,说明问题详细情况即可.

[ 本帖最后由 沦陷今生 于 2008-4-12 19:54 编辑 ]
页: [1] 2
查看完整版本: 火车头不能做的事(超难的多页采集)