火车头不能做的事(超难的多页采集)

sengl 发表于 2008-4-12 18:52:29

这个采集内容有的要登陆才能采到全部文章.但在文章低部有个脚本得点击才能出现另一个页面显示全文
http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm　这是内容页　(不是全文)

http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm　　这是全文

　　　　　呵呵　　我想这个要是能完美采集的话.　我看我得买个标准版了.　因为我的网站内容大部分来自这个网站

和平鸽323 发表于 2008-4-12 19:02:20

:( :( :( :(

你想想办法啊

sengl 发表于 2008-4-12 19:06:20

呵呵　　我也是新手.　刚入点门.　　所以才没买标准版.　　不过上面的多页采集我弄了好几天.也没办法

soarb 发表于 2008-4-12 19:09:06

晕！我当是什么难题呢？　小ks！

soarb 发表于 2008-4-12 19:09:48

普通版完全可以！

rq204 发表于 2008-4-12 19:14:38

在多页中

将http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm　

soarb 发表于 2008-4-12 19:25:42

原帖由 rq204 于 2008-4-12 19:14 发表 http://bbs.locoy.com/images/common/back.gif
在多页中

将http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.as ...

呵呵，也没这么简单嘛！这是记录来路的

sengl 发表于 2008-4-12 19:36:09

这个方法.我试了,不行.采到的只是把不全的文章从付采一遍.　

sengl 发表于 2008-4-12 19:41:02

我把火车头的教程都看过了.　还在网上找了好多正则软件(RegexTester,正则验证工具,正则狗,MTracer,T-Regex,正则工具).看看正则可以不.　　ali15ls 没学会

沦陷今生 发表于 2008-4-12 19:52:21

标题党帖子一般难得到实质性解答,说明问题详细情况即可.

[ 本帖最后由沦陷今生于 2008-4-12 19:54 编辑 ]

页: [1] 2

火车采集器软件交流官方论坛's Archiver

火车头不能做的事(超难的多页采集)