benls 发表于 2010-9-1 15:31:49

请教:这种页面的内容如何采集到?

本人新手,正学习采集。
前两天遇到个内容页面很难采集完整的难题,现在想请教各位老大,看看怎么才能完全采集到这种页面的全部内容。
这是火车采集器能够采集到的页面,http://www.100md.com/html/Dir/2003/04/07/0948.htm
而该网站很多这种内容页面显示的都是不完全的内容,想全部看到内容,必须要点击下边的那个“此文不需要积分,点这里查看详细”的链接,
也就是说实际链接是http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2003/04/07/0948.htm
我在火车头里试图替换成实际包含全部内容的页面让火车来采集全部内容,但是火车采集器实际上采集不到http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2003/04/07/0948.htm这个页面的内容,仍然是采集到http://www.100md.com/html/Dir/2003/04/07/0948.htm页面的内容。
请教各位达人,这个问题有办法解决吗?
请知道的大侠回复下吧,我想应该有很多像我这样初学者想知道这类问题的解决办法的,先谢谢了!

benls 发表于 2010-9-3 17:04:14

看来这个难了点,期待高手出现哦

benls 发表于 2010-9-4 14:33:37

继续的期待中。。。

孤魂 发表于 2010-9-4 15:17:53

需要验证COOKIE值

benls 发表于 2010-9-4 15:30:05

回复 4# 孤魂
是啊,新手,怎么验证呢?我已经在火车头里填了用户名和密码了

benls 发表于 2010-9-4 15:30:50

回复 4# 孤魂
请孤魂老师讲具体些吧,谢谢
页: [1]
查看完整版本: 请教:这种页面的内容如何采集到?