cnscybyz 发表于 2010-12-17 12:15:41

目前我用的个人版做采集的时候遇到的新问题

1.比如www.zhaodll.com这个站的最终采集页,他的下载地址源代码是这样的:
<a href="download.asp?softid=34920&downid=7&id=34961" class="downLinks" target="_blank">

但是 火车头获取的路径却是http://www.zhaodll.com/dll/a/201011/download.asp?softid=34920&downid=7&id=34961,正确的路径应该是:
http://www.zhaodll.com/dll/download.asp?softid=34920&downid=7&id=34961

以前不存在这样的问题,就11月和12月的更新版本才出现的

2.比如www.52z.com这个站,内容页无法获取页面信息,软件介绍和地址等等都不能获取,经过最简单的规则测试,一样不能获取,所以不会是我的智商问题,应该是程序BUG吧


也许没人提是因为他们多半用于文章采集,我是只做软件,所以遇到这些问题。还请解决下。
页: [1]
查看完整版本: 目前我用的个人版做采集的时候遇到的新问题