目前我用的个人版做采集的时候遇到的新问题
1.比如www.zhaodll.com这个站的最终采集页,他的下载地址源代码是这样的:<a href="download.asp?softid=34920&downid=7&id=34961" class="downLinks" target="_blank">
但是 火车头获取的路径却是http://www.zhaodll.com/dll/a/201011/download.asp?softid=34920&downid=7&id=34961,正确的路径应该是:
http://www.zhaodll.com/dll/download.asp?softid=34920&downid=7&id=34961
以前不存在这样的问题,就11月和12月的更新版本才出现的
2.比如www.52z.com这个站,内容页无法获取页面信息,软件介绍和地址等等都不能获取,经过最简单的规则测试,一样不能获取,所以不会是我的智商问题,应该是程序BUG吧
也许没人提是因为他们多半用于文章采集,我是只做软件,所以遇到这些问题。还请解决下。
页:
[1]