建议修复HttpPostGet.exe中的一个小问题
今天采集到的一个网站页面地址可能是通过程序生成的
网址的最是以点号(.)结尾的
如下列的网址
www.****.com/C.M.A.
www.****.com/CO.Tld.
网址结尾有个点号(.)
用浏览器访问,也用HttpAnalyzer的工具测试 都能返回数据,
但是通过火车头的HttpPostGet去访问,就返回404,没法返回数据
也就没办法采集了
这个我想应该是HttpPostGet的问题,不支持识别最后的.点号
建议修复下这个问题,可以支持这类网址。
不是那个原因吧,即便没点好多也是404,多了 确实有这个问题,官方应该验证下 我靠,这个问题很严重,末尾加点,不是404 不404的问题。 整个火车头直接 不识别此后缀格式。
http://www.music123.com/guitars/normandy-chrome-archtop-guitar-with-bigsby-vibrato-tailpiece.
不过类似这样的很多了,火车头不知道有没有能力了。 要是找火车头模拟浏览器打不开的 网站,我至少能帮楼主找20个 我找到了个办法,替换掉点号 不过采集出网址后要先导出网址 然后替换再采集内容,就是有点麻烦 这个门题这个门题这个门题 爪,以后学习下。。 爪,以后学习下。。 爪,以后学习下。。
页:
[1]
2