发现了一个很奇怪的,采集有时正常,有时是乱码的情况
http://rent.hz.soufun.com/chuzu/1_49510564_-1.htmhttp://rent.hz.soufun.com/chuzu/1_49511469_-1.htm
同一个页面,采集的时候一个是正常的,另一个却是乱码,为什么啊?是不是网站做了什么处理???? 在火车2010第一步采集网址那里有自定义网站编码格式的!楼主可以手工指定 以下编码格式试试! 试了2楼的方式,解决了一个问题,谢谢
页:
[1]