“自定义链接”会丢掉近一半链接
目标地址:http://baby.sina.com.cn/health/jb_bb/qt.html脚本规则:data_p[(*)]='(*)/health/[参数]';
实际链接:/health/[参数1]
400余个链接有将近390余个符合该规则,但是只能采集到209个。
找了个同样规则下条数比较少的栏目逐条比较(http://baby.sina.com.cn/health/jb_bb/sj.html)发现它忽略掉了50%以后的内容。断开处没有任何特征,也许是程序的BUG吧? data_p[*]='/health/07/[参数]';
data_p[(*)]='(*)/health/[参数]'; ----加一个*在=后干什么呀 有的链接是完整地址,前面有“http://baby.sina.com.cn”。
另外去掉这个结果是一样的,所以问题不在这里。
页:
[1]