heidian 发表于 2007-12-5 18:35:24

“自定义链接”会丢掉近一半链接

目标地址:http://baby.sina.com.cn/health/jb_bb/qt.html
脚本规则:data_p[(*)]='(*)/health/[参数]';
实际链接:/health/[参数1]

400余个链接有将近390余个符合该规则,但是只能采集到209个。

找了个同样规则下条数比较少的栏目逐条比较(http://baby.sina.com.cn/health/jb_bb/sj.html)发现它忽略掉了50%以后的内容。断开处没有任何特征,也许是程序的BUG吧?

vus520 发表于 2007-12-5 19:41:36

data_p[*]='/health/07/[参数]';
data_p[(*)]='(*)/health/[参数]'; ----加一个*在=后干什么呀

heidian 发表于 2007-12-5 19:48:36

有的链接是完整地址,前面有“http://baby.sina.com.cn”。
另外去掉这个结果是一样的,所以问题不在这里。
页: [1]
查看完整版本: “自定义链接”会丢掉近一半链接