dacaoyu 发表于 2014-4-22 07:00:31

采集如何过滤死链接

比如采集网址www.sohu.com/(*).html
其中*代表1-100这100个网址,但是有的是不存在的网址,也就是说这100个网址可能只有20个是有,其他的全部是死链,或根本不存在,但是火车头却全部采集,生成大量空的文档,如何采集的时候自动过滤不存在的链接呢

kuhabe 发表于 2014-4-22 09:35:27

您可以设置 某个标签不得为空,为空则删除。教程 http://faq.locoy.com/q-700.html

我是武大郎 发表于 2014-4-23 19:34:10

原来那个黑屏可以 弄没呀 谢谢
页: [1]
查看完整版本: 采集如何过滤死链接