采集内容返回为空怎么过滤掉呢?
比如我采集http://123456.com/show.php?id=1111
http://123456.com/show.php?id=2222
id=1111这个地址是没有内容的,但是网页不报错也不返回404页面,就是一个空页面
id=2222这个地址是有内容的。
这样在采集的时候1111这个页面还是能够采集到。当然就能发布出去了。但是内容是为空的。。。。。
这个怎么解决呢??? 比如我采集
http://123456.com/show.php?id=1111
http://123456.com/show.php?id=2222
id=1111这个地址是没有内容的,但是网页不报错也不返回404页面,就是一个空页面
id=2222这个地址是有内容的。
这样在采集的时候1111这个页面还是能够采集到。当然就能发布出去了。但是内容是为空的。。。。。
什么?
1111这个页面不是没有内容吗?》
你还怎么采集的到?
如果你说的是列表页
那就在文章内容页面必须包含 旁边的不得包含 里面填写1111
这样有1111这个四个数字 就不可以采集 id=1111 内容标签不得为空,勾上
页:
[1]