绕了一大圈,终于搞定了。火车还是有潜力可挖呀!
为方便遇到同样问题的兄弟,把思路提供出来。
火车有个全局设置功能,可以把标题或内容为空的页面过滤掉。就用这个功能!
1、先把原来的采集标签“标题”改成其他名称,如“题目”。记得在发布模块那里也要对应的改过来。
2、新建一个“标题”标签。规则可以参考“内容”标签,但要排除掉绝大部分内容,只留几个字或代码。否则等会发布的时候,火车界面“发内容--WEB发布成功:”后面跟一长窜可别怪我。
3、关键是,当页面中包含“<a href=xxxl'>上一页</a>”时,要把“标题”标签的内容全部排除掉,让“标题”为空。这条规则要放在内容排除的最上面,因为规则是一条一条顺序执行的。很多人排除规则写得不对,就是没考虑顺序,或者说没去想上面一条规则已经排除掉的内容,在下条规则执行时已经不存在了。
4、附上顶楼那条新闻的“标题”标签规则
开始:<!--正文内容开始-->(*)<div class="artibody"
结束:<!--发表评论开始-->
内容排除一:id="artibody"(*)_function_code_page(*)<a(*)>上一页(*)<!--关于内容的操作开始-->
内容排除二:id="artibody"(*)<!--正文内容结束-->(*)</div>
正常页面,标题只留下“<!--关于内容的操作开始-->”这几个字。如果该页面是某条新闻的分页,则“标题”标签为空,火车会将其过滤。
这并不会影响到该条新闻及其分页的采集,只是防止了重复的采集。
[
本帖最后由 madaha 于 2008-6-6 21:58 编辑 ]