yang.y.xu 发表于 2012-11-25 10:34:12

抓取的数据校验规则 - 新手火车“司机”求助

昨天扒的数据里面发现有些明显的错误(404错误,目标网站反扒加入的胡乱的内容),其实这些数据在收集的时候都可以明显判断(例如某个标签的数据为空),不知道火车头能否支持这样的逻辑判断?
1. 基于规则的采集成功与否的判断
2. 如果未成功不写入结果数据库
3. 如果未成功不在组曲网址列表中删除该网址

有谁知道如何解决这个问题?多谢了!新手上路需要指导!万分感谢!

303718 发表于 2012-11-25 11:20:28

你可以在标签里设置该标签不得为空就行了

yang.y.xu 发表于 2012-11-25 15:39:04

303718 发表于 2012-11-25 11:20 static/image/common/back.gif
你可以在标签里设置该标签不得为空就行了

看到了,兄弟你太伟大了!
页: [1]
查看完整版本: 抓取的数据校验规则 - 新手火车“司机”求助