火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7630|回复: 11

建议增加标签内容长度过滤功能

[复制链接]
发表于 2009-4-2 22:08:08 | 显示全部楼层 |阅读模式
建议增加标签内容长度过滤功能,如采集来的文章,如果小于1000字节的话,就丢弃;标题短于10字节就丢弃等
发表于 2009-4-25 13:14:56 | 显示全部楼层
这个你可以在你程序那端控制,程序还是做核心才是对的
发表于 2010-4-8 16:22:08 | 显示全部楼层
顶一个。。这个功能还是挺实用的,很多时候我们采集回来的文章太短,如果在采集那块就杜绝了,未尝不是一件好事
发表于 2010-4-8 18:33:43 | 显示全部楼层
如果在采集的时候判断这些采集的速度会大大的下降的,建议采集完了用sql len()函数来判断让内容少的标为以发就行的了
发表于 2010-4-13 17:39:19 | 显示全部楼层
回复 4# 飛越無限

大虾!举个例子说说,怎么写这个sql语句啊?
发表于 2010-4-14 09:02:15 | 显示全部楼层
免费版执行了SQL功能
发表于 2010-4-14 09:29:24 | 显示全部楼层
测试成功了,多谢大虾提供思路,我是直接打开数据库改的,大家有什么好方法欢迎提供。。
SELECT LEN(内容) as LengthOf内容,id from Content where len(内容)<800;
  先查询出不符合的内容(或标题等)
UPDATE Content SET 已发 = '-1' WHERE len(内容)<800
  将这些不符合的内容设置成已发
发表于 2010-4-14 20:27:10 | 显示全部楼层
成功了吧。就用我说的len就行的了。这东西要是用收费版就更好操作的了,收费版支持SQL这些语句的。不用每次去打开数据库,直接在任务上面就可以操作的了
发表于 2010-4-15 08:42:58 | 显示全部楼层
火车的管理员真热心!赞一个!
另问:咱们火车头有没有详细的采集日志?从哪里可以看啊?
比如突发停电,我也能从日志里看到任务的进程;比如下班后继续做采集,设置自动关机,第二天过来看采集的情况等。。
谢谢大虾!!
发表于 2010-4-19 13:10:44 | 显示全部楼层
人呢。。。管理员。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 22:13

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表