steptt 发表于 2009-4-2 22:08:08

建议增加标签内容长度过滤功能

建议增加标签内容长度过滤功能,如采集来的文章,如果小于1000字节的话,就丢弃;标题短于10字节就丢弃等

rq204 发表于 2009-4-25 13:14:56

这个你可以在你程序那端控制,程序还是做核心才是对的

费祎 发表于 2010-4-8 16:22:08

顶一个。。这个功能还是挺实用的,很多时候我们采集回来的文章太短,如果在采集那块就杜绝了,未尝不是一件好事

飛越無限 发表于 2010-4-8 18:33:43

如果在采集的时候判断这些采集的速度会大大的下降的,建议采集完了用sql len()函数来判断让内容少的标为以发就行的了

费祎 发表于 2010-4-13 17:39:19

回复 4# 飛越無限

大虾!举个例子说说,怎么写这个sql语句啊?

飛越無限 发表于 2010-4-14 09:02:15

免费版执行了SQL功能

费祎 发表于 2010-4-14 09:29:24

测试成功了,多谢大虾提供思路,我是直接打开数据库改的,大家有什么好方法欢迎提供。。
SELECT LEN(内容) as LengthOf内容,id from Content where len(内容)<800;
先查询出不符合的内容(或标题等)
UPDATE Content SET 已发 = '-1' WHERE len(内容)<800
将这些不符合的内容设置成已发

飛越無限 发表于 2010-4-14 20:27:10

成功了吧。就用我说的len就行的了。这东西要是用收费版就更好操作的了,收费版支持SQL这些语句的。不用每次去打开数据库,直接在任务上面就可以操作的了

费祎 发表于 2010-4-15 08:42:58

火车的管理员真热心!赞一个!
另问:咱们火车头有没有详细的采集日志?从哪里可以看啊?
比如突发停电,我也能从日志里看到任务的进程;比如下班后继续做采集,设置自动关机,第二天过来看采集的情况等。。
谢谢大虾!!

费祎 发表于 2010-4-19 13:10:44

人呢。。。管理员。。。
页: [1] 2
查看完整版本: 建议增加标签内容长度过滤功能