建议增加标签内容长度过滤功能
建议增加标签内容长度过滤功能,如采集来的文章,如果小于1000字节的话,就丢弃;标题短于10字节就丢弃等 这个你可以在你程序那端控制,程序还是做核心才是对的 顶一个。。这个功能还是挺实用的,很多时候我们采集回来的文章太短,如果在采集那块就杜绝了,未尝不是一件好事 如果在采集的时候判断这些采集的速度会大大的下降的,建议采集完了用sql len()函数来判断让内容少的标为以发就行的了 回复 4# 飛越無限大虾!举个例子说说,怎么写这个sql语句啊? 免费版执行了SQL功能 测试成功了,多谢大虾提供思路,我是直接打开数据库改的,大家有什么好方法欢迎提供。。
SELECT LEN(内容) as LengthOf内容,id from Content where len(内容)<800;
先查询出不符合的内容(或标题等)
UPDATE Content SET 已发 = '-1' WHERE len(内容)<800
将这些不符合的内容设置成已发 成功了吧。就用我说的len就行的了。这东西要是用收费版就更好操作的了,收费版支持SQL这些语句的。不用每次去打开数据库,直接在任务上面就可以操作的了 火车的管理员真热心!赞一个!
另问:咱们火车头有没有详细的采集日志?从哪里可以看啊?
比如突发停电,我也能从日志里看到任务的进程;比如下班后继续做采集,设置自动关机,第二天过来看采集的情况等。。
谢谢大虾!! 人呢。。。管理员。。。
页:
[1]
2