新手,刚开始用火车,问两个小问题,望高手赐教
1,我建立了规则,然后试着采集了一些页面,然后“本地编辑任务采集数据”,发现有些数据没有采集好,于是双击任务修改了一下规则,准备重新再采一次,但是程序总是提示说采集1级网址-重复网址,排除。。请问我要重新采集这些地址相同的页面,该如何设置?
2,比如我要采集的一段内容,是每句一行,在看源码时就有<br/>这样的换行符,如果我想要让采集到的该段信息在将来发布时同样是每句一行,那么我是该保留这种<br/>的换行符还是在规则里过滤掉这<br/>或是将<br/>替换成回车? 1的话,应该是直接右键点你的任务,选择清空任务所有本地采集数据,再选择清空该任务地址库
2的话,没试过,你可以试试嘛 2。一般 保留这种<br/>的换行符 就行。当然具体也要看你的网站系统了。 应该保留<br>吧。。。。 1.清空地址库和数据
2.保留就可以了
页:
[1]