发新话题
打印

1.20版本之手工导入导出规则

1.20版本之手工导入导出规则

发现1.20版没有设置导入导出功能,采集的网址太多了看起来都头疼,所以想到了一个简单的方法,见2楼

[ 本帖最后由 failurewu 于 2006-3-18 13:05 编辑 ]
本帖最近评分记录

TOP

发现1.20虽然不可以导入导出,但可以手工备份
即目录下的urldata文件,格式为:
复制内容到剪贴板
代码:
<?xml version="1.0" encoding="utf-8"?>
<!--Rainsoft XML Config / Copyright (c) 2004,2005 RainTrail Studio.China-->
<!--Created by LocoySpider.exe! 2005-11-02 20:13:04-->
<config>
  <采集名称>
        <全部网址>
              http://www.xxxxx.com/3985.htm
              http://www.xxxxx.com/3986.htm
              http://www.xxxxx.com/3987.htm
      </全部网址>
    </采集名称>
</config>

TOP

其次发现采集二级链接时候如果网址中有中文字符,则会出现乱码,不能采集,这时候你可以打开urldata文件进行批量替换,如果数目比较多的话建议复制到word文档中进行批量替换,记事本的速度不怎么快,批量替换完毕后一般可以采集入库

TOP

今天来了性质顺便发个比较牛的规则,新建了一个通用规则,题目中没有什么,但内容中要排除如下字符
复制内容到剪贴板
代码:
<div (*)>
<Script (*)>(*)</Script>
<Font (*)>
<table >
<span >
<?  (*)>
……………………
等等与格式明显有关的标志
也可以把</p>替换成<br>
这样感觉要好一些

[ 本帖最后由 failurewu 于 2006-3-18 03:34 编辑 ]

TOP

建议采集的时候不要一次采的太多,一般1000左右就可以了,多的分几次,不然很麻烦
我是做英语网站的,有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受,敬请批评指正,呵呵。

TOP

欢迎啊!!!能多发些上来吗?

TOP

欢迎啊!!!能多发些上来吗?

TOP

引用:
原帖由 failurewu 于 2006-3-18 03:37 发表
建议采集的时候不要一次采的太多,一般1000左右就可以了,多的分几次,不然很麻烦
我是做英语网站的,有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受,敬请批评指正,呵呵。
谢谢  正想要英文站点啊

TOP

复杂

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.198410 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-9-5 14:47 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档