1.20版本之手工导入导出规则

failurewu 发表于 2006-3-15 15:05:55

发现1.20版没有设置导入导出功能，采集的网址太多了看起来都头疼，所以想到了一个简单的方法，见2楼

[ 本帖最后由 failurewu 于 2006-3-18 13:05 编辑 ]

failurewu 发表于 2006-3-18 03:21:15

发现1.20虽然不可以导入导出，但可以手工备份
即目录下的urldata文件，格式为：

<?xml version="1.0" encoding="utf-8"?>


<config>
<采集名称>
   <全部网址>
         http://www.xxxxx.com/3985.htm
         http://www.xxxxx.com/3986.htm
         http://www.xxxxx.com/3987.htm
   </全部网址>
</采集名称>
</config>

failurewu 发表于 2006-3-18 03:25:21

其次发现采集二级链接时候如果网址中有中文字符，则会出现乱码，不能采集，这时候你可以打开urldata文件进行批量替换，如果数目比较多的话建议复制到word文档中进行批量替换，记事本的速度不怎么快，批量替换完毕后一般可以采集入库

failurewu 发表于 2006-3-18 03:29:37

今天来了性质顺便发个比较牛的规则，新建了一个通用规则，题目中没有什么，但内容中要排除如下字符

<div (*)>
<Script (*)>(*)</Script>
<Font (*)>
<table >
<span >
<?(*)>
……………………

等等与格式明显有关的标志
也可以把</p>替换成<br>
这样感觉要好一些

[ 本帖最后由 failurewu 于 2006-3-18 03:34 编辑 ]

failurewu 发表于 2006-3-18 03:37:07

建议采集的时候不要一次采的太多，一般1000左右就可以了，多的分几次，不然很麻烦
我是做英语网站的，有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受，敬请批评指正，呵呵。

netdream 发表于 2006-3-18 09:21:39

欢迎啊!!!能多发些上来吗？

netdream 发表于 2006-3-18 09:21:57

欢迎啊!!!能多发些上来吗？

coolwei888 发表于 2006-3-21 19:11:56

原帖由 failurewu 于 2006-3-18 03:37 发表
建议采集的时候不要一次采的太多，一般1000左右就可以了，多的分几次，不然很麻烦
我是做英语网站的，有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受，敬请批评指正，呵呵。

谢谢正想要英文站点啊

ltw1008 发表于 2006-3-25 19:12:46

复杂

页: [1]

火车采集器软件交流官方论坛's Archiver

1.20版本之手工导入导出规则