1.20版本之手工导入导出规则
发现1.20版没有设置导入导出功能,采集的网址太多了看起来都头疼,所以想到了一个简单的方法,见2楼[ 本帖最后由 failurewu 于 2006-3-18 13:05 编辑 ] 发现1.20虽然不可以导入导出,但可以手工备份
即目录下的urldata文件,格式为:
<?xml version="1.0" encoding="utf-8"?>
<!--Rainsoft XML Config / Copyright (c) 2004,2005 RainTrail Studio.China-->
<!--Created by LocoySpider.exe! 2005-11-02 20:13:04-->
<config>
<采集名称>
<全部网址>
http://www.xxxxx.com/3985.htm
http://www.xxxxx.com/3986.htm
http://www.xxxxx.com/3987.htm
</全部网址>
</采集名称>
</config>
其次发现采集二级链接时候如果网址中有中文字符,则会出现乱码,不能采集,这时候你可以打开urldata文件进行批量替换,如果数目比较多的话建议复制到word文档中进行批量替换,记事本的速度不怎么快,批量替换完毕后一般可以采集入库 今天来了性质顺便发个比较牛的规则,新建了一个通用规则,题目中没有什么,但内容中要排除如下字符
<div (*)>
<Script (*)>(*)</Script>
<Font (*)>
<table >
<span >
<?(*)>
……………………
等等与格式明显有关的标志
也可以把</p>替换成<br>
这样感觉要好一些
[ 本帖最后由 failurewu 于 2006-3-18 03:34 编辑 ] 建议采集的时候不要一次采的太多,一般1000左右就可以了,多的分几次,不然很麻烦
我是做英语网站的,有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受,敬请批评指正,呵呵。 欢迎啊!!!能多发些上来吗? 欢迎啊!!!能多发些上来吗? 原帖由 failurewu 于 2006-3-18 03:37 发表
建议采集的时候不要一次采的太多,一般1000左右就可以了,多的分几次,不然很麻烦
我是做英语网站的,有人需要的话可以把一些规则传上上来。
以上是使用火车头的一点感受,敬请批评指正,呵呵。
谢谢正想要英文站点啊 复杂
页:
[1]