DZ采集遇到几个问题,看您可以帮忙解决吗?++++++++++++++++++++
遇到几个问题,看大虾们有办法解决没?1,分楼层回复:
全部回复都在1楼,所有帖子都只有LZ的一楼。不存在回复的帖子。
这里,已经用 |||连接字串隔开。
2,采集回来的帖子,里面字体的属性全部没有采集到。
问题的表现形式如下:
<font face="Verdana ">更多精彩内容请关注:<br />
这里,已经确认,在规则中,已经将“HTML标签排除”里面的钩,全部去除,但,问题还是依旧。
3,采集的帖子里面,多了很多的DIV。
问题的表现形式如下:
</div>
</div>
这里,我的规则,是安装下面链接的教程帖子编写的,自己的中间的操作步骤没有出错。
教程:http://www.locoy.com/document/vus520/a.html
4,图片下载不了。
对方论坛里面的地址如下,例如:/aaa/bbb/123.jpg
如果,我需要采集的话,是不是需要将地址不出完整即可下载到我的论坛里面去?(www.abc.com/aaa/bbb/123.jpg
)具体在什么地方进行完善修改图片地址?
--------------------------------------------------------------------
暂时问题有以上几个,您看一下,您能帮小弟解决几个吗?
[ 本帖最后由 leon215 于 2008-11-17 13:36 编辑 ] 1.这个需要使用接口.
2.检查一下本地的任务数据库,看是否采到.如采到了,那就是dz给过滤了.
3.你需要过滤掉不要的代码.
4.下载只需选下载图片和设置保存路径,具体可以参见手册. 恩,感谢rq204大大,我再好好对照,检查检查!
[ 本帖最后由 leon215 于 2008-11-17 15:09 编辑 ] rq204大大,我处理了一下问题,有了如下结果:
1,已经解决
2,任务数据库,需要怎么看?是不是火车头文件夹下面的“Data”文件夹?在这个文件夹下面,我找到了我的采集任务。 您说的那个“DZ给过滤掉了”,那需要怎么设置,或者怎么弄才能回复呢?
3,不需要的代码是过滤掉了,但效果不是很理想。
4,手册的CHM文件已经失效,页面全部打不开。
---------------------------------------------
再次召唤rq204大大~~ 3.选择"HTML标签排除"勾选层DIV 即可去掉 <P> 一、缺陷的分类 </P>
<P> 如果经检测发现某个硬盘不能完全正常工作,则称这个硬盘是“有缺陷的硬盘”(Defect Hard Disk)。 </P>
<P> 根据维修经验,笔者将硬盘的缺陷分为六大类 </P>
<P> ①坏扇区(Bad sector),也称缺陷扇区(Defect sector) <BR> ②磁道伺服缺陷(Track Servo defect)? <BR> ③磁头组件缺陷(Heads assembly defect) <BR> ④系统信息错乱(Service information destruction) <BR> ⑤电子线路缺陷(The board of electronics defect) <BR> ⑥综合性能缺陷(Complex reliability defect) </P>
<P> 1.坏扇区(也称缺陷扇区) </P> <P> 一、缺陷的分类 </P>
<P> 如果经检测发现某个硬盘不能完全正常工作,则称这个硬盘是“有缺陷的硬盘”(Defect Hard Disk)。 </P>
<P> 根据维修经验,笔者将硬盘的缺陷分为六大类 </P>
<P> ①坏扇区(Bad sector),也称缺陷扇区(Defect sector) <BR> ②磁道伺服缺陷(Track Servo defect)? <BR> ③磁头组件缺陷(Heads assembly defect) <BR> ④系统信息错乱(Service information destruction) <BR> ⑤电子线路缺陷(The board of electronics defect) <BR> ⑥综合性能缺陷(Complex reliability defect) </P>
<P> 1.坏扇区(也称缺陷扇区) </P>
页:
[1]