火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 31478|回复: 31

采集新手需要注意的问题

[复制链接]
发表于 2008-8-10 08:26:49 | 显示全部楼层 |阅读模式
我也是采集新手,在论坛上苦苦研究了3天后,终于采集成功并发布到dedecms上了,下面我说下我认为容易忽略的地方。

1、采集地址时,需要写的开始-结束的代码并不是固定的,只要在地址前后的唯一代码都可以写进去,多测试几遍,很容易就能采集到地址。

2、采集内容的时候,尤其是内容标签,看下要采集的网站上的图片地址是不是相对地址,我是用替换规则把相对地址转换称了绝对地址才开始采集的,好像没有这个必要,把“把相对地址补全为绝对地址”那个勾打上好像效果一样的。

排除内容的确比dedecms里面的过滤容易多了,我就是因为这个才投奔火车头的...只要小心些,多实验几遍,这个很容易。

要注意,如果要采集的内容有图片的话,记得要把“下载图片”“下载flash”选择性的勾上。

如果采集的内容有分页的话,在页面内容分页区域那里,全部列出模式-把页面分页部分的前后代码写上 ,确定代码是唯一的,下面的自动识别分页需要写分页内容合并连接代码,dedecms的是 #p# ,别的cms的需要是情况而定,并不完全相同。

标签循环匹配选择第二个,用分隔符连接在上条记录后。在右面输入地址,测试一下,嗯,会成功的。

3、发布内容设置,选择 web在线发布到网站,选择dede的发布模块,在右面的地址上输入dede的管理目录,比如http://www.***.com/dede,记得后面不要加“/”,获取列表,如果获取不成功的话,换个“编码设定”选项试试。

4、文件保存及高级设置,要选择文件本地保存文件夹,然后在文件链接地址前缀那里输入你的域名+图片需要放的地方/,比如http://www.****.com/docu/,那么你采集过来的图片显示的链接地址就是以这个开头的。如果你在上面的 ”图片相对保存文件夹“那里写上了 image ,那么你采集过来的图片显示的链接地址就是[url=http://www.****.com/docu/image/]http://www.****.com/docu/image/[/url] 这个样子开头的。

好像免费版的不能直接把图片上传到ftp上面,因此你需要自己手动把保存在本地的文件夹里面的图片上传到你定义的服务器的位置,这样图片就可以在网站上显示出来了(这点困惑了我2天)...

好了,基本情况就这样子了,当你苦苦挨了三天之后发现原来事情是这个样子的,霎时间豁然开朗,采集不过区区小事而已...
呵呵,祝大家都能采集成功。

评分

1

查看全部评分

发表于 2008-8-10 09:01:26 | 显示全部楼层
对于新人 很有帮助的

版主 要 好好 支持下楼主

本人也 支持下


说明下 楼主的 第3点应该是  http://www.***.com,获取列表 的 不用/DEDE加上来!

[ 本帖最后由 花子 于 2008-8-10 09:05 编辑 ]
 楼主| 发表于 2008-8-10 14:03:09 | 显示全部楼层
呃..呵呵,我看论坛上有人说要加,也有人说不用加...
呵呵,成功是最终目的...
第一次发教程贴,就被置顶了,太激动了....
发表于 2008-8-21 18:17:03 | 显示全部楼层
我也来给新人打打气,加加油,我也是新人
发表于 2008-8-27 10:54:34 | 显示全部楼层
好东西...学习了...


网络赚钱
如果爱
韩剧在线
兼职网
发表于 2008-8-31 03:31:32 | 显示全部楼层
看了您的心得,收获颇深,我的问题好多天了,也没有解决 。看看楼主能不能帮我解决下
采网址--采集到网址并添入任务数据库:http://www.XXXXXX.com/sf/mir/294.html
采网址--采集到网址并添入任务数据库:http://www.XXXXXX.com/sf/mir/293.html
采网址--采集到网址并添入任务数据库:http://www.XXXXXX.com/sf/mir/292.html
采网址--采集到网址并添入任务数据库:http://www.XXXXXX.com/sf/mir/291.html
采网址--采集到网址并添入任务数据库:http://www.XXXXXX.com/sf/mir/290.html
采内容--成功采集内容并更新数据库http://www.XXXXXX.com/sf/mir/339.html
采内容--成功采集内容并更新数据库http://www.XXXXXX.com/sf/mir/337.html
采内容--成功采集内容并更新数据库http://www.XXXXXX.com/sf/mir/335.html
采内容--成功采集内容并更新数据库http://www.XXXXXX.com/sf/mir/292.html
采内容--成功采集内容并更新数据库http://www.XXXXXX.com/sf/mir/290.html
发内容--WEB发布错误,返回代码请查看:File:///D:\soft\火车头\Data\2-传奇\WebError.log
发内容--WEB发布是否成功未知,请到网站查看:传奇3的装备元素资料
发内容--WEB发布是否成功未知,请到网站查看:
发内容--WEB发布是否成功未知,请到网站查看:领风M2地图参数标志
发内容--WEB发布是否成功未知,请到网站查看:
发内容--WEB发布是否成功未知,请到网站查看:
发内容--WEB发布是否成功未知,请到网站查看:传奇GM命令转化为脚本命令设置
发内容--WEB发布是否成功未知,请到网站查看:传奇普通怪物会技能类型
发内容--WEB发布是否成功未知,请到网站查看:传奇在线银行元宝冲值后的领取脚本

说明一下,我用的是火车头3.2 标准版,sp5, 测试采集成功,成功采集内容并更新数据库
我测试的文章也能成功
但是就是发布不到网站里。。。。请大家帮助。好多天了
再做不好,我就要生病了
WebError.log里的内容我看了下,说是我没有登陆,但是我测试过,确实是登陆进去的。
两种WEB发布方式都试了,还是不行
楼主朋友愿意帮我远程看下么,感谢。。。。。。
发表于 2008-9-2 19:54:25 | 显示全部楼层
顶一下顶顶顶
发表于 2008-9-17 15:10:45 | 显示全部楼层
支持,支持。顶一下。
发表于 2008-10-16 00:31:50 | 显示全部楼层
我是新手,帮忙顶一下,
发表于 2008-10-27 16:13:53 | 显示全部楼层
“把相对地址补全为绝对地址”
这个功能在哪里呢??、
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-6 09:56

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表