火车采集器|信息数据采集论坛's Archiver

xuanzsheng 发表于 2008-8-10 08:26

采集新手需要注意的问题

我也是采集新手,在论坛上苦苦研究了3天后,终于采集成功并发布到dedecms上了,下面我说下我认为容易忽略的地方。

1、采集地址时,需要写的开始-结束的代码并不是固定的,只要在地址前后的唯一代码都可以写进去,多测试几遍,很容易就能采集到地址。

2、采集内容的时候,尤其是内容标签,看下要采集的网站上的图片地址是不是相对地址,我是用替换规则把相对地址转换称了绝对地址才开始采集的,好像没有这个必要,把“把相对地址补全为绝对地址”那个勾打上好像效果一样的。

排除内容的确比dedecms里面的过滤容易多了,我就是因为这个才投奔火车头的...只要小心些,多实验几遍,这个很容易。

要注意,如果要采集的内容有图片的话,记得要把“下载图片”“下载flash”选择性的勾上。

如果采集的内容有分页的话,在页面内容分页区域那里,全部列出模式-把页面分页部分的前后代码写上 ,确定代码是唯一的,下面的自动识别分页需要写分页内容合并连接代码,dedecms的是 #p# ,别的cms的需要是情况而定,并不完全相同。

标签循环匹配选择第二个,用分隔符连接在上条记录后。在右面输入地址,测试一下,嗯,会成功的。

3、发布内容设置,选择 web在线发布到网站,选择dede的发布模块,在右面的地址上输入dede的管理目录,比如[url=http://www.***.com/dede]http://www.***.com/dede[/url],记得后面不要加“/”,获取列表,如果获取不成功的话,换个“编码设定”选项试试。

4、文件保存及高级设置,要选择文件本地保存文件夹,然后在文件链接地址前缀那里输入你的域名+图片需要放的地方/,比如[url=http://www.****.com/docu/]http://www.****.com/docu/[/url],那么你采集过来的图片显示的链接地址就是以这个开头的。如果你在上面的 ”图片相对保存文件夹“那里写上了 image ,那么你采集过来的图片显示的链接地址就是[url=http://www.****.com/docu/][color=#bc0021][url=http://www.****.com/docu/image/]http://www.****.com/docu/[/color][/url]image/[/url] 这个样子开头的。

好像免费版的不能直接把图片上传到ftp上面,因此你需要自己手动把保存在本地的文件夹里面的图片上传到你定义的服务器的位置,这样图片就可以在网站上显示出来了(这点困惑了我2天)...

好了,基本情况就这样子了,当你苦苦挨了三天之后发现原来事情是这个样子的,霎时间豁然开朗,采集不过区区小事而已...
呵呵,祝大家都能采集成功。

花子 发表于 2008-8-10 09:01

对于新人 很有帮助的

版主 要 好好 支持下楼主

本人也 支持下 :ali12ls

[quote]
说明下 楼主的 第3点应该是  [url=http://www.***.com/]http://www.***.com[/url],获取列表 的 不用/DEDE加上来!
[/quote]

[[i] 本帖最后由 花子 于 2008-8-10 09:05 编辑 [/i]]

xuanzsheng 发表于 2008-8-10 14:03

呃..呵呵,我看论坛上有人说要加,也有人说不用加...
呵呵,成功是最终目的...
第一次发教程贴,就被置顶了,太激动了....:lol

xiongyujie37 发表于 2008-8-21 18:17

我也来给新人打打气,加加油,我也是新人

rexsky 发表于 2008-8-27 10:54

好东西...学习了...


[url=http://www.china-club.net][color=white]网络赚钱[/color][/url]
[url=http://www.iflove99.cn][color=white]如果爱[/color][/url]
[url=http://www.05518.cn][color=white]韩剧在线[/color][/url]
[url=http://www.job183.cn][color=white]兼职网[/color][/url]

zzzhongwei 发表于 2008-8-31 03:31

看了您的心得,收获颇深,我的问题好多天了,也没有解决 。看看楼主能不能帮我解决下
采网址--采集到网址并添入任务数据库:[url]http://www.XXXXXX.com/sf/mir/294.html[/url]
采网址--采集到网址并添入任务数据库:[url]http://www.XXXXXX.com/sf/mir/293.html[/url]
采网址--采集到网址并添入任务数据库:[url]http://www.XXXXXX.com/sf/mir/292.html[/url]
采网址--采集到网址并添入任务数据库:[url]http://www.XXXXXX.com/sf/mir/291.html[/url]
采网址--采集到网址并添入任务数据库:[url]http://www.XXXXXX.com/sf/mir/290.html[/url]
采内容--成功采集内容并更新数据库[url]http://www.XXXXXX.com/sf/mir/339.html[/url]
采内容--成功采集内容并更新数据库[url]http://www.XXXXXX.com/sf/mir/337.html[/url]
采内容--成功采集内容并更新数据库[url]http://www.XXXXXX.com/sf/mir/335.html[/url]
采内容--成功采集内容并更新数据库[url]http://www.XXXXXX.com/sf/mir/292.html[/url]
采内容--成功采集内容并更新数据库[url]http://www.XXXXXX.com/sf/mir/290.html[/url]
发内容--WEB发布错误,返回代码请查看:File:///D:\soft\火车头\Data\2-传奇\WebError.log
发内容--WEB发布是否成功未知,请到网站查看:传奇3的装备元素资料
发内容--WEB发布是否成功未知,请到网站查看:
发内容--WEB发布是否成功未知,请到网站查看:领风M2地图参数标志
发内容--WEB发布是否成功未知,请到网站查看:
发内容--WEB发布是否成功未知,请到网站查看:
发内容--WEB发布是否成功未知,请到网站查看:传奇GM命令转化为脚本命令设置
发内容--WEB发布是否成功未知,请到网站查看:传奇普通怪物会技能类型
发内容--WEB发布是否成功未知,请到网站查看:传奇在线银行元宝冲值后的领取脚本

说明一下,我用的是火车头3.2 标准版,sp5, 测试采集成功,成功采集内容并更新数据库
我测试的文章也能成功
但是就是发布不到网站里。。。。请大家帮助。好多天了
再做不好,我就要生病了
WebError.log里的内容我看了下,说是我没有登陆,但是我测试过,确实是登陆进去的。
两种WEB发布方式都试了,还是不行
楼主朋友愿意帮我远程看下么,感谢。。。。。。

wzf 发表于 2008-9-2 19:54

顶一下顶顶顶

wormwood 发表于 2008-9-17 15:10

支持,支持。顶一下。

vrstar 发表于 2008-10-16 00:31

我是新手,帮忙顶一下,

网址之家 发表于 2008-10-27 16:13

“把相对地址补全为绝对地址”
这个功能在哪里呢??、

fsl2008 发表于 2008-11-10 17:09

楼主很热心哦,我这个新手也支持你一下:ali11ls  .

hjsh7766 发表于 2008-11-15 14:50

我也是新手,帮忙顶一下了:lol :lol

kevin149 发表于 2008-11-17 10:16

我也是新手为什么会出现获取列表 格式不符的字样,快疯了,请求大家帮忙解答一下。。。。

bullet1981 发表于 2008-11-24 17:10

**** 该帖被屏蔽 ****

shayajin 发表于 2008-12-2 15:06

不错哦,LZ,懂得分享的人不错

不错哦,LZ,懂得分享的人不错

xiangranfs 发表于 2008-12-16 20:44

我也是新手 顶你一下

888mark 发表于 2008-12-21 07:13

完全按照楼主做的。采集内容都显示正常,测试帖子也发布正常,但就是正式发布失败,或者提示发布完成,但网上什么也没有。已经好几天了,一点结果都没有。请问哪位能帮助啊。

walkman12 发表于 2008-12-24 20:18

学习学习 感觉这网站好像被挂马了

识字农夫 发表于 2008-12-24 21:03

[b] [url=http://bbs.locoy.com/redirect.php?goto=findpost&pid=152654&ptid=28987]6#[/url] [i]zzzhongwei[/i] [/b]
遇到的问题和你的一样

yinguohua 发表于 2008-12-26 14:14

绝对有帮助

谢谢咯

页: [1] 2
联系电话:0551-2864156-606(业务咨询) 0551-2864156-604(开发+定制服务) 0551-2864156-603(市场-合作)
客服QQ:   火车采集器wendy  火车头采集器 小王  火车采集器客服 小季  火车头采集器客服 孤魂  飛越無限

Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.