bd540 发表于 2008-12-25 12:19:17

内容的选取。
在源文件中查找帖子内容,找到代码:
<div id="postmessage_31035953" class="t_msgfont">我自己就宅了,省得在外地的女友查岗。</div>
我们会发现,帖子内容是以“<div id="postmessage_31035953" class="t_msgfont">”开始,以“</div>”结束的。
我们按照要求填进去。
在“div id="postmessage_31035953”中,“31035953”是一个变量,我们用通配符替换它。







勾选“在分页中匹配”(目的是采集分页内容。)和“循环匹配”(目的是采集论坛回复)后保存。

bd540 发表于 2008-12-25 12:20:28

分页:
discuz的分页代码,以http://bbs.winzheng.com/viewthread.php?tid=1847610&extra=page%3D3为例:
<div class="pages"><em> 33 </em><strong>1</strong><a href="viewthread.php?tid=1847610&extra=page%3D3&page=2">2</a><a href="viewthread.php?tid=1847610&extra=page%3D3&page=3">3</a><a href="viewthread.php?tid=1847610&extra=page%3D3&page=2" class="next">››</a></div>
这样,开始代码就是:<div class="pages">
结束代码就是:</div>
我们填写到这里:


测试一下:

bd540 发表于 2008-12-25 12:22:31

发布内容设置

进入火车的“发布内容设置”菜单,在方式一部分勾选“启用”;


在在方式一方格部分右键如图操作,添加我们刚才设置的“WEB在线发布配置”之后保存。




bd540 发表于 2008-12-25 12:24:22

开始采集。
在我们刚保存的任务上右键(勾选采网址、采内容、发内容),选择“开始任务采集”。


看看,开始了。


bd540 发表于 2008-12-25 12:25:55

看看采集的效果 :
系统自动更换ID发主题、发回复;并且采集了帖子所有内容。

pkoson 发表于 2008-12-25 16:47:55

很长,我得慢慢看

snifferqq 发表于 2008-12-25 17:42:28

第一次离楼主这么近。

zae 发表于 2008-12-25 17:51:03

超级的详细哦!珍藏

airstone 发表于 2008-12-25 20:25:54

插件是免费的么??

zhongcn 发表于 2008-12-25 20:49:32

我来顶一个先
页: 1 [2] 3 4 5 6 7 8 9 10 11
查看完整版本: 火车头采集数据到discuz论坛详细图文教程