内容的选取。
在源文件中查找帖子内容,找到代码:
<div id="postmessage_31035953" class="t_msgfont">我自己就宅了,省得在外地的女友查岗。</div>
我们会发现,帖子内容是以“<div id="postmessage_31035953" class="t_msgfont">”开始,以“</div>”结束的。
我们按照要求填进去。
在“div id="postmessage_31035953”中,“31035953”是一个变量,我们用通配符替换它。
勾选“在分页中匹配”(目的是采集分页内容。)和“循环匹配”(目的是采集论坛回复)后保存。
分页:
discuz的分页代码,以http://bbs.winzheng.com/viewthread.php?tid=1847610&extra=page%3D3为例:
<div class="pages"><em> 33 </em><strong>1</strong><a href="viewthread.php?tid=1847610&extra=page%3D3&page=2">2</a><a href="viewthread.php?tid=1847610&extra=page%3D3&page=3">3</a><a href="viewthread.php?tid=1847610&extra=page%3D3&page=2" class="next">››</a></div>
这样,开始代码就是:<div class="pages">
结束代码就是:</div>
我们填写到这里:
测试一下:
发布内容设置
进入火车的“发布内容设置”菜单,在方式一部分勾选“启用”;
在在方式一方格部分右键如图操作,添加我们刚才设置的“WEB在线发布配置”之后保存。
开始采集。
在我们刚保存的任务上右键(勾选采网址、采内容、发内容),选择“开始任务采集”。
看看,开始了。
看看采集的效果 :
系统自动更换ID发主题、发回复;并且采集了帖子所有内容。
很长,我得慢慢看
第一次离楼主这么近。
超级的详细哦!珍藏
插件是免费的么??
我来顶一个先