火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4916|回复: 2

如何采集天涯社区

[复制链接]
发表于 2006-5-10 15:53:54 | 显示全部楼层 |阅读模式
天涯社区的贴子采用第一贴,接着是回贴的形式,比较难用一个标准去采集。。。谁有解决方案。。。交流一下
发表于 2006-5-14 16:41:11 | 显示全部楼层
<天涯社区>
    <标签1 标签名="标题" 开始字符串="&lt;/font&gt;&lt;/a&gt;』" 结束字符串="&lt;/font&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="提交日期:" 结束字符串="&lt;/font&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;DIV class=content style=&quot;WORD-WRAP:break-word&quot;&gt;" 结束字符串="&lt;br&gt;&lt;TABLE cellspacing=0 border=0 bgcolor=f5f9fa width=100% &gt;" 内容排除="&lt;TABLE cellspacing=0 border=0(*)&lt;script language=&quot;javascript&quot;&gt;" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://www.tianya.cn/new/publicforum/content.asp?idarticle=240011&amp;stritem=no01&amp;idwriter=0&amp;key=0&amp;flag=1" />
    <源站编码 编码="Default" />
  </天涯社区>
发表于 2006-9-13 12:27:55 | 显示全部楼层
谢谢,拿去研究去了。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-6-12 00:27

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表