ricemi.cn 发表于 2006-5-10 15:53:54

如何采集天涯社区

天涯社区的贴子采用第一贴,接着是回贴的形式,比较难用一个标准去采集。。。谁有解决方案。。。交流一下

星雨 发表于 2006-5-14 16:41:11

<天涯社区>
    <标签1 标签名="标题" 开始字符串="&lt;/font&gt;&lt;/a&gt;』" 结束字符串="&lt;/font&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="提交日期:" 结束字符串="&lt;/font&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;DIV class=content style=&quot;WORD-WRAP:break-word&quot;&gt;" 结束字符串="&lt;br&gt;&lt;TABLE cellspacing=0 border=0 bgcolor=f5f9fa width=100% &gt;" 内容排除="&lt;TABLE cellspacing=0 border=0(*)&lt;script language=&quot;javascript&quot;&gt;" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://www.tianya.cn/new/publicforum/content.asp?idarticle=240011&amp;stritem=no01&amp;idwriter=0&amp;key=0&amp;flag=1" />
    <源站编码 编码="Default" />
</天涯社区>

、海海、 发表于 2006-9-13 12:27:55

谢谢,拿去研究去了。
页: [1]
查看完整版本: 如何采集天涯社区