如何采集天涯社区
天涯社区的贴子采用第一贴,接着是回贴的形式,比较难用一个标准去采集。。。谁有解决方案。。。交流一下 <天涯社区><标签1 标签名="标题" 开始字符串="</font></a>』" 结束字符串="</font>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签4 标签名="时间" 开始字符串="提交日期:" 结束字符串="</font>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签5 标签名="内容" 开始字符串="<DIV class=content style="WORD-WRAP:break-word">" 结束字符串="<br><TABLE cellspacing=0 border=0 bgcolor=f5f9fa width=100% >" 内容排除="<TABLE cellspacing=0 border=0(*)<script language="javascript">" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
<分页设置 形式="全部" 分页开始="" 分页结束="" />
<分页合并 形式="回车" 分页代码="#p#" />
<内容循环 次数="1" 测试页面="http://www.tianya.cn/new/publicforum/content.asp?idarticle=240011&stritem=no01&idwriter=0&key=0&flag=1" />
<源站编码 编码="Default" />
</天涯社区> 谢谢,拿去研究去了。
页:
[1]