天涯社区采集规则
哪位高手把这个天涯社区采集规则做成.ljob文件吧方便大家谢谢!<天涯社区>
<标签1 标签名="标题" 开始字符串="</font></a>』" 结束字符串="</font>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签4 标签名="时间" 开始字符串="提交日期:" 结束字符串="</font>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签5 标签名="内容" 开始字符串="<DIV class=content style="WORD-WRAP:break-word">" 结束字符串="<br><TABLE cellspacing=0 border=0 bgcolor=f5f9fa width=100% >" 内容排除="<TABLE cellspacing=0 border=0(*)<script language="javascript">" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
<分页设置 形式="全部" 分页开始="" 分页结束="" />
<分页合并 形式="回车" 分页代码="#p#" />
<内容循环 次数="1" 测试页面="http://www.tianya.cn/new/publicforum/content.asp?idarticle= 240011&stritem=no01&idwriter=0&key=0&flag=1" />
<源站编码 编码="Default" />
</天涯社区>
你搞什么的?
怎么做的? heihei 哪个高手坐出来分享下啊 嘿嘿 没人做吗?高手做一下呀
高手做一下呀
页:
[1]