jasking23 发表于 2008-6-30 18:49:30

天涯社区采集规则

哪位高手把这个天涯社区采集规则做成.ljob文件吧方便大家谢谢!

<天涯社区>
    <标签1 标签名="标题" 开始字符串="</font></a>』" 结束字符串="</font>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="提交日期:" 结束字符串="</font>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="<DIV class=content style="WORD-WRAP:break-word">" 结束字符串="<br><TABLE cellspacing=0 border=0 bgcolor=f5f9fa width=100% >" 内容排除="<TABLE cellspacing=0 border=0(*)<script language="javascript">" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签6 标签名="" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="" 连接中必须包含="" 连接中不得包含="" 探测真实地址="" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://www.tianya.cn/new/publicforum/content.asp?idarticle= 240011&stritem=no01&idwriter=0&key=0&flag=1" />
    <源站编码 编码="Default" />
</天涯社区>

qqriz 发表于 2008-7-6 16:15:02

你搞什么的?

怎么做的?

woniu778 发表于 2008-7-13 00:29:17

heihei 哪个高手坐出来分享下啊 嘿嘿

jasking23 发表于 2008-7-22 16:49:48

没人做吗?

glaer 发表于 2008-8-1 10:58:04

高手做一下呀

高手做一下呀
页: [1]
查看完整版本: 天涯社区采集规则