shaoly518 发表于 2016-5-3 11:30:56

提取规则不太懂,请指教下

本帖最后由 shaoly518 于 2016-5-3 11:36 编辑

我想采取一个论坛,下面的代码是一个列表页下的其中一个标题的链接
<td><a title="热门主题" href="read-htm-tid-657893-orderway-postdate-asc-DESC.html" target="_blank"><img src=
我写成
<td><a title=(*) href="read-htm-tid-[参数]-orderway-postdate-asc-DESC.html" target="_blank"><img src=


不知道这样写到底哪不对,测试时根本就采不到标题链接
请高手指教一下

303718 发表于 2016-5-3 11:40:33

这样试试href="read-htm-tid-[参数]-

js2016 发表于 2016-5-3 14:15:03

提取规则只要有较强特征就行(不会少采,也不至于多采)
你这个提取规则可以是
<td><a title=(*) href="read-htm-tid-[参数]-orderway-postdate-asc-DESC.html"
然后还要拼接地址,就是获得这个链接的全址。我也不知道你这个链接的全址是什么,假设是
http://www.baidu.com/read-htm-tid-657893-orderway-postdate-asc-DESC.html,那你的拼接地址就写
http://www.baidu.com/read-htm-tid-[参数1]-orderway-postdate-asc-DESC.html

shaoly518 发表于 2016-5-3 17:02:27

没用啊,其它工具用同一条代码可以完整的匹配出来,火车头就不行,不知道什么原因

shaoly518 发表于 2016-5-3 19:55:51

js2016 发表于 2016-5-3 14:15
提取规则只要有较强特征就行(不会少采,也不至于多采)
你这个提取规则可以是
...

不是拼接的问题,,而是提取不到参数内的数值

js2016 发表于 2016-5-3 20:01:40

shaoly518 发表于 2016-5-3 19:55
不是拼接的问题,,而是提取不到参数内的数值

列表页的网址是什么,我试试
页: [1]
查看完整版本: 提取规则不太懂,请指教下