提取规则不太懂,请指教下
本帖最后由 shaoly518 于 2016-5-3 11:36 编辑我想采取一个论坛,下面的代码是一个列表页下的其中一个标题的链接
<td><a title="热门主题" href="read-htm-tid-657893-orderway-postdate-asc-DESC.html" target="_blank"><img src=
我写成
<td><a title=(*) href="read-htm-tid-[参数]-orderway-postdate-asc-DESC.html" target="_blank"><img src=
不知道这样写到底哪不对,测试时根本就采不到标题链接
请高手指教一下
这样试试href="read-htm-tid-[参数]- 提取规则只要有较强特征就行(不会少采,也不至于多采)
你这个提取规则可以是
<td><a title=(*) href="read-htm-tid-[参数]-orderway-postdate-asc-DESC.html"
然后还要拼接地址,就是获得这个链接的全址。我也不知道你这个链接的全址是什么,假设是
http://www.baidu.com/read-htm-tid-657893-orderway-postdate-asc-DESC.html,那你的拼接地址就写
http://www.baidu.com/read-htm-tid-[参数1]-orderway-postdate-asc-DESC.html 没用啊,其它工具用同一条代码可以完整的匹配出来,火车头就不行,不知道什么原因 js2016 发表于 2016-5-3 14:15
提取规则只要有较强特征就行(不会少采,也不至于多采)
你这个提取规则可以是
...
不是拼接的问题,,而是提取不到参数内的数值 shaoly518 发表于 2016-5-3 19:55
不是拼接的问题,,而是提取不到参数内的数值
列表页的网址是什么,我试试
页:
[1]