火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1855|回复: 2

获取2级采集网址中遇到的问题

[复制链接]
发表于 2014-12-1 17:43:14 | 显示全部楼层 |阅读模式
我的测试任务比较简单,就先测试三页
一、起始网址:http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&p=1&f=S&l=50&Query=CCL%2F435%2F%24+AND+APT%2F1&d=PTXT
                        http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&p=(*)&f=S&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&Page=Next&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)
二、问题来了,在二级网址获取中,分析网页的二级网址代码:
  1. <TR><TD valign=top>1</TD>
  2. <TD valign=top><A  HREF=/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)>8,898,149</A></TD>
  3.      <TD valign=baseline><IMG border=0 src="/netaicon/PTO/ftext.gif" alt="Full-Text"></TD>
  4.      <TD valign=top><A  HREF=/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)>Biological data structure having multi-lateral, multi-scalar, and
  5.      multi-dimensional relationships between molecular features and other data
  6. </A></TD>
  7. <DOCS: 127369>
  8. <TR><TD valign=top>2</TD>
  9. <TD valign=top><A  HREF=/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=2&p=1&f=G&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)>8,895,821</A></TD>
  10.      <TD valign=baseline><IMG border=0 src="/netaicon/PTO/ftext.gif" alt="Full-Text"></TD>
  11.      <TD valign=top><A  HREF=/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=2&p=1&f=G&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)>Plants and seeds of hybrid corn variety CH786873
  12. </A></TD>
  13. <DOCS: 127369>
  14. <TR><TD valign=top>3</TD>
  15. <TD valign=top><A  HREF=/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=3&p=1&f=G&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)>8,895,820</A></TD>
  16.      <TD valign=baseline><IMG border=0 src="/netaicon/PTO/ftext.gif" alt="Full-Text"></TD>
  17.      <TD valign=top><A  HREF=/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=3&p=1&f=G&l=50&d=PTXT&S1=(435%2F$.CCLS.+AND+(A+or+B%3F).KD.)&OS=CCL/435/$+AND+APT/1&RS=(CCL/435/$+AND+APT/1)>Maize hybrid X08C981
  18. </A></TD>
  19. <DOCS: 127369>
复制代码
可以从代码中看到,每个记录中,都有两个相同的链接,而且用“手动填写链接地址规则”,我是这么写的,脚本规则“<TD valign=top><A  HREF=[参数]>[标签:号码]</A></TD>”,实际链接:“http://patft.uspto.gov[参数1]”,但是你看上面的代码,这个明明有两个,怎么使其变为唯一,不然内容规则弄好以后,采集不到任何内容,显示重复。
这个问题怎么解决?
下面是一些截图:
在运行第一个(测试网页一个三个)起始网址时出现:



在运行第二第三个起始网址时出现问题:



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2014-12-2 08:36:42 | 显示全部楼层
第一个你网址确实是重复的。第二个是你里面的标签设置了内容不得重复。
 楼主| 发表于 2014-12-2 09:46:19 | 显示全部楼层
303718 发表于 2014-12-2 08:36
第一个你网址确实是重复的。第二个是你里面的标签设置了内容不得重复。

哪里网址重复了,每个网址都不一样。。在网址的第二行“1&p”上,每个都不一样啊,数字呈递增。还有第二个,在标签设置里面,内容过滤那儿,我没有点那个“采集结果不得重复”
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 05:40

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表