bloom 发表于 2007-2-4 21:48:02

大家来看看这个

https://www.tdnam.com/trpSearchResults.aspx?ca=4706050420070223&ci=2170

我想采集这个网站上的 域名 的名称。

只要域名其他别的信息都不要。

本来以为采集链接可以解决

但是发现一个问题。

他的几个内容页面 不知道 具体链接是什么。。


特此悬赏50 活跃度。。


有的朋友说 可以构造一个javascript 的提交页面。

提交数据 让他 现实 10000条数据。

这也是可以考虑的方法。

请大家帮忙看看。。。。

如果能解决 必有重谢。

孤魂 发表于 2007-2-4 21:48:03

<input type="hidden" id="checkAvail" name="checkAvail" value="">
<input type="hidden" id="domaintocheck" name="domaintocheck" value="">
<input type="hidden" id="tld" name="tld" value="">
<input type="hidden" id="hdnDomainId" name="hdnDomainId" value="">
<input type="hidden" id="hdnDomainName" name="hdnDomainName" value="">
<input type="hidden" id="CurrentPage" name="CurrentPage" value="1">
<input type="hidden" id="LetterSort" name="LetterSort" value="">
<input type="hidden" id="LetterClick" name="LetterClick" value="0">

我认为是使用POST数据产生的分页,只是他是HTTPS的网站,似乎没有办法截取数据包而以

[ 本帖最后由 孤魂 于 2007-2-5 19:34 编辑 ]

xyyfx 发表于 2007-2-5 19:23:59

其实,你这个页面你可以把它当作内容页面来采集,也就是0级!其他分页类推!它的域名前后的代码都是规则的,在源码里看的到,然后你使用循环采集,保存到本地TXT文本,在规则里你可以让它采集出来的格式在TXT里显示是:一行一个网址!就是这样!很早以前给人采集那个太平洋的图片的时候,就是用这个方法,开始采集不到连接,后来就搞定了!你这个我试了,用我这个方法没问题!你是大虾,应该没问题!

xyyfx 发表于 2007-2-5 19:24:34

网址保存到TXT后,你也可以编辑,什么替换啊等等!很快搞定!

孤魂 发表于 2007-2-5 19:25:09

只采首页可以,那其它页面呢,俺还得试试,注意一下他有好几千页哦

xyyfx 发表于 2007-2-5 19:26:10

:lol

孤魂 发表于 2007-2-8 01:55:46

这50活跃度我收下了,我解决了,哈哈

孤魂 发表于 2007-2-8 01:56:20

为了安全,请先给我加活跃度,我在告诉你方法

孤魂 发表于 2007-2-8 02:01:02

怕你不相信,特地截图为证
还有采集到的网址

amd5452 发表于 2007-2-8 02:22:09

魂籽 真是强人 :victory:
页: [1] 2
查看完整版本: 大家来看看这个