大家来看看这个

bloom 发表于 2007-2-4 21:48:02

https://www.tdnam.com/trpSearchResults.aspx?ca=4706050420070223&ci=2170

我想采集这个网站上的域名的名称。

只要域名其他别的信息都不要。

本来以为采集链接可以解决

但是发现一个问题。

他的几个内容页面不知道具体链接是什么。。

特此悬赏50 活跃度。。

有的朋友说可以构造一个javascript 的提交页面。

提交数据让他现实 10000条数据。

这也是可以考虑的方法。

请大家帮忙看看。。。。

如果能解决必有重谢。

孤魂发表于 2007-2-4 21:48:03

<input type="hidden" id="checkAvail" name="checkAvail" value="">
<input type="hidden" id="domaintocheck" name="domaintocheck" value="">
<input type="hidden" id="tld" name="tld" value="">
<input type="hidden" id="hdnDomainId" name="hdnDomainId" value="">
<input type="hidden" id="hdnDomainName" name="hdnDomainName" value="">
<input type="hidden" id="CurrentPage" name="CurrentPage" value="1">
<input type="hidden" id="LetterSort" name="LetterSort" value="">
<input type="hidden" id="LetterClick" name="LetterClick" value="0">

我认为是使用POST数据产生的分页,只是他是HTTPS的网站,似乎没有办法截取数据包而以

[ 本帖最后由孤魂于 2007-2-5 19:34 编辑 ]

xyyfx 发表于 2007-2-5 19:23:59

其实，你这个页面你可以把它当作内容页面来采集，也就是0级！其他分页类推！它的域名前后的代码都是规则的，在源码里看的到，然后你使用循环采集，保存到本地TXT文本，在规则里你可以让它采集出来的格式在TXT里显示是：一行一个网址！就是这样！很早以前给人采集那个太平洋的图片的时候，就是用这个方法，开始采集不到连接，后来就搞定了！你这个我试了，用我这个方法没问题！你是大虾，应该没问题！

xyyfx 发表于 2007-2-5 19:24:34

网址保存到TXT后，你也可以编辑，什么替换啊等等！很快搞定！

孤魂发表于 2007-2-5 19:25:09

只采首页可以,那其它页面呢,俺还得试试,注意一下他有好几千页哦

xyyfx 发表于 2007-2-5 19:26:10

:lol

孤魂发表于 2007-2-8 01:55:46

这50活跃度我收下了,我解决了,哈哈

孤魂发表于 2007-2-8 01:56:20

为了安全,请先给我加活跃度,我在告诉你方法

孤魂发表于 2007-2-8 02:01:02

怕你不相信,特地截图为证
还有采集到的网址

amd5452 发表于 2007-2-8 02:22:09

魂籽真是强人 :victory:

页: [1] 2

火车采集器软件交流官方论坛's Archiver

大家来看看这个