火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 8384|回复: 2

火车采集器的另类使用——采集淘宝买家信息

[复制链接]
发表于 2008-10-26 17:02:44 | 显示全部楼层 |阅读模式
第一部分:火车头的利用

很多群发软件,都需要旺旺用户名。本教程完全是新手教程,只采集买家用户名,不采集其他信息。老手就不要看了,不值一看。

我们可以针对某一个卖家店铺的所有进行过评价的买家进行采集。规则如下:

比如,我们要采集 http://store.taobao.com/shop/view_shop-5170f80fe6ed600018d42ceb70b85329.htm 店铺的所有买家。

第一步,找到买家的信用评价页,点击 来自买家的评价,得到URL地址:

http://rate.taobao.com/user-rate-5170f80fe6ed600018d42ceb70b85329--receivedOrPosted|0--buyerOrSeller|0.htm

再点击 卖家信用度的 6个月前连接,得到URL地址:

http://ratehis.taobao.com/user-rate-5170f80fe6ed600018d42ceb70b85329--detailed|1--goodNeutralOrBad|1--isarchive|true--timeLine|-211--receivedOrPosted|0--buyerOrSeller|0.htm#RateType


第二步,启动火车2008,点击 选项设置 -- 采集发布设置,将第一个的 ||| 删除,点击后面的 “换行”,点击保存 。以备循环采集后,导入记事本时候,一行一条记录。

第三步,在火车中添加一个任务。
设置好任务名,然后 选择采集深度: 0 级链接;
点击向导添加,在单条网址的框中,将上述两个 URL地址输入进去。一行一个。
点击开始测试采集网址。

第四步,在测试采集网址页面,选中这两个网址的任意一条,点击右侧的  测试该页。

将原来的标签删除,自己建一个标签,“用户名”

双击"用户名“,弹出的新窗口中,选中 该标签循环匹配,选中 该标签在分页中匹配。

开始字符串:  <div class="RatterName">(*)<a href="http://store.taobao.com/shop/(*)>
结束字符串: </a>

点击保存。

第五步,现在又回到了 采集内容规则 对话框中,在左下部设置分页规则:

选中  上下页/上n页下n页模式

从: <div class="PageChanger">
到: </div>

选中 自动识别分页

选中 用分隔符连接在上条记录后。

第六步,点击保存。(你也可以不点击,不过保存一下比较好。)

第七步:最关键步了啊,一般人我不告诉他

这时候本来可以采集了,但我们不采集。

我们双击任务名,在 采集网址规则 那里,点击 开始测试网址采集 ,出来的两条记录中,选中第一条,点击测试该页。

再次回到了 采集内容规则 页面。点击“测试” ,你可以看到,猴子欢快的跑了起来。

猴子跑累了的时候,你会发现,框框中前面部分是分页的网址,不管他。后面的的部分,就是你要的东东了。全部的哦。是不是一行一条,全部选中复制出来吧。

然后再回到 采集网址规则那里,选中后面一条网址,再点击测试该页,重复上面的步骤。


hoho,上万条记录,眨眼之间你跑到你的记事本中了。一条一个,真是太爽了。


第二部分:过滤重复记录

你想啊,如果有人给你发广告,你烦不烦?如果一个人连续给你发了好几条广告,估计你要蹦起来。

这时候我们过滤重复的买家姓名了。由于刚刚保存在记事本中是一条一个记录,所以我这里使用asp脚本处理,将脚本规则发出来。



<%
Dim write
Dim fileSysObj, filename1,content


Set fileSysObj = server.CreateObject("scripting.filesystemobject")  

filename1 = Server.MapPath("要过滤的用户名.txt")                           '要过滤的用户名文件
'新建一个fileSysObj对象

redim a(1)

'读取整个文本文件
IF (fileSysObj.FileExists(filename1)) Then
Set tf = filesysobj.OpenTextFile(filename1, 1)
i=0
While Not tf.AtEndOfStream
i=i+1
redim preserve a(i)
a(i-1) =  tf.ReadLine
Wend
tf.Close
ELSE
'如果找不到文件,则显示下面的信息!
read = "no find this file"
END IF

’循环剔除
for j=1 to i-1
for k=0 to j-1
  if a(j)=a(k) then
   a(j)=""
   exit for
  end if
next
next


Set fs = server.CreateObject("scripting.filesystemobject")  
filename = Server.MapPath("要保存的文件.txt")                       '导入到  要保存的文件.txt ,如果这个文件名存在,则先删除。
if fs.FileExists(filename) then  
fs.DeleteFile(filename)  
end if  

set myfile = fs.CreateTextFile(filename,true)
for p=0 to i-1
if a(p)<>"" then   myfile.writeline a(p)
next
myfile.close

'通知信息
response.Write("哥哥,任务完成咯")
%>




第三部分,发送旺旺聊天记录
请大家送我一个好的旺旺群发软件吧,我到现在还没找到哪个软件比较好用又不要钱呢


第四部分,做做广告

我这个月 ggad估计不够100了,下个月就没钱花了,XDJM们,请友情支持一下: www.cnajol.com

[ 本帖最后由 sushy 于 2008-10-26 17:13 编辑 ]

评分

1

查看全部评分

发表于 2008-10-26 23:41:19 | 显示全部楼层
早就知道这个啦,可以用火车采集会员的电子邮件,电话传真什么的,都可以了。火车确实很强大
发表于 2009-4-2 16:24:15 | 显示全部楼层
请问我以上都照做了  为什么测试后只是单单用户名三个字
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-26 11:26

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表