火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
楼主: rq204

测测你自己,车手授勋活动开始了

[复制链接]
发表于 2009-1-8 20:59:11 | 显示全部楼层
我来试试循环采集
发表于 2009-1-8 22:42:20 | 显示全部楼层
就等你了:) 31# 懷念過去↑文
发表于 2009-1-9 00:36:36 | 显示全部楼层
1.网址高手勋章:
一二 已经解决。
答案pm管理员啦。
呵呵。等待保密题
攻坚 下一个环节规则高手
发表于 2009-1-9 01:21:25 | 显示全部楼层
第二个规则,用正则比较好吧?

  1. <TR>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)</TR>
复制代码
发表于 2009-1-9 01:49:33 | 显示全部楼层
火车头中的正则是怎么样的格式?
跟其他正则类似吗?
还是有自己独特的写法?
(?<content>[\w\W]*?)
这个帮助文档里的是什么意思啊?
发表于 2009-1-9 10:06:43 | 显示全部楼层
网址采集任务
任务一
分析js类别调用方式为GET,比较简单链接如下
http://taoke.alimama.com/spreader/search_shop_from_engine.do?_input_charset=utf8&p=1&od=0&coms=&come=&hs=&he=&crs=&cre=&mid=0&catid=1106&schcontent=&c=&na=&os=0&timestr=1231431670358
修改相应的catid 和 p 的值可以得到具体数据(貌似是XML)
测试采集网址正常
地址用正则匹配

任务二
分析代码中的JS 为ajax数据调用。post页面为
http://www.eastbay.com/search/getrows.cfm?TID=5555-27080909070127090121200-0&module=search&action=getpage&cm=GLOBAL%20SEARCH%3A%20KEYWORD%20SEARCH&supercat=home&search=k&size=&sku_list_len=1443&page=2&rand=2.9633619519996097
分析具体POST数据时发现page参数没有用处
具体分析代码中的需要post的数据,竟然是栏目下所有产品的编号,估计是为了追求读取数据速度。这样就简单多了。直接post所有数据 得到最原始的数据(规则中只post了200多个数据,测试没问题)。

源代码中有相应说明,大家可以共同交流

楼主说有更简洁的方法,我想应该是正则匹配吧,继续研究研究。

http://www.jielv.com/ecbbs.rar 源码地址
发表于 2009-1-9 16:55:43 | 显示全部楼层
都是 高手
发表于 2009-1-9 23:14:32 | 显示全部楼层
继续等待那个循环采集的方法
发表于 2009-1-11 16:03:25 | 显示全部楼层
这几个一个都搞不好,看来还得自己好好努力啊。
发表于 2009-1-11 17:58:57 | 显示全部楼层
只希望最后把技巧说出来
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-15 12:19

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表