懷念過去↑文 发表于 2009-1-8 20:59:11

我来试试循环采集

luring 发表于 2009-1-8 22:42:20

就等你了:) 31# 懷念過去↑文

ecbbs 发表于 2009-1-9 00:36:36

1.网址高手勋章:
一二 已经解决。
答案pm管理员啦。
呵呵。等待保密题
攻坚 下一个环节规则高手

ecbbs 发表于 2009-1-9 01:21:25

第二个规则,用正则比较好吧?

<TR>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)<TD align=middle bgColor=#ffffff>[参数]</TD>(*)</TR>

ecbbs 发表于 2009-1-9 01:49:33

火车头中的正则是怎么样的格式?
跟其他正则类似吗?
还是有自己独特的写法?
(?<content>[\w\W]*?)
这个帮助文档里的是什么意思啊?

ecbbs 发表于 2009-1-9 10:06:43

网址采集任务
任务一
分析js类别调用方式为GET,比较简单链接如下
http://taoke.alimama.com/spreader/search_shop_from_engine.do?_input_charset=utf8&p=1&od=0&coms=&come=&hs=&he=&crs=&cre=&mid=0&catid=1106&schcontent=&c=&na=&os=0&timestr=1231431670358
修改相应的catid 和 p 的值可以得到具体数据(貌似是XML)
测试采集网址正常
地址用正则匹配

任务二
分析代码中的JS 为ajax数据调用。post页面为
http://www.eastbay.com/search/getrows.cfm?TID=5555-27080909070127090121200-0&module=search&action=getpage&cm=GLOBAL%20SEARCH%3A%20KEYWORD%20SEARCH&supercat=home&search=k&size=&sku_list_len=1443&page=2&rand=2.9633619519996097
分析具体POST数据时发现page参数没有用处
具体分析代码中的需要post的数据,竟然是栏目下所有产品的编号,估计是为了追求读取数据速度。这样就简单多了。直接post所有数据 得到最原始的数据(规则中只post了200多个数据,测试没问题)。

源代码中有相应说明,大家可以共同交流

楼主说有更简洁的方法,我想应该是正则匹配吧,继续研究研究。

http://www.jielv.com/ecbbs.rar 源码地址

懷念過去↑文 发表于 2009-1-9 16:55:43

都是 高手

luring 发表于 2009-1-9 23:14:32

继续等待那个循环采集的方法

bd540 发表于 2009-1-11 16:03:25

这几个一个都搞不好,看来还得自己好好努力啊。

有你真好 发表于 2009-1-11 17:58:57

只希望最后把技巧说出来
页: 1 2 3 [4] 5 6 7 8 9
查看完整版本: 测测你自己,车手授勋活动开始了