火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3114|回复: 2

淘宝资讯页js生成关键词的采集

[复制链接]
发表于 2010-9-20 19:36:14 | 显示全部楼层 |阅读模式
本帖最后由 hotwow 于 2010-9-20 19:53 编辑

问题:
这篇文章下面的相关文章旁边的关键词用js提交请求生成的;
http://info.taobao.com/detail/beauty/2010/09/17/553c0aef-83a4-464f-ab75-0ff1a3d4cb85_1.php
分析页面源代码,有这样两段js代码:
channelType=104
...
requestTagURI=' http://tag.taobao.com/communitytag/searchTag.do?productId=553c0aef-83a4-464f-ab75-0ff1a3d4cb85&productType='+channelType+'&sign=5EE05C6CBBE4946ABBAF0550F30940E8&returnTypes='+channelType+'&page=0&numPerPage=6';
这个页面是通过js组合成一个实际地址: http://tag.taobao.com/communitytag/searchTag.do?productId=553c0aef-83a4-464f-ab75-0ff1a3d4cb85&productType=104&sign=5EE05C6CBBE4946ABBAF0550F30940E8&returnTypes=104&page=0&numPerPage=6
打开这个地址,里面有关键词。

方法:利用 同时采集多页面 这个功能,组合出生成关键词的url,第二次采集url里的关键词(第一次采集页面文章内容)

步骤:
1、点击“第二步采集内容规则”里的“同时采集多页面”
2、页面名称:淘宝资讯页关键词
3、页面地址选择:在默认页源代码内采集得到地址
4、正则匹配内容:
channelType=[参数],
                highlightSrc='http://info.taobao.com/tag_search.php?type='+channelType+'&tag=',

                requestTagURI='http://tag.taobao.com/communitytag/searchTag.do?productId=[参数]&productType='+channelType+'&sign=[参数]&returnTypes='+channelType+'&page=0&numPerPage=6';
5、组合结果:
http://tag.taobao.com/communitytag/searchTag.do?productId=[参数2]&productType=[参数1]&sign=[参数3]&returnTypes=[参数1]&page=0&numPerPage=6
6、保存
7、回到“第二步采集内容规则”
8、添加标签:关键词
9、所属页面(多页):淘宝资讯页关键词
10、开始字符串:"entityTags":"
11、结束字符串:","entityUrl":
12、内容替换:替换前: ^(*)空格 替换后:空格
13、确定。

over,大家试试,有好想法提出来。

评分

1

查看全部评分

发表于 2010-9-27 15:28:40 | 显示全部楼层
为什么没人支持下?很不错啊
发表于 2011-1-19 00:20:05 | 显示全部楼层
很不错,没用还不过
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-6 06:02

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表