|
|
本帖最后由 hotwow 于 2010-9-20 19:53 编辑
问题:
这篇文章下面的相关文章旁边的关键词用js提交请求生成的;
http://info.taobao.com/detail/beauty/2010/09/17/553c0aef-83a4-464f-ab75-0ff1a3d4cb85_1.php
分析页面源代码,有这样两段js代码:
channelType=104
...
requestTagURI=' http://tag.taobao.com/communitytag/searchTag.do?productId=553c0aef-83a4-464f-ab75-0ff1a3d4cb85&productType='+channelType+'&sign=5EE05C6CBBE4946ABBAF0550F30940E8&returnTypes='+channelType+'&page=0&numPerPage=6';
这个页面是通过js组合成一个实际地址: http://tag.taobao.com/communitytag/searchTag.do?productId=553c0aef-83a4-464f-ab75-0ff1a3d4cb85&productType=104&sign=5EE05C6CBBE4946ABBAF0550F30940E8&returnTypes=104&page=0&numPerPage=6
打开这个地址,里面有关键词。
方法:利用 同时采集多页面 这个功能,组合出生成关键词的url,第二次采集url里的关键词(第一次采集页面文章内容)
步骤:
1、点击“第二步采集内容规则”里的“同时采集多页面”
2、页面名称:淘宝资讯页关键词
3、页面地址选择:在默认页源代码内采集得到地址
4、正则匹配内容:
channelType=[参数],
highlightSrc='http://info.taobao.com/tag_search.php?type='+channelType+'&tag=',
requestTagURI='http://tag.taobao.com/communitytag/searchTag.do?productId=[参数]&productType='+channelType+'&sign=[参数]&returnTypes='+channelType+'&page=0&numPerPage=6';
5、组合结果:
http://tag.taobao.com/communitytag/searchTag.do?productId=[参数2]&productType=[参数1]&sign=[参数3]&returnTypes=[参数1]&page=0&numPerPage=6
6、保存
7、回到“第二步采集内容规则”
8、添加标签:关键词
9、所属页面(多页):淘宝资讯页关键词
10、开始字符串:"entityTags":"
11、结束字符串:","entityUrl":
12、内容替换:替换前: ^(*)空格 替换后:空格
13、确定。
over,大家试试,有好想法提出来。 |
评分
-
1
查看全部评分
-
|