找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3820|回复: 3

聚划算产品采集

[复制链接]
发表于 2020-11-20 10:35:51 | 显示全部楼层 |阅读模式
本帖最后由 longouxiu 于 2020-11-23 08:53 编辑

很久没有发布采集效果了,停了许久后,发现简单的采集不再是难题后,向更高要求进军。不过还是会遇到难题。
这次研究了聚划算采集,遇到的问题是网址是加密的。

采集网站:聚划算
采集网址:https://pages.tmall.com/wow/a/act/ju/dailygroup/2199/wupr?wh_pid=daily-222239&bid=3&spm=608.zhutituan_jushop.102202.3

规则制作时间:2020.11
难度: ★★★★★


聚划算的难点是在  &sign=cf1a2b7772322e2e46583f672ca1fde0,从数字来看,就是一个 md5的 加密算法,
那这个算法的方法是怎么样的, 这就要用到浏览器的抓包断点功能,直接分析他的加密处理,然后进行组合,再MD5处理一下,就大功告成了。
很多人会觉得,你这说的云里雾里,其实我做这个时候也是一脸懵逼,主要还是依靠了度娘,做这种万事要有度娘精神的,基本多能成功的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2023-4-21 14:26:32 | 显示全部楼层
聚划算 2023 更新版本,
最新的聚划算 难度 火车是很难做采集。关键是展示的产品是 一环扣一环的,第一次出现的excludes需要在第二次出现中一起调用的。
比如第一层post 中 {"url":"https://pages.tmall.com/wow/ark-pub/common/db6e866b/tpl?spm=a1z10.1-b-s.w5001-23975511596.8.24be77f2OdqcDS&wh_sid=a190987b902635b9&sellerId=253285776&scene=taobao_shop","cookie":"hng=CN|zh-CN|CNY|156","pvuuid":"v1-990527a5-85f1-4df3-96fb-3922d9aaf23c-1682057761991","fri":"{\"moduleIdList\":[\"3424392860\",\"2229841370\",\"3923758860\",\"8219248560\",\"1073105280\",\"7029785850\",\"8753656690\",\"2397885150\",\"6416618270\",\"1937188500\",\"6218926100\",\"2889438730\",\"5137423750\",\"2011392460\",\"6410291460\",\"9117019970\",\"6920991530\",\"3127667840\",\"3762186640\",\"5437855180\",\"1049410440\",\"4972386790\",\"2977390030\"]}","schemaVersion":"a58db54a-fef3-4f89-8e2c-fe7127bd3ac4","sequence":2,"excludes":"1073105280;2229841370;3424392860;3923758860;7029785850;8219248560;8753656690","device":"pc","backupParams":"excludes,device"}
出行的excludes代码,
第二层出行
{"url":"https://pages.tmall.com/wow/ark-pub/common/db6e866b/tpl?spm=a1z10.1-b-s.w5001-23975511596.8.24be77f2OdqcDS&wh_sid=a190987b902635b9&sellerId=253285776&scene=taobao_shop","cookie":"hng=CN|zh-CN|CNY|156","pvuuid":"v1-990527a5-85f1-4df3-96fb-3922d9aaf23c-1682057761991","fri":"{\"moduleIdList\":[\"3424392860\",\"2229841370\",\"3923758860\",\"8219248560\",\"1073105280\",\"7029785850\",\"8753656690\",\"2397885150\",\"6416618270\",\"1937188500\",\"6218926100\",\"2889438730\",\"5137423750\",\"2011392460\",\"6410291460\",\"9117019970\",\"6920991530\",\"3127667840\",\"3762186640\",\"5437855180\",\"1049410440\",\"4972386790\",\"2977390030\"]}","schemaVersion":"a58db54a-fef3-4f89-8e2c-fe7127bd3ac4","sequence":3,"excludes":"1073105280;1937188500;2229841370;2397885150;2889438730;3424392860;3923758860;6218926100;6416618270;7029785850;8219248560;8753656690","device":"pc","backupParams":"excludes,device"}

这里excludes 又增加了,但是 火车采集只能采集 一层网页的内容,第二层 第三层出现的产品 就没办法去采集,
或只能采集最后一层的产品信息。
为了这个问题,本来考虑用浏览器去采集了,后来研究还是用插件做了数据保存和调用的办法完成了。
采集的这个聚划算有4个层调用的,这边直接处理出了 4个 ,



这个聚划算里有 7百多个产品信息,基本规则 完成

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表