聚划算产品采集
本帖最后由 longouxiu 于 2020-11-23 08:53 编辑很久没有发布采集效果了,停了许久后,发现简单的采集不再是难题后,向更高要求进军。不过还是会遇到难题。
这次研究了聚划算采集,遇到的问题是网址是加密的。
采集网站:聚划算
采集网址:https://pages.tmall.com/wow/a/act/ju/dailygroup/2199/wupr?wh_pid=daily-222239&bid=3&spm=608.zhutituan_jushop.102202.3
规则制作时间:2020.11
难度: ★★★★★
聚划算的难点是在&sign=cf1a2b7772322e2e46583f672ca1fde0,从数字来看,就是一个 md5的 加密算法,
那这个算法的方法是怎么样的, 这就要用到浏览器的抓包断点功能,直接分析他的加密处理,然后进行组合,再MD5处理一下,就大功告成了。
很多人会觉得,你这说的云里雾里,其实我做这个时候也是一脸懵逼,主要还是依靠了度娘,做这种万事要有度娘精神的,基本多能成功的。
不错。专业。。。。。 聚划算 2023 更新版本,
最新的聚划算 难度 火车是很难做采集。关键是展示的产品是 一环扣一环的,第一次出现的excludes需要在第二次出现中一起调用的。
比如第一层post 中 {"url":"https://pages.tmall.com/wow/ark-pub/common/db6e866b/tpl?spm=a1z10.1-b-s.w5001-23975511596.8.24be77f2OdqcDS&wh_sid=a190987b902635b9&sellerId=253285776&scene=taobao_shop","cookie":"hng=CN|zh-CN|CNY|156","pvuuid":"v1-990527a5-85f1-4df3-96fb-3922d9aaf23c-1682057761991","fri":"{\"moduleIdList\":[\"3424392860\",\"2229841370\",\"3923758860\",\"8219248560\",\"1073105280\",\"7029785850\",\"8753656690\",\"2397885150\",\"6416618270\",\"1937188500\",\"6218926100\",\"2889438730\",\"5137423750\",\"2011392460\",\"6410291460\",\"9117019970\",\"6920991530\",\"3127667840\",\"3762186640\",\"5437855180\",\"1049410440\",\"4972386790\",\"2977390030\"]}","schemaVersion":"a58db54a-fef3-4f89-8e2c-fe7127bd3ac4","sequence":2,"excludes":"1073105280;2229841370;3424392860;3923758860;7029785850;8219248560;8753656690","device":"pc","backupParams":"excludes,device"}
出行的excludes代码,
第二层出行
{"url":"https://pages.tmall.com/wow/ark-pub/common/db6e866b/tpl?spm=a1z10.1-b-s.w5001-23975511596.8.24be77f2OdqcDS&wh_sid=a190987b902635b9&sellerId=253285776&scene=taobao_shop","cookie":"hng=CN|zh-CN|CNY|156","pvuuid":"v1-990527a5-85f1-4df3-96fb-3922d9aaf23c-1682057761991","fri":"{\"moduleIdList\":[\"3424392860\",\"2229841370\",\"3923758860\",\"8219248560\",\"1073105280\",\"7029785850\",\"8753656690\",\"2397885150\",\"6416618270\",\"1937188500\",\"6218926100\",\"2889438730\",\"5137423750\",\"2011392460\",\"6410291460\",\"9117019970\",\"6920991530\",\"3127667840\",\"3762186640\",\"5437855180\",\"1049410440\",\"4972386790\",\"2977390030\"]}","schemaVersion":"a58db54a-fef3-4f89-8e2c-fe7127bd3ac4","sequence":3,"excludes":"1073105280;1937188500;2229841370;2397885150;2889438730;3424392860;3923758860;6218926100;6416618270;7029785850;8219248560;8753656690","device":"pc","backupParams":"excludes,device"}
这里excludes 又增加了,但是 火车采集只能采集 一层网页的内容,第二层 第三层出现的产品 就没办法去采集,
或只能采集最后一层的产品信息。
为了这个问题,本来考虑用浏览器去采集了,后来研究还是用插件做了数据保存和调用的办法完成了。
采集的这个聚划算有4个层调用的,这边直接处理出了 4个 ,
这个聚划算里有 7百多个产品信息,基本规则 完成
页:
[1]