手动填写链接地址规则 测试出来都带host 可以不带么?
采集天猫搜索之后的列表页面网址例如:http://list.tmall.com/search_product.htm?q=%D0%A1%C5%E8%D4%D4&type=p&spm=a220m.1000858.a2227oh.d100&from=.list.pc_1_searchbutton
多级网址获取
使用脚本规则 <a href="//[参数]" target="_blank"
实际链接 [参数1]
测试出来的结果:
都是这样的地址
http://list.tmall.com/detail.tmall.com/item.htm?id=35579716208&areaId=310000&cat_id=50024907&rn=3835dfd4ef7b7657c808dbaf38d001d9&user_id=326501168&is_b=1&on_comment=1#J_TabBar
实际应该只是
http://detail.tmall.com/item.htm?id=35579716208&areaId=310000&cat_id=50024907&rn=3835dfd4ef7b7657c808dbaf38d001d9&user_id=326501168&is_b=1&on_comment=1#J_TabBar
这前面的
http://list.tmall.com/ 怎么去掉呢?
求高手能人指点。
你可以用参数 获取到 ID 就可以了然后地址组合
脚本规则 <div class="product" data-id=" [参数]"
实际链接 http://detail.tmall.com/item.htm?id=[参数1] :hug:可以的。 谢谢列车长。 一个id 地址更清晰了。 看来偶还要多实践多总结。
页:
[1]