求助!求助!有个采集规则希望大家给点思路!
本帖最后由 haooften 于 2017-6-10 22:00 编辑地址:http://jinyici.xpcha.com/ea4ef290ne0.html
我要采集图片里的内容。
但问题是B这一行的内容显示不全,注释有部分被隐藏了,所以我想去工具后面的链接去详细解释页面采集,替换原来的注释。
A、B、C的情况概括了所有情况。
A行是注释显示全的且尾部带链接。
B行是注释显示不全但尾部带链接。
C行是没有注释。尾部不带链接。
我自己采集的思路是:
AB可以合并看待,因为尾部带链接,我们可以去详细页面采集详细的注释,替换原来的注释。
C就不采集注释了,因为没有链接,没有地方采集。
我采集后要的内容排版和原页面差不多,只是去掉后面的链接,有注释的注释要显示全。
思路是很清晰,但我在火车头上不知道怎么实现,我用多页采集,都实现不了我的思路。
不知道怎么解决,求大神给个方法吧。
可以设置全部从多页网址获取 要合并可以设置标签组合
页:
[1]