haooften 发表于 2017-6-10 15:49:27

求助!求助!有个采集规则希望大家给点思路!

本帖最后由 haooften 于 2017-6-10 22:00 编辑


地址:http://jinyici.xpcha.com/ea4ef290ne0.html



我要采集图片里的内容。

但问题是B这一行的内容显示不全,注释有部分被隐藏了,所以我想去工具后面的链接去详细解释页面采集,替换原来的注释。

A、B、C的情况概括了所有情况。
A行是注释显示全的且尾部带链接。
B行是注释显示不全但尾部带链接。
C行是没有注释。尾部不带链接。

我自己采集的思路是:
AB可以合并看待,因为尾部带链接,我们可以去详细页面采集详细的注释,替换原来的注释。
C就不采集注释了,因为没有链接,没有地方采集。

我采集后要的内容排版和原页面差不多,只是去掉后面的链接,有注释的注释要显示全。

思路是很清晰,但我在火车头上不知道怎么实现,我用多页采集,都实现不了我的思路。

不知道怎么解决,求大神给个方法吧。

leweizxl 发表于 2017-6-12 08:56:26

可以设置全部从多页网址获取   要合并可以设置标签组合
页: [1]
查看完整版本: 求助!求助!有个采集规则希望大家给点思路!