haooften 发表于 2017-6-10 22:15:45

求助!求助!有个采集规则希望大家给点思路!

地址:jinyici.xpcha.com/ea4ef290ne0.html

我要采集近义词的内容和完整的注释。

但问题是有个别注释内容显示不全,有些注释有部分被隐藏了,比如“借字”的注释部分被隐藏,所以我想去后面链接的详细解释页面采集,替换原来的注释。

“欠据”、“借字”、“借单”的内容显示情况基本概括了所有情况了。
欠据是注释显示全的且尾部带链接的情况。(称为A情况)
借字是注释显示不全但尾部带链接的情况。(称为B情况)
借单是没有注释。尾部不带链接的情况。(称为C情况)

我自己采集的思路是:
AB情况可以合并看待,因为尾部带链接,我们可以去详细页面采集详细的注释,替换原来的注释。
C情况就不采集注释了,因为没有链接,没有地方采集。
我采集后要的内容排版和原页面差不多,只是去掉后面的链接,有注释的注释要采集来显示全,真的没有注释的就不要采集了。

思路是很清晰,但我在火车头上不知道怎么实现,我用多页采集,都实现不了我的思路。

不知道怎么解决,求大神给个方法吧。

303718 发表于 2017-6-19 08:23:43

每种都采集。然后用插件判断那个字多就存哪个。
页: [1]
查看完整版本: 求助!求助!有个采集规则希望大家给点思路!