求助!求助!有个采集规则希望大家给点思路!
地址:jinyici.xpcha.com/ea4ef290ne0.html我要采集近义词的内容和完整的注释。
但问题是有个别注释内容显示不全,有些注释有部分被隐藏了,比如“借字”的注释部分被隐藏,所以我想去后面链接的详细解释页面采集,替换原来的注释。
“欠据”、“借字”、“借单”的内容显示情况基本概括了所有情况了。
欠据是注释显示全的且尾部带链接的情况。(称为A情况)
借字是注释显示不全但尾部带链接的情况。(称为B情况)
借单是没有注释。尾部不带链接的情况。(称为C情况)
我自己采集的思路是:
AB情况可以合并看待,因为尾部带链接,我们可以去详细页面采集详细的注释,替换原来的注释。
C情况就不采集注释了,因为没有链接,没有地方采集。
我采集后要的内容排版和原页面差不多,只是去掉后面的链接,有注释的注释要采集来显示全,真的没有注释的就不要采集了。
思路是很清晰,但我在火车头上不知道怎么实现,我用多页采集,都实现不了我的思路。
不知道怎么解决,求大神给个方法吧。
每种都采集。然后用插件判断那个字多就存哪个。
页:
[1]