joyochina 发表于 2008-1-5 12:35:05

采集器,怎么经常忽悠我,规则设置请高手看看

新手在这里向各位高手和前辈们问好,有一些问题想请教高手指导。我在学习采集规则的设置中碰到一些问题很郁闷,像这个站http://www.ucmai.com/news/zxzx/yxzx/index.shtml

为什么采集页面测试已经可以正常显示采集的标题和内容,但在采集网址规则里,不能采集到http://www.ucmai.com/news/zxzx/yxzx/index.shtml   这个页面下的二级网页呢?请教怎么设置规则? 谢谢指导!
我想要采集他的文章。前面设置好了规则可以采集了,但稍微改了一下,就不能采集了 还有采集后出现许多重复的二级节点,怎么屏蔽?想请高手指点指点,谢谢!

[ 本帖最后由 joyochina 于 2008-1-5 13:43 编辑 ]

monface 发表于 2008-1-5 13:08:30

你规则没有设置好
采集区域应当指定从<strong>游戏情报   到 上一页</font>
内容规则也没做好

joyochina 发表于 2008-1-5 13:38:23

回复 2楼 的帖子

谢谢,但是还是不可以采集二级网页
ali28ls

第3次测试,已经可以采集了,但是有很多不需要的二级网址,不知道怎么过滤

[ 本帖最后由 joyochina 于 2008-1-5 17:44 编辑 ]

fal 发表于 2008-1-5 17:10:01

网址规则里.采集范围的结束
我这看源码里是
</li>
</ul>
</div>

是分行写的.不是你写的在一行.大小写也对应不上.
页: [1]
查看完整版本: 采集器,怎么经常忽悠我,规则设置请高手看看