rattlebush 发表于 2011-11-1 20:14:04

悬赏:抓取天涯易读网内容,规则给力,价钱更给力

要求:
    抓取天涯易读网版块内容,比如莲蓬鬼话版块:http://tianyayidu.com/channel.php?

aid=23,要求抓取鬼话版块的前20页文章列表中每篇文章的内容,比如

http://tianyayidu.com/article-a-468531.html这个帖子。它有96个分页,但是最后一个分页

的内容可能不完整,下次更新时会继续在最后一个分页插入内容。

注意:由于文章是每天更新的,要求能够识别已经抓取过的内容,抓取过的帖子如有更新,则

将更新抓取下来。

自己想过的一些思路:自己写一个抓取网址的插件,采集每个帖子的分页网址,比如一个帖子

有19个分页,则只采集前18个分页地址,然后根据采集到的网址进行内容采集。各位大侠如有

其它解决办法更好。

价格我也不知道给多少合适,只要规则能够满足要求,可以商议。联系方式:1632863520

feilaipu 发表于 2012-2-25 20:42:36

我帮您,QQ:972130397

南词 发表于 2012-3-10 11:26:04

有空 聊聊 1121210525
页: [1]
查看完整版本: 悬赏:抓取天涯易读网内容,规则给力,价钱更给力