本帖最后由 fishwendy520 于 2016-8-19 14:40 编辑
联系方式:QQ:468932 目标网站:郴州日报电子报:http://szb.czxww.cn/html/2016-08/19/node_12.htm 郴州新报电子报:http://xb.ngcz.tv/Html/2015-07-17/Qpaper_1694.html
采集规则编写需求: 一. 采用火车头采集器编写采集规则 二. 具体采集规则需求如下 规则是按 报纸下面有期刊 期刊下面有版面 版面下面有内容 来的 (一).郴州日报电子报: 1、期刊是每天的一期。对应页面上面:
2、版面是每天这期下面对应的版面:
需要导出 版面名称 版面的图片
3、内容需要按照版面导出: 需要按版面导出的内容的 标题 内容 时间 作者 (PS:内容是点击进去的HTML)
(二).郴州新报电子报:
1、期刊是每天一期。
2、版面是每天这期对应的版面,需要采集版面名和版面图片。
3、内容需要按照版面导出
需要按版面导出的内容的 标题 内容 时间 作者 (PS:内容是点击进去的HTML)
四.我们提供接口,是否能把数据导入到我们的数据库?
|