|
3.2 "同时多页采集" bug 以及功能扩展
3.2 "同时多页采集" 是一个很实用的功能,使得我们可以对网络上的内容进行重新组合,从而采集出"原创内容",这对于SEO非常有用,极大地扩展采集做站的效率.
试用发现问题:
1 使用替换生成地址时,如果替换内容过多,只会处理前面的一部分,且替换功能太简单 比如如果要同时替换地址的头尾两部分,保留中间,就不知道怎么办了.
建议:
(1)把网址采集中的部分功能迁移过来,比如自定义连接中的特殊连接替换,"同时多页采集"就意味着要重新寻找网址,所以把网址采集那部分功能迁移过来进行"寻址"非常有必要.
(2) Jaycn 帖子中所谈到
" 2.能否采集与默认页无关的页面呢?
比如说,我设置一个标签为:标题,采集了一个标题为:迅雷,那么在"同时多页采集"我希望能够采集百度的相关连接的内容:http://www.baidu.com.cn/s?wd=%D1%B8%C0%D7,这样的话,就需要把标签搞成全局,并且连接地址灵活多变 "
这是一个非常好的提议,极大的增加采集的灵活性,可以充分利用上搜索引擎提供的内容,使"同时多页采集"智能化.
我也说一下这个所需要功能:
设置一个标签为:关键字 从默认页采集到 关键字 在"同时多页采集",采集网址这样设定为: http://www.baidu.com.cn/s?wd=[标签:关键字] 最后就可以把采集内容合在一起组成新的一篇文章. 这个功能相当于先采集默认页,然后根据默认页的内容 决定要采集的网址.
2 "同时多页采集"如果选择从默认页源代码采集到网址,多次测试发现获得网址的速度会非常慢.不知道是什么原因.
火车让我们在采集的同时,通过替换 切割 组合 创造出"新"内容,这个功能对于做SEO 实在是太好了. |
|