采集时如何保留原文链接?
有的源代码上有原文的链接,还好办,可以采集下来但有的网站上却没有,如何保留原文链接? 采集时如何保留原文链接?
http://www.dataindex.org/forum-viewthread-tid-224-fromuid-2.html
火车头里面这个链接是直接存在数据库里面的。
可以直接从数据库中获取。不过这样有些麻烦。
我来说说我的处理方式。
步骤如下:
1、新建一个采集字段。名字自己写。我一般都用原来的“出处”字段;
2、选择使用正则匹配内容,规则为
(?<content>[\s\S]*?)$
3、保存即可。 本帖最后由 专业收费采集 于 2011-3-15 11:22 编辑
楼主可以参考下我的博文 http://http://board.locoy.com/archives/498
里面有详细的介绍 唉。。。。。。。 说不尽的感激{:4_180:} 懂了……嘿嘿!
谢谢诸位高人了!
页:
[1]