请问一下,如何定义来源网页标签
我觉得我采集是为了给大家提供一个集中的交流环境,还有就是我会将采集的内容进行人工精选,把垃圾文章去掉。所以我希望注明文章来源的地址,就是 加一个检签 名为“原文地址”但开始和结束的字符串怎么填啊?或者是这个原文地址标签中怎么设啊?
请帮助解答一下,谢谢! 如果你是采入默认的access表的话,数据表最后一列就是 网址 列。 但是怎么把这个网址,发布出来呢。我说的是用 第二种 保存为本地的html文件的方式,把这个网址发布到文章最下面,这样说明对原作者的尊重。 能发布出来文章,不能发布出来网址?它和 内容 列一样的啊。 在任务中建立一个标签,可以为空,采集以后复制地址到这个标签!
就相当于采集到的内容!
然后修改模版调用! 先谢谢你的热心解答,不过我想问的问题是:
网址是最先采集来的,然后跟据每个网址中网页的代码确定了咱们想采集回来的内容。但是在发布的时候,只有把哪总分网页中的代码发布出来,想把网址也一起发布到最后形成的网页中,形成:
【原文地址】: 它怎么定义啊?才能形成http://abc.com/aaa.html 这样的被采集的这页的地址?
【标题】: 这篇文章的标题 (可定义采在<title></title> 之间的)
【内容】:这篇文章的正文内容。 (可定义采在<div></div> 之间的)
这三组,后两组都可以在网页的代码中截取,但原文地址不是在采集内容中截取,而是从采集的第一步“采集网址”中引用过来。但采集内容设置中无法设置啊? 也是我需要的。
页:
[1]