新手请教几个火车头采集问题
小弟是新手,有些问题请教各位大侠:1.一个任务下可以设置几个网站的内容采集吗? 如我想在一个任务下设置采集当天新浪娱乐新闻和163娱乐新闻,并且混合随机发布,好像是不能设置的是吗?
2. 一个任务采集深度为2时,如何设置采集每一个列表页的分页,一般每一个列表页的分页都有很多页的
3. 一个任务采集深度为2时,如何设置将每一个分类列表页保存为一个本地.txt文件, 现在是整个任务保存为一个文件,所以分类列表内容都保存在一起了。但如果设置一个任务采集深度为1时,可以方便的设置采集分页,但是需要建立太多的采集任务,比如有1000个分类栏目,我就需要建1000个采集任务
4. 如何方便的设置N个任务,目标采集网址都为www.domain.com/search?关键词=任务名,并且采集该网址的分页内容
5. 如何设置更丰富的内容过滤功能,比如采集网页的内容项标签少于100个字时,过滤该内容。现在我只会设置“包含”,“不包含”的过滤功能
请高手解惑,非常感谢! 1、同时发布。。就混合啦。。
2、你设置下。。可以少采点。。
3、你可以自己导出数据里面的内容为TXT。设置为1你可以网址添加的时候多添加1000个。。而不用1000栏目
4、新建站点的时候。。设置下全局设置
5、用正则 借贵宝地问一下,比如我想抓取A大分类下b小分类里的c页面的内容应该怎么设置啊?我的意思是a大分类下的多个b小分类的c页面都想要抓取!比如说,抓取DVD信息,电影分类下所有开头都是a的电影的介绍应该怎么设置!DVD信息本来就很多,和电影同一级的分类有电视剧,电影,动画,音乐,游戏,电影分类里面a开头的又有很多,比如说阿凡达,……我想抓取阿凡达的介绍应该怎么抓?按照点击的话应该是点击两次之后的内容也!不知道我说的清楚不!希望大大们帮帮忙! 1、同时发布。。就混合啦。。
2、你设置下。。可以少采点。。
3、你可以自己导出数据里面的内容为TXT。设 ...
月白 发表于 2010-5-15 16:06 http://bbs.locoy.com/images/common/back.gif
谢谢月白, 再请问一下:
1. 怎么设置混合啊? 在"采集内容规则"里面,一个标签只能定义一个匹配内容啊
2. 我只要采集每一个列表页下的二页分页内容,怎么设置呢?
3, 导出数据在哪个菜单下啊,怎么样才可以把其中一个分类页的内容导成一个.TXT文件呢,现在是所有的分类列表内容都在一个.TXT文件里了,能自动把每个分类页内容存在每个.TXT文件里吗
4. 在哪设置? 站点属性里的站点网址?
5. 这种正则怎么写呢? 现在我写的是 <!-- product detail start-->(*)<div class="dbcontent">[参数]<!-- product detail end-->, 就是光采集里面的内容而已. 回复 4# excellyan
1.不明白你的意思
2.这个要看那个网站的代码
3.这个要你懂Access,懂的话。。和简单
4.对。站点属性里面
5.正则很强大的。。你那个更本不是正则。。 1 一个站点下新建俩个任务,同时发布。这就是2楼说的混合。
2 对列表页采集一次后,编辑列表,然后进行文本导入
3 编辑任务→开始测试网址采集
4 编辑站点
5 没看懂
页:
[1]