采集器 发表于 2006-11-19 19:06:35

碰到难题,新人求教高手~

我用的是3.0新版本的火车头.
碰到一个网站里的不连续的网页,请问该怎么采集呢??

我简单解释下.

比如:
http://58.com/rent/1993068x.shtml
http://58.com/rent/1963451x.shtml
http://58.com/rent/1952860x.shtml
http://58.com/rent/1939963x.shtml
.
.
.
.

这样的网页有上千个,我想采集它们,可是他们的后面的数字都是不连贯的,比如1993068x.shtml,1963451x.shtml,1939963x.shtml.
本来我想用新建任务方式里面的 批量/多页 的方式采集,可这些我想采的网页都不连续,请问高手我应该怎么采才好呢? :(

梦想中文 发表于 2006-11-19 19:09:20

总结一下规律,你上面列的就是都用19打头的,你可以批量导入,写成http://58.com/rent/19(*)x.shtml

具体怎么样你要自己测试下

采集器 发表于 2006-11-19 19:10:16

网页我处理了一下,是"无法打开网页"的.

梦想中文 发表于 2006-11-19 19:13:00

让机器自动探测,不连贯的不要紧,探测出来没有数据就是了

采集器 发表于 2006-11-19 19:14:23

原帖由 梦想中文 于 2006-11-19 19:09 发表
总结一下规律,你上面列的就是都用19打头的,你可以批量导入,写成http://58.com/rent/19(*)x.shtml

具体怎么样你要自己测试下
谢谢您回帖.
不过里面有许多18开头的,都是7位数字,只是上面举例子时我没写上. 18和19开头的网页几乎各占一半.
请问有什么好方法么?? :(

梦想中文 发表于 2006-11-19 19:16:10

先做19的,做好后另外开一个任务,做18的,规则一样

采集器 发表于 2006-11-19 19:17:23

原帖由 梦想中文 于 2006-11-19 19:13 发表
让机器自动探测,不连贯的不要紧,探测出来没有数据就是了
哦,我刚接触火车头,没太明白您说的"机器自动探测"是什么意思,您能具体讲两句么?谢谢谢谢.:)

梦想中文 发表于 2006-11-19 19:19:29

:L ,你设好规则就可以了,如果没有那么火车当然就搜不到,就不会返回结果

采集器 发表于 2006-11-19 19:25:13

原帖由 梦想中文 于 2006-11-19 19:19 发表
:L ,你设好规则就可以了,如果没有那么火车当然就搜不到,就不会返回结果
请问您指的是设置标题,内容等的开头和结尾符号么??

梦想中文 发表于 2006-11-19 19:28:46

我是说批量导入啊,你说的那是内容规则
页: [1] 2
查看完整版本: 碰到难题,新人求教高手~