火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 9524|回复: 17

碰到难题,新人求教高手~

[复制链接]
发表于 2006-11-19 19:06:35 | 显示全部楼层 |阅读模式
我用的是3.0新版本的火车头.
碰到一个网站里的不连续的网页,请问该怎么采集呢??

我简单解释下.

比如:
http://58.com/rent/1993068x.shtml
http://58.com/rent/1963451x.shtml
http://58.com/rent/1952860x.shtml
http://58.com/rent/1939963x.shtml
.
.
.
.

这样的网页有上千个,我想采集它们,可是他们的后面的数字都是不连贯的,比如1993068x.shtml,1963451x.shtml,1939963x.shtml.
本来我想用新建任务方式里面的 批量/多页 的方式采集,可这些我想采的网页都不连续,请问高手我应该怎么采才好呢?
发表于 2006-11-19 19:09:20 | 显示全部楼层
总结一下规律,你上面列的就是都用19打头的,你可以批量导入,写成http://58.com/rent/19(*)x.shtml

具体怎么样你要自己测试下
 楼主| 发表于 2006-11-19 19:10:16 | 显示全部楼层
网页我处理了一下,是"无法打开网页"的.
发表于 2006-11-19 19:13:00 | 显示全部楼层
让机器自动探测,不连贯的不要紧,探测出来没有数据就是了
 楼主| 发表于 2006-11-19 19:14:23 | 显示全部楼层
原帖由 梦想中文 于 2006-11-19 19:09 发表
总结一下规律,你上面列的就是都用19打头的,你可以批量导入,写成http://58.com/rent/19(*)x.shtml

具体怎么样你要自己测试下

谢谢您回帖.
不过里面有许多18开头的,都是7位数字,只是上面举例子时我没写上. 18和19开头的网页几乎各占一半.
请问有什么好方法么??
发表于 2006-11-19 19:16:10 | 显示全部楼层
先做19的,做好后另外开一个任务,做18的,规则一样
 楼主| 发表于 2006-11-19 19:17:23 | 显示全部楼层
原帖由 梦想中文 于 2006-11-19 19:13 发表
让机器自动探测,不连贯的不要紧,探测出来没有数据就是了

哦,我刚接触火车头,没太明白您说的"机器自动探测"是什么意思,您能具体讲两句么?  谢谢谢谢.:)
发表于 2006-11-19 19:19:29 | 显示全部楼层
:L ,你设好规则就可以了,如果没有那么火车当然就搜不到,就不会返回结果
 楼主| 发表于 2006-11-19 19:25:13 | 显示全部楼层
原帖由 梦想中文 于 2006-11-19 19:19 发表
:L ,你设好规则就可以了,如果没有那么火车当然就搜不到,就不会返回结果

请问您指的是设置标题,内容等的开头和结尾符号么??
发表于 2006-11-19 19:28:46 | 显示全部楼层
我是说批量导入啊,你说的那是内容规则
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 18:53

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表