火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
楼主: faunus

有奖征集难采网站(只会采还没学会发)

[复制链接]
 楼主| 发表于 2008-10-28 16:25:14 | 显示全部楼层
原帖由 1860com 于 2008-10-22 06:18 发表
http://user.qzone.qq.com/622005722/blog

qq博客这个有办法采集吗,绝对高难度,特别是列表,看看你有没有办法,我是败下阵了
bai-du-cn@qq.com


需要公开的话,我在这里讲一下。
不能公开的话,你留个QQ下来。

不是很难,但是很烦。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2008-10-28 16:29:41 | 显示全部楼层
留名等待讲解。 。新手学习中。
 楼主| 发表于 2008-10-28 16:42:57 | 显示全部楼层
原帖由 sanny 于 2008-10-22 07:19 发表
我发一个,,火车头还没实现的,你能采吗?

http://www.baidu.com/s?wd=%BB%F0%B3%B5%CD%B7

标题就是列表的标题,内容是快照里的内容。你采采。。


不好意思,这个没有什么难度,
也许是没有弄明白你的意思吧,
细节处理就不搞了。。。

顺例说一下,
如果要把标题和内容整在一起,
可以用多页等方法来实现

[ 本帖最后由 faunus 于 2008-10-28 16:56 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2008-10-28 16:47:18 | 显示全部楼层
原帖由 冲锋火车头 于 2008-10-22 10:13 发表
http://www.mtime.com/showtime/China_Beijing_Chaoyang/1474/
采时间 !及时间链接里的票价


这个我粗看了一下,肯定能做,
只是跟火车的软件没有什么大的关系,
加入了很多混淆码,
而且做的很巧妙,
在每个字符前,
加一个DIV标识,
规律性还是有的。
-------------------
跟火车关系不大,
所有相关页面都可以下来,
是要把时间花在看JS,
然后呢正规则表达式用用好,
不打算在这个上面花时间了。
发表于 2008-10-28 17:09:21 | 显示全部楼层
老师请教了
看到个这个地址http://www.gz028.com/cd_2s.asp?cd2s=1&p=2&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=3&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=4&/=1&//=&jie=
这个是分页的地址
获得分页的源码内
..
<a class=nei href=b/20081027221947.html target=_blank>
...
b/20081027221947.html  这就是我需要的地址

不过火车整理出来的地址变成了
http://www.gz028.com/cd_2s.asp?cd2s=1&p=1&/=1/b/20081028112122.html

正确地址应该是
http://www.gz028.com/b/20081028112122.html

这种情况怎么办?



我的规则目前是这样的

http://www.gz028.com/cd_2s.asp?cd2s=1&p=(*)&/=1


必须包含的地址是
cd_2s.asp?cd2s=1&p=(*)&/=1/b/200810(*).html

[ 本帖最后由 84542649 于 2008-10-28 17:15 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2008-10-28 17:38:44 | 显示全部楼层
支持一下楼主
发表于 2008-10-28 21:43:41 | 显示全部楼层
原帖由 faunus 于 2008-10-28 16:42 发表


不好意思,这个没有什么难度,
也许是没有弄明白你的意思吧,
细节处理就不搞了。。。

顺例说一下,
如果要把标题和内容整在一起,
可以用多页等方法来实现


你没明白我的意思。。标题你都没循环,还有内容也是要循环的。
另外你写好后可以把规则传上来,我就可以确定你理解我的意思没。
发表于 2008-10-28 22:49:00 | 显示全部楼层
发表于 2008-10-28 23:11:58 | 显示全部楼层
帮我弄一下这个,要能采到内容。我试了太久了。
    http://ypk.39.net/yaopin/jrzt/fstt/xiyao-1.shtml,这个是列表,采集目标是里面的详细说明书。里面的说明都要。
  弄了大半天,方法试过N多种,就是没有一种能成功。
   说明:试过多页采集,试过二级网址采集,试过正则,试过只采集说明网址然后再专采集说明网址的内容
  在在规则里测试都没有问题,不管是多页还是二级还是正则都没有问题,可是,在采集网址和内容到发布的时候却出了问题,只能采集到网址,采集内容的时候却什么都没有。如果只是说明网址直接采,没有经过设置的,能采集,但只要一截内容后采集就出了问题,能采集到内容,但放到数据库的时候出问题,看看这个谁能采集?
  还有一个,就是采集这个网站感觉电脑变慢了。。
 楼主| 发表于 2008-10-29 09:03:05 | 显示全部楼层
原帖由 84542649 于 2008-10-28 17:09 发表
老师请教了
看到个这个地址http://www.gz028.com/cd_2s.asp?cd2s=1&amp;p=2&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=3&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=4&/=1&//=&jie=
这个是 ...


时间就是生命,看看啊是你要的。
好像就是自定义链接了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 13:45

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表