原帖由 1860com 于 2008-10-22 06:18 发表 http://bbs.locoy.com/images/common/back.gif
http://user.qzone.qq.com/622005722/blog
qq博客这个有办法采集吗,绝对高难度,特别是列表,看看你有没有办法,我是败下阵了
bai-du-cn@qq.com
需要公开的话,我在这里讲一下。
不能公开的话,你留个QQ下来。
不是很难,但是很烦。
留名等待讲解。:ali1ls 。新手学习中。
原帖由 sanny 于 2008-10-22 07:19 发表 http://bbs.locoy.com/images/common/back.gif
我发一个,,火车头还没实现的,你能采吗?
http://www.baidu.com/s?wd=%BB%F0%B3%B5%CD%B7
标题就是列表的标题,内容是快照里的内容。你采采。。
不好意思,这个没有什么难度,
也许是没有弄明白你的意思吧,
细节处理就不搞了。。。
顺例说一下,
如果要把标题和内容整在一起,
可以用多页等方法来实现
[ 本帖最后由 faunus 于 2008-10-28 16:56 编辑 ]
原帖由 冲锋火车头 于 2008-10-22 10:13 发表 http://bbs.locoy.com/images/common/back.gif
http://www.mtime.com/showtime/China_Beijing_Chaoyang/1474/
采时间 !及时间链接里的票价
这个我粗看了一下,肯定能做,
只是跟火车的软件没有什么大的关系,
加入了很多混淆码,
而且做的很巧妙,
在每个字符前,
加一个DIV标识,
规律性还是有的。
-------------------
跟火车关系不大,
所有相关页面都可以下来,
是要把时间花在看JS,
然后呢正规则表达式用用好,
不打算在这个上面花时间了。
ali18ls
老师请教了
看到个这个地址http://www.gz028.com/cd_2s.asp?cd2s=1&p=2&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=3&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=4&/=1&//=&jie=
这个是分页的地址
获得分页的源码内
..
<a class=nei href=b/20081027221947.html target=_blank>
...
b/20081027221947.html这就是我需要的地址
不过火车整理出来的地址变成了
http://www.gz028.com/cd_2s.asp?cd2s=1&p=1&/=1/b/20081028112122.html
正确地址应该是
http://www.gz028.com/b/20081028112122.html
这种情况怎么办?
我的规则目前是这样的
http://www.gz028.com/cd_2s.asp?cd2s=1&p=(*)&/=1
必须包含的地址是
cd_2s.asp?cd2s=1&p=(*)&/=1/b/200810(*).html
[ 本帖最后由 84542649 于 2008-10-28 17:15 编辑 ]
:ali0ls :ali0ls 支持一下楼主
原帖由 faunus 于 2008-10-28 16:42 发表 http://bbs.locoy.com/images/common/back.gif
不好意思,这个没有什么难度,
也许是没有弄明白你的意思吧,
细节处理就不搞了。。。
顺例说一下,
如果要把标题和内容整在一起,
可以用多页等方法来实现
你没明白我的意思。。标题你都没循环,还有内容也是要循环的。
另外你写好后可以把规则传上来,我就可以确定你理解我的意思没。
:lol
帮我弄一下这个,要能采到内容。我试了太久了。
http://ypk.39.net/yaopin/jrzt/fstt/xiyao-1.shtml,这个是列表,采集目标是里面的详细说明书。里面的说明都要。
弄了大半天,方法试过N多种,就是没有一种能成功。
说明:试过多页采集,试过二级网址采集,试过正则,试过只采集说明网址然后再专采集说明网址的内容
在在规则里测试都没有问题,不管是多页还是二级还是正则都没有问题,可是,在采集网址和内容到发布的时候却出了问题,只能采集到网址,采集内容的时候却什么都没有。如果只是说明网址直接采,没有经过设置的,能采集,但只要一截内容后采集就出了问题,能采集到内容,但放到数据库的时候出问题,看看这个谁能采集?
还有一个,就是采集这个网站感觉电脑变慢了。。
原帖由 84542649 于 2008-10-28 17:09 发表 http://bbs.locoy.com/images/common/back.gif
老师请教了
看到个这个地址http://www.gz028.com/cd_2s.asp?cd2s=1&p=2&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=3&/=1&//=&jie=
http://www.gz028.com/cd_2s.asp?cd2s=1&p=4&/=1&//=&jie=
这个是 ...
时间就是生命,看看啊是你要的。
好像就是自定义链接了。