火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
楼主: faunus

有奖征集难采网站(只会采还没学会发)

[复制链接]
 楼主| 发表于 2008-10-29 09:07:11 | 显示全部楼层
原帖由 chenfy 于 2008-10-28 23:11 发表
帮我弄一下这个,要能采到内容。我试了太久了。
    http://ypk.39.net/yaopin/jrzt/fstt/xiyao-1.shtml,这个是列表,采集目标是里面的详细说明书。里面的说明都要。
  弄了大半天,方法试过N多种,就是没有 ...


版主研究了那么长时间,一定有道理的吧。看文字描术,好像是指正式采内容时出现问题。(发布从来没用过,暂时不想关心。)
=========================
测试,正式都能采。
但只要一截内容后采集就出了问题,能采集到内容”这个是什么问题。

[ 本帖最后由 faunus 于 2008-10-29 09:39 编辑 ]
发表于 2008-10-29 09:54:15 | 显示全部楼层
原帖由 faunus 于 2008-10-28 16:47 发表


这个我粗看了一下,肯定能做,
只是跟火车的软件没有什么大的关系,
加入了很多混淆码,
而且做的很巧妙,
在每个字符前,
加一个DIV标识,
规律性还是有的。
-------------------
跟火车关系不大,
所 ...


郁闷~~~ ~~
 楼主| 发表于 2008-10-29 11:23:10 | 显示全部楼层
原帖由 冲锋火车头 于 2008-10-29 09:54 发表


郁闷~~~ ~~

等我出差回来一定帮你解决,要上京一趟,时间宝贵啊。

本意是想搜集一些火车采不了网址或采不了内容的案例,提供给新版火车做参考或做测试用的。这种东东不是原则上的东西,又太费脑细胞,
 楼主| 发表于 2008-10-29 12:14:39 | 显示全部楼层

http://bbs.locoy.com/pm.php?action=view&folder=inbox&pmid=148956

原始短消息: 跟你出个难题
以前请教过火车头一直没有解决,amamzon一直很难采,特别是里面的视频,比如下面这一页http://www.amazon.com/slide-olog ... 2347/ref=pd_sim_b_1



[1]http://www.amazon.com/slide-ology-Science-Creating-Presentations/dp/0596522347/ref=pd_sim_b_1
先得到下段地址
<form name="videoValues">  
<input type="hidden" name="ns_11R2CQG2FCVWTE0P3WJ6_11129_hiddenId" value="mVTIONCAZ2OFV">  
<input type="hidden" name="ns_11R2CQG2FCVWTE0P3WJ6_11129_hiddenSlate" value="http://g-ecx.images-amazon.com/images/G/01/oreilly/slide.ology._SX320_CR0,0,0,0_PIen-us-vendor-play-shuttle-off,BottomLeft,0,43_.jpg">  
<input type="hidden" name="ns_11R2CQG2FCVWTE0P3WJ6_11129_hiddenRollOver" value="http://g-ecx.images-amazon.com/images/G/01/oreilly/slide.ology._SX320_CR0,0,0,0_PIen-us-vendor-play-shuttle-on,BottomLeft,0,43_.jpg">  
<input type="hidden" name="ns_11R2CQG2FCVWTE0P3WJ6_11129_hiddenPlayerVersion" value="3">
</form>


[2]提取mVTIONCAZ2OFV组合成这个地址:手动地址
thhp://www.amazon.com/gp/mpd/getplaylist-v2/mVTIONCAZ2OFV/189-0996391-1999904


[3]提取B1VO-8WWctS.flv组合成这个地址:
http://ec1.images-amazon.com/images/I/B1VO-8WWctS.flv

[4]得到以下头文件-----------request--------------
GET /images/I/B1VO-8WWctS.flv HTTP/1.1。
Host: ec1.images-amazon.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1b1) Gecko/20081007 Firefox/3.1b1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-cn,zh;q=0.5
Accept-Encoding: gzip,deflateAccept-Charset: gb2312,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
-----------response--------------
HTTP/1.1 200 OK
Date: Wed, 29 Oct 2008 03:32:15
GMTServer: ServerCache-Control:
max-age=630720000Last-Modified: Sat, 09 Aug 2008 00:35:46
GMTX-Pad: avoid browser bug
X-Cache: MISS from cdn-images.amazon.com
X-Cache-Lookup: MISS from cdn-images.amazon.com:8082
Via: 1.0 8082-ms-cache-l1-6003.iad6.amazon.com:8082 (squid)
Via: 1.0 ics_server.xpc-mii.net (XLR 2.3.0.2.23a)
Content-Type: video/x-flvVia: 1.1 ics_server.xpc-mii.net (XLR 2.3.0.2.23a)
Connection: keep-aliveContent-Length: 4033281
============================
<?xml version="1.0" encoding="UTF-8"?>
<show id="mVTIONCAZ2OFV" title="Author+Nancy+Duarte+Talks+About+Putting+Energy+Into+Your+Presentation"  >
<slate src="http://g-ecx.images-amazon.com/images/G/01/oreilly/slide.ology.jpg" width="320" height="240" />
<videoObject id="m3Q15C69A0C3YV" index="0" title="Author+Nancy+Duarte+Talks+About+Putting+Energy+Into+Your+Presentation"  >
<smil>
<head>
</head>
<body>
<switch>
<video src="http://ec1.images-amazon.com/images/I/B1VO-8WWctS.flv" system-bitrate="495352" dur="65" />
<video src="http://ec1.images-amazon.com/images/I/B1aMSv408rS.flv" system-bitrate="391330" dur="65" />
<video src="http://ec1.images-amazon.com/images/I/91UgHQl0SUL.flv" system-bitrate="116242" dur="65" />
<video src="http://ec1.images-amazon.com/images/I/81mt7AJJHtL.flv" system-bitrate="59122" dur="65" />
</switch></body></smil></videoObject></show>

需要两次手动地址转换另外想想办法,还有用的是缓存,差不多就这个思路,具体怎么做就不搞了。


对不起,您两次发消息间隔少于 40 秒,请不要灌水!

超过好多时间还是不行,还不能标定颜色,这发在这里了。





车车要的两次VIA可重现的这里有~~


[ 本帖最后由 faunus 于 2008-10-29 12:23 编辑 ]
 楼主| 发表于 2008-10-29 12:43:46 | 显示全部楼层

两次+可重现+VIA头

===自采头===
X-Pad:avoid browser bug
X-Cache:MISS from cdn-images.amazon.com
X-Cache-Lookup:MISS from cdn-images.amazon.com:8080
Cache-Control:max-age=630720000
Date:Tue, 28 Oct 2008 20:11:01 GMT
Last-Modified:Sat, 09 Aug 2008 00:35:46 GMT
Server:Server
Via:1.0 8080-ms-cache-l1-6002.iad6.amazon.com:8080 (squid),1.0 ics_server.xpc-mii.net (XLR 2.3.0.2.23a),1.1 ics_server.xpc-mii.net (XLR 2.3.0.2.23a)
Content-Type:video/x-flv
Age:30119
Connection:keep-alive
Content-Length:4033281
===捕获头===
HTTP/1.1 200 OK
Date: Wed, 29 Oct 2008 03:32:15

GMTServer: ServerCache-Control:

max-age=630720000Last-Modified: Sat, 09 Aug 2008 00:35:46

GMTX-Pad: avoid browser bug
X-Cache: MISS from cdn-images.amazon.com
X-Cache-Lookup: MISS from cdn-images.amazon.com:8082
Via: 1.0 8082-ms-cache-l1-6003.iad6.amazon.com:8082 (squid)
Via: 1.0 ics_server.xpc-mii.net (XLR 2.3.0.2.23a)
Content-Type: video/x-flvVia: 1.1 ics_server.xpc-mii.net (XLR 2.3.0.2.23a)
Connection: keep-aliveContent-Length: 4033281


[ 本帖最后由 faunus 于 2008-10-29 12:47 编辑 ]
发表于 2008-10-30 11:28:02 | 显示全部楼层
http://pp.blog.163.com/p/ft_good/ob_createTime/ps_18/100_1.html
可以找到图片地址,但火车头无法下载,他是先找下载链接,然后再过滤的吧?请帮忙,谢谢.
 楼主| 发表于 2008-10-30 16:57:18 | 显示全部楼层
原帖由 bashi1 于 2008-10-30 11:28 发表
http://pp.blog.163.com/p/ft_good/ob_createTime/ps_18/100_1.html
可以找到图片地址,但火车头无法下载,他是先找下载链接,然后再过滤的吧?请帮忙,谢谢.


网址我不看了,但你说的是对的。
办法是用手工地址把JPG临时改为别的后缀就行了。
发表于 2008-10-31 08:16:06 | 显示全部楼层
辛苦了,帮顶....
发表于 2008-10-31 09:12:45 | 显示全部楼层
原帖由 chenfy 于 2008-10-28 23:11 发表
帮我弄一下这个,要能采到内容。我试了太久了。
    http://ypk.39.net/yaopin/jrzt/fstt/xiyao-1.shtml,这个是列表,采集目标是里面的详细说明书。里面的说明都要。
  弄了大半天,方法试过N多种,就是没有 ...

这个难度确实比较大。

我也遇到同样的问题,我来总结一下:看下面:

超级难度,高手,版主,请进。。列表页--->信息页链接正则--》获取到的列表为:
http://www.xxxx.com/a/b/c/1.html
http://www.xxxx.com/a/b/c/2.html
http://www.xxxx.com/a/b/c/3.html
http://www.xxxx.com/a/b/c/4.html
获取到的页面基本正确,但只是大概的信息。

真正的详细信息要点击:http://www.xxxx.com/a/b/c/xx.html上的连接才能看到。但有规律,如详细信息地址为:
http://www.xxxx.com/a/b/c/xiangxi/xx.html(详细地址,真正要采集的,但列表上没有连接)
http://www.xxxx.com/a/b/c/4.html(获取到的列表值,只有部分信息)
 楼主| 发表于 2008-10-31 13:08:34 | 显示全部楼层
呵呵,不错。
难度大小是相对的,
chenfy的问题不在于怎么采,而是:

测试时:能采到地址,能采到内容。
正式时:能采到地址,能采到内容,但是采内容的部分就不行。

建议:删除后重建规则,火车的问题还是环境的问题很难判断。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 13:46

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表