时光如砂 发表于 2014-2-26 16:14:41

火车头是不是不能采集u2b网页?

照着浏览器里面的网页源码写的采集规则全部没有效果。
就写了个规则 用前后匹配规则<html         </html> 把整个页面采出来。
发现80%都是flash的一个param标签,全是乱码:
<param name="flashvars" value="as_launched_in_country=1&amp;cc_asr=1&amp;loaderUrl=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DsFp5LPJ69EI&amp;max_dynamic_allocation_ad_tag_length=2040&amp;cc_font=Arial+Unicode+MS%2C+arial%2C+verdana%2C+_sans&amp;instream=True&amp;ad_host_tier=4304654&amp;ad_eurl=http%3A%2F%2Fwww.youtube.

flash 的下面还有一个标签 包含了下面这句话:
您使用的浏览器已过时,YouTube 不再支持这种浏览器。由于在该浏览器中 YouTube 中的某些功能可能不起作用,因此您看到的是精简版的视频网页。

时光如砂 发表于 2014-2-26 17:13:43

问题已经找到。
论坛群里面大神帮忙解决的。
换个user-agent就行了。方法在下面留给有同样问题的朋友
http://faq.locoy.com/q-731.html
页: [1]
查看完整版本: 火车头是不是不能采集u2b网页?