火车头是不是不能采集u2b网页?
照着浏览器里面的网页源码写的采集规则全部没有效果。就写了个规则 用前后匹配规则<html </html> 把整个页面采出来。
发现80%都是flash的一个param标签,全是乱码:
<param name="flashvars" value="as_launched_in_country=1&cc_asr=1&loaderUrl=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DsFp5LPJ69EI&max_dynamic_allocation_ad_tag_length=2040&cc_font=Arial+Unicode+MS%2C+arial%2C+verdana%2C+_sans&instream=True&ad_host_tier=4304654&ad_eurl=http%3A%2F%2Fwww.youtube.
flash 的下面还有一个标签 包含了下面这句话:
您使用的浏览器已过时,YouTube 不再支持这种浏览器。由于在该浏览器中 YouTube 中的某些功能可能不起作用,因此您看到的是精简版的视频网页。
问题已经找到。
论坛群里面大神帮忙解决的。
换个user-agent就行了。方法在下面留给有同样问题的朋友
http://faq.locoy.com/q-731.html
页:
[1]