做好了,全程只需要2分钟搞定,还植入了伪原创插件呢!其实除了某种特殊调用模式的页面都可以采集,这个新浪的源代码超简单,一个地址就可以采集他全部的文章,比起其他的网站采集还要容易些呢!
难道你没看出他的源代码是有规则性的吗?举例:var allinfo='/ec/2011-01-13/7175.html*南方都市报:揭秘网购十大骗局*2011-01-13*10:29:41^ 这样为一个文章。没有了完整地址就把你难倒了还是?/ec/2011-01-13/7175.html这个不是地址吗?补全了不就可以了?他的地址为/ec/开头,他完整地址为http://ec.sina.com.cn/ec/2011-01-13/7175.html,那么,我就取出/ec/为脚本开头,*为脚本结尾,取出地址2011-01-13/7175.html,然后把地址补全http://ec.sina.com.cn/ec/,因为我取了/ec/为脚本开头,所以这里要把/ec/在完整地址里给补上。简单吧? 回复52listen
你自己看看源码在说好不?还EASY。。。 not easy;it is hard
583774026 发表于 2011-1-12 19:29 http://bbs.locoy.com/images/common/back.gif
你要采集的内容是什么?这个才是hard的部分。如果纯粹只是采集网址和标题内容之类的,诚如上面一些兄弟说的,it is easy.
p.s. 标题党的做法很不可取 隔了一个月来看了下;自己后来摸索出来了;没想到有好心人帮写了;呵呵十分感谢 这个太简单了 吧
^/ec/2011-01-28/8022.html*电子商务融资需谨慎 吃进去的还得吐出来*2011-01-28*09:14:49 这个很好采啊!!!! 我天天都在采 新浪圈子-博客采集规则分享
http://www.dataindex.org/forum-viewthread-tid-268-fromuid-2.html 发帖就要支持~~~~~~~~定期
页:
1
[2]