chlove 发表于 2011-1-13 22:26:54

一点难度也没有,还可以进行伪原创呢!在做,做好发你一份,测试用的只给你一个页面的采集规则,自己学着点!

chlove 发表于 2011-1-13 22:40:44


做好了,全程只需要2分钟搞定,还植入了伪原创插件呢!其实除了某种特殊调用模式的页面都可以采集,这个新浪的源代码超简单,一个地址就可以采集他全部的文章,比起其他的网站采集还要容易些呢!
难道你没看出他的源代码是有规则性的吗?举例:var allinfo='/ec/2011-01-13/7175.html*南方都市报:揭秘网购十大骗局*2011-01-13*10:29:41^ 这样为一个文章。没有了完整地址就把你难倒了还是?/ec/2011-01-13/7175.html这个不是地址吗?补全了不就可以了?他的地址为/ec/开头,他完整地址为http://ec.sina.com.cn/ec/2011-01-13/7175.html,那么,我就取出/ec/为脚本开头,*为脚本结尾,取出地址2011-01-13/7175.html,然后把地址补全http://ec.sina.com.cn/ec/,因为我取了/ec/为脚本开头,所以这里要把/ec/在完整地址里给补上。简单吧?

live2learn 发表于 2011-1-14 10:31:51

回复52listen


    你自己看看源码在说好不?还EASY。。。   not easy;it is hard
583774026 发表于 2011-1-12 19:29 http://bbs.locoy.com/images/common/back.gif


你要采集的内容是什么?这个才是hard的部分。如果纯粹只是采集网址和标题内容之类的,诚如上面一些兄弟说的,it is easy.

p.s. 标题党的做法很不可取

583774026 发表于 2011-1-26 10:20:31

隔了一个月来看了下;自己后来摸索出来了;没想到有好心人帮写了;呵呵十分感谢

wangbinyuyao 发表于 2011-1-28 13:48:15

这个太简单了 吧

^/ec/2011-01-28/8022.html*电子商务融资需谨慎 吃进去的还得吐出来*2011-01-28*09:14:49

klxz8 发表于 2011-2-24 15:22:39

这个很好采啊!!!! 我天天都在采

solotraveler 发表于 2011-3-9 01:36:14

新浪圈子-博客采集规则分享
http://www.dataindex.org/forum-viewthread-tid-268-fromuid-2.html

wian1314 发表于 2011-4-7 12:21:22

发帖就要支持~~~~~~~~定期
页: 1 [2]
查看完整版本: 新浪防采集做的真牛逼,居然没一个人知道怎么采集