新浪防采集做的真牛逼，居然没一个人知道怎么采集 - 第2页 - 规则模块插件资源区 - 火车采集器软件交流官方论坛

chlove 发表于 2011-1-13 22:26:54

一点难度也没有，还可以进行伪原创呢！在做，做好发你一份，测试用的只给你一个页面的采集规则，自己学着点！

chlove 发表于 2011-1-13 22:40:44

做好了，全程只需要2分钟搞定，还植入了伪原创插件呢！其实除了某种特殊调用模式的页面都可以采集，这个新浪的源代码超简单，一个地址就可以采集他全部的文章，比起其他的网站采集还要容易些呢！
难道你没看出他的源代码是有规则性的吗？举例：var allinfo='/ec/2011-01-13/7175.html*南方都市报：揭秘网购十大骗局*2011-01-13*10:29:41^ 这样为一个文章。没有了完整地址就把你难倒了还是？/ec/2011-01-13/7175.html这个不是地址吗？补全了不就可以了？他的地址为/ec/开头，他完整地址为http://ec.sina.com.cn/ec/2011-01-13/7175.html，那么，我就取出/ec/为脚本开头，*为脚本结尾，取出地址2011-01-13/7175.html，然后把地址补全http://ec.sina.com.cn/ec/，因为我取了/ec/为脚本开头，所以这里要把/ec/在完整地址里给补上。简单吧？

live2learn 发表于 2011-1-14 10:31:51

回复52listen

你自己看看源码在说好不？还EASY。。。 not easy;it is hard
583774026 发表于 2011-1-12 19:29 http://bbs.locoy.com/images/common/back.gif

你要采集的内容是什么？这个才是hard的部分。如果纯粹只是采集网址和标题内容之类的，诚如上面一些兄弟说的，it is easy.

p.s. 标题党的做法很不可取

583774026 发表于 2011-1-26 10:20:31

隔了一个月来看了下；自己后来摸索出来了；没想到有好心人帮写了；呵呵十分感谢

wangbinyuyao 发表于 2011-1-28 13:48:15

这个太简单了吧

^/ec/2011-01-28/8022.html*电子商务融资需谨慎吃进去的还得吐出来*2011-01-28*09:14:49

klxz8 发表于 2011-2-24 15:22:39

这个很好采啊！！！！我天天都在采

solotraveler 发表于 2011-3-9 01:36:14

新浪圈子-博客采集规则分享
http://www.dataindex.org/forum-viewthread-tid-268-fromuid-2.html

wian1314 发表于 2011-4-7 12:21:22

发帖就要支持~~~~~~~~定期

页: 1 [2]

火车采集器软件交流官方论坛's Archiver