火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
12
返回列表 发新帖
楼主: 583774026

新浪防采集做的真牛逼,居然没一个人知道怎么采集

[复制链接]
发表于 2011-1-13 22:26:54 | 显示全部楼层
一点难度也没有,还可以进行伪原创呢!在做,做好发你一份,测试用的只给你一个页面的采集规则,自己学着点!
发表于 2011-1-13 22:40:44 | 显示全部楼层

做好了,全程只需要2分钟搞定,还植入了伪原创插件呢!其实除了某种特殊调用模式的页面都可以采集,这个新浪的源代码超简单,一个地址就可以采集他全部的文章,比起其他的网站采集还要容易些呢!
难道你没看出他的源代码是有规则性的吗?举例:var allinfo='/ec/2011-01-13/7175.html*南方都市报:揭秘网购十大骗局*2011-01-13*10:29:41^ 这样为一个文章。没有了完整地址就把你难倒了还是?/ec/2011-01-13/7175.html这个不是地址吗?补全了不就可以了?他的地址为/ec/开头,他完整地址为http://ec.sina.com.cn/ec/2011-01-13/7175.html,那么,我就取出/ec/为脚本开头,*为脚本结尾,取出地址2011-01-13/7175.html,然后把地址补全http://ec.sina.com.cn/ec/,因为我取了/ec/为脚本开头,所以这里要把/ec/在完整地址里给补上。简单吧?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-1-14 10:31:51 | 显示全部楼层
回复  52listen


    你自己看看源码在说好不?还EASY。。。   not easy;  it is hard
583774026 发表于 2011-1-12 19:29



你要采集的内容是什么?这个才是hard的部分。如果纯粹只是采集网址和标题内容之类的,诚如上面一些兄弟说的,it is easy.

p.s. 标题党的做法很不可取
 楼主| 发表于 2011-1-26 10:20:31 | 显示全部楼层
隔了一个月来看了下;自己后来摸索出来了;没想到有好心人帮写了;呵呵  十分感谢
发表于 2011-1-28 13:48:15 | 显示全部楼层
这个太简单了 吧

^/ec/2011-01-28/8022.html*电子商务融资需谨慎 吃进去的还得吐出来*2011-01-28*09:14:49
发表于 2011-2-24 15:22:39 | 显示全部楼层
这个很好采啊!!!! 我天天都在采
发表于 2011-3-9 01:36:14 | 显示全部楼层
新浪圈子-博客[q.blog.sina.com.cn]采集规则分享
http://www.dataindex.org/forum-viewthread-tid-268-fromuid-2.html
发表于 2011-4-7 12:21:22 | 显示全部楼层
发帖就要支持~~~~~~~~定期
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-19 00:30

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表