第一期培训教程系列之六【正则采集网址及使用教程】

bisn · 发表于 2007-11-7 16:51:34

辛苦了

vus520 · 发表于 2007-11-8 18:31:05

采集的最高境界是……

直接从百度获取网站地址,打开列表!

自动建立栏目列表,自动获取文章标题和内容插入到栏目!

获取网页中人名,电话,邮箱,公司名,公司电话,邮箱和地址!

hdmx · 发表于 2007-11-10 22:07:03

草~~火车头里面水深似海啊、！！

hdmx · 发表于 2007-11-10 22:11:56

原帖由 vus520 于 2007-11-8 18:31 发表
采集的最高境界是……

直接从百度获取网站地址,打开列表!

自动建立栏目列表,自动获取文章标题和内容插入到栏目!

获取网页中人名,电话,邮箱,公司名,公司电话,邮箱和地址!

你说的是采集的第二高境界

采集的最高境界是用自己的蜘蛛不通过百度直接爬到世界上任何一个网站或者个人电脑中获取相关资料，并且自动用智能算法吧相关数据进行整理加工。（比如要采集医药行业相关数据：会先进行关键字权重的换算，利用词库、主谓、词性、内容专业性词句的判断以算出这个关键词的权重，决定是否采集。或采集之后形成数据的位置——比如是出现在题目还是出现在简介还是出现在内容还是tag）筛选从新生成新鲜的数据，然后利用智能换算要求生成数据列表，选择相应的数据发布模块、模板以何种网络、软件结构生成。然后用新的的面貌出现在互联网上。网易——搜狐等就是这么做的。
而且这种采集已经是目前业界比较赚钱的通行方法了。相应的公司有一家：海纳数据。仅供参考

[ 本帖最后由 hdmx 于 2007-11-10 22:20 编辑 ]

vus520 · 发表于 2007-11-11 14:17:55

哈哈,理论上是可以实现的!
问题有一个!如果不通过百度,也不通过其它搜索引擎的网址,单说自己的蜘蛛,如何取得众多网站链接,如果他要自己去写自己的蜘蛛,从头开始的话,这样NB的人写的NB蜘蛛是不是又会制作更加NB的百度来?

现实是没有,目前只有一个百度,再一个现实是,网易和搜狐用了最高境界的蜘蛛也没有百度NB,再再NB的GG也没能跳出传统的蜘蛛模式!

哈哈!

grick · 发表于 2007-11-11 14:30:39

可以用穷举，自动生成链接。
然后逐个探测网站采集内容并自动发布。
下一代搜索引擎模式。

hdmx · 发表于 2007-11-11 20:26:39

原帖由 vus520 于 2007-11-11 14:17 发表
哈哈,理论上是可以实现的!
问题有一个!如果不通过百度,也不通过其它搜索引擎的网址,单说自己的蜘蛛,如何取得众多网站链接,如果他要自己去写自己的蜘蛛,从头开始的话,这样NB的人写的NB蜘蛛是不是又会制作更加NB的百度 ...

现实问题是：其实百度早几年就用的海纳的分词技术。
其实你可以看看它的网站：

http://www.hylanda.com/

海纳的蜘蛛：

http://www.hylanda.com/product/zhizhu/

高手过招，交流一下！
qq:317882485

[ 本帖最后由 hdmx 于 2007-11-11 20:32 编辑 ]

vus520 · 发表于 2007-11-12 00:37:01

果然NB!
在Php168出来的时候已经有所了解!

ygcfw · 发表于 2007-11-24 11:40:20

lanniao22 · 发表于 2007-12-7 11:45:14

原帖由 vus520 于 2007-11-5 00:49 发表
整整搞了一天,这两个教程~~
现在又是晚上了 @晕@

楼主太强了，哈。

为了兄弟们，也注意休息亚

帐号		自动登录	找回密码
密码			加入会员

第一期培训教程系列之六【正则采集网址及使用教程】

回复 undefined 的帖子

回复 14楼的帖子

回复 15楼的帖子

回复 17楼的帖子

第一期培训教程系列之六【正则采集网址及使用教程】

回复 undefined 的帖子

回复 14楼 的帖子

回复 15楼 的帖子

回复 17楼 的帖子

回复 14楼的帖子

回复 15楼的帖子

回复 17楼的帖子