mshaotian 发表于 2008-9-28 23:50:54

51.com中博客的标题如何采集啊?急急急~!!

谁谁知道51博客中的标题如何采集啊??帮忙解决这个问题啊!!
如:http://home.51.com/cn16888 它的标题是:華麗苦都
在这里如何采集其他51博客中的这个标题啊??
请各位大侠不要说简单~!!
请求留下采集这个标题的实际方法~!!@在下感激不尽~@@

chenfy 发表于 2008-9-29 00:24:11

不懂,没有采集过这种,你这种属于是一个博客的名字了。

mshaotian 发表于 2008-9-29 00:35:30

原帖由 chenfy 于 2008-9-29 00:24 发表 http://bbs.locoy.com/images/common/back.gif
不懂,没有采集过这种,你这种属于是一个博客的名字了。
你光做广告~!不解决问题~~!鄙视你~@@像你这种广告大侠~!!真可恶~!!

aven 发表于 2008-9-29 02:17:36

我看了一下,采到标题还是挺容易吗。

只不过是个多页采集外加unicode转码罢了!

多页采集的文件是经unicode编码的js文件

得到的文件内容全如类似

\u83ef\u9e97\u82e6\u90fd等unicode后的

须在接口文件中改造一下,我写了一个小函数

可以使unicode正确转码为gbk或utf8等。


用08版才能采到哦。规则我就不上传了,上两个图吧


多页采集设置:


采集结果标题:




函数转码后标题:








[ 本帖最后由 aven 于 2008-9-29 02:20 编辑 ]

soarb 发表于 2008-9-29 11:39:03

果然是高手都是低调的。
我把楼主的接着简单化下。
用楼上的方示得到unicode符,再下载张unicode符表,
制做成火车头替换格式 "01→1○02→2○"。在mdb文件中导入。

mshaotian 发表于 2008-9-29 12:21:14

原帖由 aven 于 2008-9-29 02:17 发表 http://bbs.locoy.com/images/common/back.gif
我看了一下,采到标题还是挺容易吗。

只不过是个多页采集外加unicode转码罢了!

多页采集的文件是经unicode编码的js文件

得到的文件内容全如类似

\u83ef\u9e97\u82e6\u90fd等unicode后的

须在接口文件 ...
谢谢大侠~!了~!!果然是高手~@@谢谢~@!@

gzricky 发表于 2008-12-20 09:55:09

看不清,说好点。真的是

lovebaidu 发表于 2008-12-20 10:31:19

unicode符原来你也是一种语言啊。

xiongyujie37 发表于 2008-12-20 18:54:03

牛X不是吹的
火车不是推的。。。

lovebaidu 发表于 2008-12-21 09:58:09

kwg kwg 一哈。xiong ge 您厉害啊
页: [1]
查看完整版本: 51.com中博客的标题如何采集啊?急急急~!!