【东哥福利】火车采集器V9 unicode汉字编码转换案例规则分享

lsd2015 发表于 2017-7-5 09:45:08

【往期福利】
【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享
【东哥福利】火车采集器版本选择攻略【东哥福利】火车采集器V9智联招聘信息采集规则分享【东哥福利】火车浏览器百度地图商家信息采集详细讲解【东哥福利】火车采集器V9知乎采集规则分享【东哥福利】火车采集器V9微信公众号文章采集规则分享【东哥福利】火车采集器V9优酷视频电视剧采集规则分享【东哥福利】火车采集器V9版JSon功能讲解及示例规则分享【东哥福利-新手必看】最新最全火车采集器V9版学习资料【东哥福利】火车采集器V9财富网业绩预告信息采集规则分享【东哥福利】火车采集器V9住哪儿网酒店信息采集规则分享
【东哥福利】火车采集器V9安居客小区信息采集规则分享
【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享
【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享【东可福利】火车采集器V9大众点评餐饮全国商家采集规则
-----------------------------------------------------------------------------
东哥微信号tony_lsd,添加请注明：东哥福利
------------------------------------------------------------------------------

【东哥福利】火车采集器V9 unicode编码转换案例规则分享

今天给大家分享的这个规则主要是应用到了汉字编码转换的问题，这里说的编码不是批“GBk”“UTF8”哦，而是unicode编码，先来讲下什么是unicode编码。

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

什么？还是不懂？那这样说吧，我们经常看到网站源码中这样的的字符“\u5730\u4e0e\u9999\”有字母数字和\组成，这就是Unicode码了，其实这些是汉字，那我么采集的时候，如何将这些字符转换成汉字呢？强大的火车采集器，当然有办法。请看案例讲解！

【案例讲解】
采集案例网址：http://www.jjmmw.com/news/cjzx?page=1 采集文章内容。

第一步：列表网址采集
通过网页源码查看，源码中并没有文章内容页的链接，那就需要使用抓包软件了，推荐使用Fiddler（相关教程：http://faq.locoy.com/search.html?keyword=Fiddler）。我们先打开Fiddler软件，然后点击网页分页，可以多点几个分页。通过抓包软件找到网址：“http://news.jjmmw.com/api/news_paginator/?slug=cjzx&page_size=13&page=3&description_length=60&callback=news_paginatorslugcjzxpagesize13page3descriptionlength60”
打开该网址是这样的，如下图：

其实这就是Unicode编码，不过这里还不需要进行转码，里面的汉字都是Unicode编码，如果你不了解的话，可能就错过了，其实这就是文章列表页，那么这个就是起始网址，“page=3”为分页参数，另外此网址发现可以精简为http://news.jjmmw.com/api/news_paginator/?slug=rcl&page_size=13&page=3后面的参数可以都不要，那么采集器上就可以这样设置http://news.jjmmw.com/api/news_p ... &page_size=13&page=[地址参数]，如图：

第二步：文章内容网址采集

找到列表页我们就要找文章页链接了。通过应该页面内容发现有标题、有时间、有ID等，好像没有文章链接，别着急，我们先来看看文章页网址的规则，我们通过http://www.jjmmw.com/news/cjzx?page=1这个页面，打开，然后随便点击一篇文章，文章的链接是这样的http://www.jjmmw.com/news/detail/1305128/ 这里面有一组数字“1305128”，我猜想这就是文章的ID，可以将这组数字在上面的页面中进行搜索，如果有，那就确认无误了。那这样就简单了，列表页我们只要采集这个ID数字就行了，然后通过网址拼接，就可以实现采集文章页链接了，像这样http://www.jjmmw.com/news/detail/[参数1]/本以为这样就可以了，没想到后面还有个坑。打开文章页http://www.jjmmw.com/news/detail/1305128/ ，通过查看源码，发现文章内容也并不在源码中，不用担心，同样使用上面提到的抓包软件进行抓包，通过抓包找到内容网址为http://news.jjmmw.com/api/news/1311618/?render=1&callback=news_1311618 那上面的网址拼接规则就要改成http://news.jjmmw.com/api/news/[参数1]/?render=1&callback=news_[参数1] 设置如图：

原理很简单了，我们只要采集到ID，然后再将ID拼接到内容网址中即可。

第三步：文章内容采集

上面提到此网站的文章内容也需要抓包，抓到的网址是http://news.jjmmw.com/api/news/1311618/?render=1&callback=news_1311618，我们打开此网址，如图：

文章内容在哪？分明就是一堆看不懂的字符啊，我们一开始讲到此案例是要unicode汉字编码转换，那就对了，这些就是unicode编码的汉字，我们需要将其采集下来并进行转换成真正汉字。文章的标题和内容都是unicode编码，没关系，只要有规则就能采集，规则设置如图：

开头字符串为pre_article"http://bbs.locoy.com/static/image/smiley/default/sad.gif*)title": " 结束为"},测试采集到的内容如下图：

是unicode编码，然后我们需要将采集到的数据进行转换，在数据处理中点+号，高级功能中有个“字符编码转换”，然后我们选择From Js String 即可，参照下图：

同样内容的采集进行同样的设置，如下图：

设置好后，我们进行测试采集，可以看到都是汉字啦，如下图：

小伙伴们学会了吗，赶紧去试试吧！
------------------------------------------------------------------------
本规则为火车采集器V9版规则，其他低版本不可使用。

免费版用户可使用。
本规则仅供广大用户学习交流参考，不可用以违法目的或商业用途，我们不对因使用此规则造成的任何法律问题承担责任。

商业版用户有问题或付费定制规则请联系官方客服QQ：800019423 服务热线：400-8757-060

欢迎关注官方微信公众号，及时了解最新信息
http://bbs.locoy.com/data/attachment/portal/201505/18/164446siqdlhdzszq1ttte.gif
联系我们
客服QQ：800019423
客服电话：400-8757-060
软件购买：http://www.locoy.com/buy

flg618730 发表于 2017-8-16 13:35:05

额。。原来在这里藏着，明白了。感谢

liulang8651477 发表于 2017-7-5 15:18:28

学习一下。。。。。。。。。。。。。

zjnuwy 发表于 2017-7-5 16:06:28

刚好对这种采集很困惑，谢谢分享。。。。

limingshan 发表于 2017-7-13 14:37:33

学习！学习！学习！学习！学习！学习！学习！学习！学习！学习！学习！

mohaixin110_1 发表于 2017-7-16 07:57:36

这个很屌不错嘛

712346867 发表于 2017-7-18 08:15:35

感谢.........................

zhangshengkun 发表于 2017-7-26 15:58:28

6666666666666666666666666666666666666

etashi 发表于 2017-8-25 16:29:30

:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol:lol

danji666 发表于 2017-9-1 03:37:04

unicode汉字编码转换案例规则分享

页: [1] 2

火车采集器软件交流官方论坛's Archiver

【东哥福利】火车采集器V9 unicode汉字编码转换案例规则分享