火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3011|回复: 0

免费版也能使用中文分词的方法

[复制链接]
发表于 2012-10-4 14:52:07 | 显示全部楼层 |阅读模式
火车的中文分词很强大,可惜是收费功能,昨天研究了下,免费版要用也可以,只是效果会差一些

方法思路如下

网上有个不错的分词工具:http://www.ftphp.com/scws/demo/pscws23/demo.php?mydata=这里是文章内容&autodis=yes&ignore=yes&dict=xdb&version=3

设定一个关键词标签,采集上面页面的分词结果。当然,我们要传递需要分词的内容过去,所以我们需要建立一个多页,多页加工后的网址为http://www.ftphp.com/scws/demo/pscws23/demo.php?mydata=[参数1]&autodis=yes&ignore=yes&dict=xdb&version=3,这里的参数1可以是我们采集到的文章标题

通过这种方法,我们就可以在采集目标站的同时,从上述网址中获得该标题的分词结果作为我们的关键词了,比如当你发布{今天天气不错}的文章的时候,你就能获得三个关键词:今天 天气 不错           
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 14:28

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表