火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2104|回复: 2

采集时如何提取指定的字符信息

[复制链接]
发表于 2014-9-25 16:14:29 | 显示全部楼层 |阅读模式

1、采集TITLE时,提取包含有省市信息(位置不固定)的字符,比如北京、天津、上海、河北等,并保存为字段。
2、有一种情况需要进行处理,即TITLE中的省市信息是以简称出现(京、津、沪、冀),需要进行对等替换成北京、天津、上海、河北这样的字符;
3、另一种情况,即TITLE中同时匹配了多个省市信息,则不保存。
4、如果TITLE没有匹配上任何省市信息,则不保存。

请问用什么方式实现,能否提供具体的规则代码,十分感谢!
发表于 2014-9-25 16:18:21 | 显示全部楼层
你这种得弄插件才能实际的了。没有现成的代码的。
 楼主| 发表于 2014-9-25 17:20:53 | 显示全部楼层
303718 发表于 2014-9-25 16:18
你这种得弄插件才能实际的了。没有现成的代码的。

现在用自带的词库分词以及同义词功能,也可以实现自定义提取;但问题是,如果同时有2-3个字段需要提取多个不同类型的词,最好是能够用不同的词库,但系统目前似乎没有这个功能,比较繁琐一些,需要做提取后的排除添加。

希望系统能考虑调取不同的自定义词库。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 07:20

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表