newdpx@163.com 发表于 2014-9-25 16:14:29

采集时如何提取指定的字符信息


1、采集TITLE时,提取包含有省市信息(位置不固定)的字符,比如北京、天津、上海、河北等,并保存为字段。
2、有一种情况需要进行处理,即TITLE中的省市信息是以简称出现(京、津、沪、冀),需要进行对等替换成北京、天津、上海、河北这样的字符;
3、另一种情况,即TITLE中同时匹配了多个省市信息,则不保存。
4、如果TITLE没有匹配上任何省市信息,则不保存。

请问用什么方式实现,能否提供具体的规则代码,十分感谢!

303718 发表于 2014-9-25 16:18:21

你这种得弄插件才能实际的了。没有现成的代码的。

newdpx@163.com 发表于 2014-9-25 17:20:53

303718 发表于 2014-9-25 16:18 static/image/common/back.gif
你这种得弄插件才能实际的了。没有现成的代码的。

现在用自带的词库分词以及同义词功能,也可以实现自定义提取;但问题是,如果同时有2-3个字段需要提取多个不同类型的词,最好是能够用不同的词库,但系统目前似乎没有这个功能,比较繁琐一些,需要做提取后的排除添加。

希望系统能考虑调取不同的自定义词库。
页: [1]
查看完整版本: 采集时如何提取指定的字符信息