分词系统
Friso(高性能中文分词器) v1.6.4免费版Friso是一款开源的高性能中文分词器,是使用c语言开发的,提供了mmseg算法 Friso独创的优化算法和简易模式、复杂模式、检测模式、最多模式四种切分模式,完全基于模块化设计和实现,可以很方便的植入其他程序中,源码无需修改就能在各种平台下编译使用!软件功能Friso核心功能:中文分词:mmseg算法 Friso 独创的优化算法,四种切分模式。关键字提取:基于textRank算法。关键短语提取:基于textRank算法。关键句子提取:基于textRank算法。Friso中文分词:四种切分模式:简易模式:FMM 算法,适合速度要求场合。复杂模式- MMSEG 四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.6.1版本开始)。最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。分词功能特性:同时支持对 UTF-8/GBK 编码的切分,支持 php5 和 php7 扩展和 sphinx token 插件。支持自定义词库。在 dict 文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。简体/繁体/简体混合支持, 可以方便的针对简体,繁体或者简繁体切分。同时还可以以此实现简繁体的相互检索。支持中英/英中混合词的识别(维护词库可以识别任何一种组合)。例如:卡拉ok, 漂亮mm, c语言,IC卡,哆啦a梦。很好的英文支持,英文标点组合词?.原文转自:http://www.xiazaila.com/soft/27406.html