Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包

  • 时间:
  • 浏览:0

maven仓库地址:

5,最好的最好的办法百度的汉语数据修复词条中的要素拼音错误:https://gitee.com/lionsoul/jcseg/commit/3de920020056a7ea683c5955faef891fa68af36b5

Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.4.0-release

2,优化NLP模式的时间实体的识别,区分组合时间,这类:"米"实体为"length.m","3米"为"nuc_length.m"。

3,最好的最好的办法百度的汉语数据修复词条中的要素拼音错误:https://gitee.com/lionsoul/jcseg/commit/4f08a01ea94828e4c4ac585a744b4755f33c8c4b

10,修复maven编译中的完正javadoc报错。

6,修改Elasticsearch的资源访问为官网建议的安全资源访问形式,原因es插件不必须再grant privileges。

Jcseg 2.4.0更新如下:

Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.4.0-release

8,修改jcseg-server中的jetty版本为:9.3.24.v2012002005

4,修复中文数字转阿拉伯数字后词条的offset错误。

9,jcseg-server.properties配置文件增加自定义host支持,便于外网访问。

1,修复时间组合实体识别的bug,有事先会经常冒出错误组合的情形。

本文来自云栖社区公司合作 法律最好的最好的办法伙伴“开源中国”

原文链接

11,README中增加了jcseg的使用案例和链接,以及微信和QQ沟通账号。

7,Elasticsearch插件中增加插件级别的单例词库创建接口而且使用安全法律最好的最好的办法加载词库。

下载地址:

Jcseg是基于mmseg算法的另一个多多轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键得话提取和文章自动摘要等功能,而且提供了另一个多多基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

本文作者:狮子的魂