/cocolian-nlp

本项目目的在于构建一个标准化的NLP处理框架,提供企业级的API,以及各种推荐实现和测试包。 目前国内外有不少NLP语言包,包括中科院、复旦大学的,通过对这些常用NLP软件的封装,可以为企业提供一个可以根据需要来对比和无缝切换底层实现的NLP框架。

Primary LanguageJavaApache License 2.0Apache-2.0

cocolian(原jigsaw)中文自然语言处理java包

开发目的

本项目目的在于构建一个轻量级NLP处理框架,提供标准API和企业级的实现。 目前国内外有不少NLP实现包,包括中科院、复旦大学、斯坦福大学等学校和研究机构,都有自己的作品。 此外有些NLP研究人员也有自己的实现,如ansj等。 2012年本人在开发一个NLP相关项目时,需要寻找一些开源的实现来加快进度。 可是学校、研究院所提供的实现,算法先进,但是代码难懂,架构不清晰; 而爱好者提供的实现,bug多,算法比较初级。都很难达到企业级应用的要求。 为此,建立这个项目,希望NLP研究者和资深的程序员能够良好的结合起来,提供标准化的接口以及比较全面的算法实现, 特别是针对中文的自然语言处理实现。

内容简介

本项目的目标使用者:

  • 针对语言专家,提供语料库开发接口。专家不用关心语料库将如何被使用,而专注于如何提升语料库的质量上。
  • 针对NLP算法专家,提供算法开发接口,调用所需要的语料库,实现标准API。
  • 针对NLP用户,屏蔽算法实现细节和语料库,可以方便的通过API来调用NLP的算法库。提供常用的算法封装接口供调用。

针对这些目标使用者,系统也分为如下几个部分:

  • corpus-语料库;
  • algorithm - 算法库;
  • api - NLP接口;
  • plugins 插件,包括Lucene、springframework插件。

联系方式

如果要加入本项目,或者任何建议,请关注“凤凰牌老熊”公众号,并留言“加入cocolian NLP 项目” 。