
希望路过的同学,顺手给JStarCraft框架点个Star,算是对作者的一种鼓励吧!
JStarCraft NLP是一个面向自然语言处理领域的轻量级引擎.遵循Apache 2.0协议.
专注于解决自然语言处理领域的几个核心问题:
- 词法分析
- 句法分析
- 语义分析
- 信息抽取
- 文本聚类
- 文本分类
涵盖了多种自然语言处理算法,整合了多个自然语言处理框架.为相关领域的研发人员提供提供满足工业级别场景要求的通用设计与参考实现,普及自然语言处理在Java领域的应用.
- 1.文本相关性
- 2.文本哈希
- 3.词法分析(Lexical Analysis)
- 4.句法分析(Sentence Analysis)
- 5.语义分析(Semantic Analysis)
- 6.信息抽取(Information Extraction)
- 实体抽取(Entity Extraction)
- 关系抽取(Relation Extraction)
- 事件抽取(Event Extraction)
- 语言检测(Language Detection)
- 7.文本聚类
- 8.文本分类
- 9.兼容Lucene,Solr,ElasticSearch
- 10.整合第三方框架
- Ansj
- Stanford CoreNLP
- HanLP
- IK
- Jcseg
- jieba
- MMSEG
- MYNLP
- THULAC
- word
JStarCraft RNS要求使用者具备以下环境:
git clone https://github.com/HongZhaoHua/jstarcraft-core.git
mvn install -Dmaven.test.skip=true
git clone https://github.com/HongZhaoHua/jstarcraft-ai.git
mvn install -Dmaven.test.skip=true
git clone https://github.com/HongZhaoHua/jstarcraft-nlp.git
mvn install -Dmaven.test.skip=true
<dependency>
<groupId>com.jstarcraft</groupId>
<artifactId>nlp</artifactId>
<version>1.0</version>
</dependency>
compile group: 'com.jstarcraft', name: 'nlp', version: '1.0'
**信息熵(Information Entropy)**是指某个片段外部搭配的丰富程度;
**互信息(Mutual Information)**是指某个片段内部搭配的固定程度;
代码 |
名称 |
词类 |
说明 |
A |
形容词 |
实词 |
取英语形容词adjective的第1个字母 |
C |
连词 |
虚词 |
取英语连词conjunction的第1个字母 |
D |
副词 |
虚词 |
取英语副词adverb的第2个字母 |
E |
叹词 |
虚词 |
取英语叹词exclamation的第1个字母 |
M |
数词 |
实词 |
取英语数词numeral的第3个字母 |
N |
名词 |
实词 |
取英语名词noun的第1个字母 |
O |
拟声词 |
虚词 |
取英语拟声词onomatopoeia的第1个字母 |
P |
介词 |
虚词 |
取英语拟声词onomatopoeia的第1个字母 |
Q |
量词 |
实词 |
取英语量词quantity的第1个字母 |
R |
代词 |
实词 |
取英语代词pronoun的第2个字母 |
T |
冠词 |
虚词 |
取英语冠词article的第3个字母 |
U |
助词 |
虚词 |
取英语助词auxiliary的第2个字母 |
V |
动词 |
实词 |
取英语动词verb的第1个字母 |
W |
标点符号 |
|
|
X |
未知 |
|
|
JStarCraft NLP遵循Apache 2.0协议,一切以其为基础的衍生作品均属于衍生作品的作者.