能否更新HanLP的分词结果?HanLP2.x的深度学习模型在古汉语上的效果大幅提升了
hankcs opened this issue · 2 comments
hankcs commented
感谢你们的工作,Jiayan在古汉语处理上独树一帜,也感谢与HanLP对比。
我注意到文档中HanLP的效果应该是1.x,的确不太好。不过自从2021年初,HanLP发布了深度学习驱动的2.x。由于使用了大规模语料上预训练的语言模型,这些语料已经包括了互联网上几乎所有的古汉语和现代汉语,所以在古汉语上的效果已经得到了质的提升。不仅仅是分词,就连词性标注和语义分析也有一定zero-shot learning的效果。例如:
from hanlp_restful import HanLPClient
HanLP = HanLPClient('https://www.hanlp.com/api')
HanLP('是故内圣外王之道,暗而不明,郁而不发,天下之人各为其所欲焉以自为方。').pretty_print()
Dep Tree Toke Relati PoS Tok SRL PA1 Tok SRL PA2 Tok SRL PA3 Tok SRL PA4 Tok PoS 3 4 5 6 7 8 9 10
──────────────── ──── ────── ─── ──── ──────────── ──── ──────────── ──── ──────── ──── ──────────── ──── ─────────────────────────────────────────────────────────────────
┌┬─┬┬────────┬── 是 root VC 是 是 是 是 是 VC ──────────────────────────────────┐
││ ││ └─► 故 advmod AD 故 ───►ARGM-DIS 故 故 故 故 AD ───────────────────────────►ADVP──┤
││ ││ ┌─►┌── 内圣外王 nn NN 内圣外王 ◄─┐ 内圣外王 内圣外王 内圣外王 内圣外王 NN ───►NP ───┐ │
││ ││ │ └─► 之 assm DEG 之 ├►ARG0 之 之 之 之 DEG──────────┴►DNP ──┐ │
││ ││ ┌─►└───── 道 nsubj NN 道 ◄─┘ 道 道 道 道 NN ───────────►NP ───┴────────►NP────┤
││ ││ │ ┌─► , punct PU , , , , , PU ──────────────────────────────────┼────────────────►IP ───┐
││ │└─►└┬──┬┬┼── 暗 dep VA 暗 ╟──►PRED 暗 暗 暗 暗 VA ──────────┐ │ │
││ │ │ ││└─► 而 prtmod MSP 而 而 而 而 而 MSP──────────┼────────►VP ───┐ │ │
││ │ │ │└──► 不明 dep VA 不明 不明 不明 不明 不明 VA ───►VP ───┘ │ │ │
││ │ │ └───► , punct PU , , , , , PU ──────────────────────────┤ │ │
││ │ │ ┌───► 郁 dep VA 郁 郁 郁 郁 郁 VA ───────────►VP ───┐ ├►VP ───┘ │
││ │ │ │┌──► 而 prtmod MSP 而 而 而 而 而 MSP──────────────────┤ │ │
││ │ │ ││┌─► 不 neg AD 不 不 ───►ARGM-ADV 不 不 不 AD ───►ADVP──┐ ├►VP ───┘ │
││ │ └─►└┴┴── 发 dep VV 发 发 ╟──►PRED 发 发 发 VV ───►VP ───┴►VP ───┘ │
││ └───────────► , punct PU , , , , , PU ──────────────────────────────────────────────────────────┤
││ ┌─►┌── 天下 assmod NN 天下 天下 天下 天下 ◄─┐ 天下 NN ───►NP ───┐ │
││ │ └─► 之 assm DEG 之 之 之 之 ├►ARG0 之 DEG──────────┴►DNP ──┐ │
││ ┌────►└───── 人 nsubj NN 人 人 人 人 ◄─┘ 人 NN ───────────►NP ───┴────────────────────────►NP ───┐ ├►IP
││ │┌─────────► 各 advmod AD 各 各 各 各 ───►ARGM-ADV 各 AD ───────────────────────────►ADVP──┐ │ │
││ ││┌─►┌────── 为 prep P 为 为 为 为 为 P ───────────────────────────┐ ├►VP ───┐ │ │
││ │││ │ ┌──► 其 nsubj PN 其 其 其 ───►ARG0 其 其 PN ───────────►NP ───┐ ├►VP ───┘ │ ├►IP────┤
││ │││ │ │┌─► 所 prtmod MSP 所 所 所 所 所 MSP──────────┐ ├►IP ───┘ │ │ │
││ │││ └─►└┴── 欲 dep VV 欲 欲 欲 ╟──►PRED 欲 欲 VV ───►VP ───┴►VP ───┘ │ │ │
││ │││ ┌─────► 焉 dep SP 焉 焉 焉 焉 焉 SP ──────────────────────────────────────────┼►VP ───┘ │
││ │││ │┌─►┌── 以 prep P 以 以 以 以 ◄─┐ 以 P ───────────┐ │ │
││ │││ ││ └─► 自 pobj PN 自 自 自 自 ◄─┴►ARG2 自 PN ───►NP ───┴►PP ───┐ │ │
│└─►└┴┴──┴┴──┬── 为 dep VV 为 为 为 为 ╟──►PRED 为 VV ──────────┐ ├────────────────►VP ───┘ │
│ └─► 方 dobj NN 方 方 方 方 ───►ARG1 方 NN ───►NP ───┴►VP ───┘ │
└──────────────► 。 punct PU 。 。 。 。 。 PU ──────────────────────────────────────────────────────────┘
可以在线体验其他古汉语句子的效果。方便的话,能否更新HanLP的分词结果?
谢谢。
jiaeyan commented
hankcs大你好!感谢告知,已经在README分词部分添加HanLP相应更新。很高兴一同见证古汉语的自动化处理更上一层楼!
hankcs commented
谢谢!预感预训练和机器翻译技术还会使古汉语处理再进一步,期待。