jiaeyan/Jiayan

能否更新HanLP的分词结果?HanLP2.x的深度学习模型在古汉语上的效果大幅提升了

hankcs opened this issue · 2 comments

感谢你们的工作,Jiayan在古汉语处理上独树一帜,也感谢与HanLP对比。

我注意到文档中HanLP的效果应该是1.x,的确不太好。不过自从2021年初,HanLP发布了深度学习驱动的2.x。由于使用了大规模语料上预训练的语言模型,这些语料已经包括了互联网上几乎所有的古汉语和现代汉语,所以在古汉语上的效果已经得到了质的提升。不仅仅是分词,就连词性标注和语义分析也有一定zero-shot learning的效果。例如:

from hanlp_restful import HanLPClient

HanLP = HanLPClient('https://www.hanlp.com/api')
HanLP('是故内圣外王之道,暗而不明,郁而不发,天下之人各为其所欲焉以自为方。').pretty_print()

Dep Tree        	Toke	Relati	PoS	Tok 	SRL PA1     	Tok 	SRL PA2     	Tok 	SRL PA3 	Tok 	SRL PA4     	Tok 	PoS    3       4       5       6       7       8       9       10
────────────────	────	──────	───	────	────────────	────	────────────	────	────────	────	────────────	────	─────────────────────────────────────────────────────────────────
┌┬─┬┬────────┬──	   	root  	VC 	   	            	   	            	   	        	   	            	   	VC ──────────────────────────────────┐                           
││ ││        └─►	   	advmod	AD 	   	───►ARGM-DIS	   	            	   	        	   	            	   	AD ───────────────────────────►ADVP──┤                           
││ ││     ┌─►┌──	内圣外王	nn    	NN 	内圣外王	◄─┐         	内圣外王	            	内圣外王	        	内圣外王	            	内圣外王	NN ───►NP ───┐                       │                           
││ ││     │  └─►	   	assm  	DEG	   	  ├►ARG0    	   	            	   	        	   	            	   	DEG──────────┴►DNP ──┐               │                           
││ ││  ┌─►└─────	   	nsubj 	NN 	   	◄─┘         	   	            	   	        	   	            	   	NN ───────────►NP ───┴────────►NP────┤                           
││ ││  │     ┌─►	,   	punct 	PU 	,   	            	,   	            	,   	        	,   	            	,   	PU ──────────────────────────────────┼────────────────►IP ───┐   
││ │└─►└┬──┬┬┼──	   	dep   	VA 	   	╟──►PRED    	   	            	   	        	   	            	   	VA ──────────┐                       │                       │   
││ │    │  ││└─►	   	prtmod	MSP	   	            	   	            	   	        	   	            	   	MSP──────────┼────────►VP ───┐       │                       │   
││ │    │  │└──►	不明  	dep   	VA 	不明  	            	不明  	            	不明  	        	不明  	            	不明  	VA ───►VP ───┘               │       │                       │   
││ │    │  └───►	,   	punct 	PU 	,   	            	,   	            	,   	        	,   	            	,   	PU ──────────────────────────┤       │                       │   
││ │    │  ┌───►	   	dep   	VA 	   	            	   	            	   	        	   	            	   	VA ───────────►VP ───┐       ├►VP ───┘                       │   
││ │    │  │┌──►	   	prtmod	MSP	   	            	   	            	   	        	   	            	   	MSP──────────────────┤       │                               │   
││ │    │  ││┌─►	   	neg   	AD 	   	            	   	───►ARGM-ADV	   	        	   	            	   	AD ───►ADVP──┐       ├►VP ───┘                               │   
││ │    └─►└┴┴──	   	dep   	VV 	   	            	   	╟──►PRED    	   	        	   	            	   	VV ───►VP ───┴►VP ───┘                                       │   
││ └───────────►	,   	punct 	PU 	,   	            	,   	            	,   	        	,   	            	,   	PU ──────────────────────────────────────────────────────────┤   
││        ┌─►┌──	天下  	assmod	NN 	天下  	            	天下  	            	天下  	        	天下  	◄─┐         	天下  	NN ───►NP ───┐                                               │   
││        │  └─►	   	assm  	DEG	   	            	   	            	   	        	   	  ├►ARG0    	   	DEG──────────┴►DNP ──┐                                       │   
││  ┌────►└─────	   	nsubj 	NN 	   	            	   	            	   	        	   	◄─┘         	   	NN ───────────►NP ───┴────────────────────────►NP ───┐       ├►IP
││  │┌─────────►	   	advmod	AD 	   	            	   	            	   	        	   	───►ARGM-ADV	   	AD ───────────────────────────►ADVP──┐               │       │   
││  ││┌─►┌──────	   	prep  	P  	   	            	   	            	   	        	   	            	   	P ───────────────────────────┐       ├►VP ───┐       │       │   
││  │││  │  ┌──►	   	nsubj 	PN 	   	            	   	            	   	───►ARG0	   	            	   	PN ───────────►NP ───┐       ├►VP ───┘       │       ├►IP────┤   
││  │││  │  │┌─►	   	prtmod	MSP	   	            	   	            	   	        	   	            	   	MSP──────────┐       ├►IP ───┘               │       │       │   
││  │││  └─►└┴──	   	dep   	VV 	   	            	   	            	   	╟──►PRED	   	            	   	VV ───►VP ───┴►VP ───┘                       │       │       │   
││  │││  ┌─────►	   	dep   	SP 	   	            	   	            	   	        	   	            	   	SP ──────────────────────────────────────────┼►VP ───┘       │   
││  │││  │┌─►┌──	   	prep  	P  	   	            	   	            	   	        	   	◄─┐         	   	P ───────────┐                               │               │   
││  │││  ││  └─►	   	pobj  	PN 	   	            	   	            	   	        	   	◄─┴►ARG2    	   	PN ───►NP ───┴►PP ───┐                       │               │   
│└─►└┴┴──┴┴──┬──	   	dep   	VV 	   	            	   	            	   	        	   	╟──►PRED    	   	VV ──────────┐       ├────────────────►VP ───┘               │   
│            └─►	   	dobj  	NN 	   	            	   	            	   	        	   	───►ARG1    	   	NN ───►NP ───┴►VP ───┘                                       │   
└──────────────►	。   	punct 	PU 	。   	            	。   	            	。   	        	。   	            	。   	PU ──────────────────────────────────────────────────────────┘   

可以在线体验其他古汉语句子的效果。方便的话,能否更新HanLP的分词结果?

谢谢。

hankcs大你好!感谢告知,已经在README分词部分添加HanLP相应更新。很高兴一同见证古汉语的自动化处理更上一层楼!

谢谢!预感预训练和机器翻译技术还会使古汉语处理再进一步,期待。