/nlp_storeroom

NLP的一些公开资料,有些是别人原始分享的,有些是处理了一下。

nlp_storeroom

NLP的一些公开资料,有些是别人原始分享的,有些是处理了一下。

文件列表:

-nlp_storeroom/

--dict/
	---zh/
		现代汉语词典_第5版_词表.txt,	// 共54343条,2005年6月,第五版,
		汉语成语词典_词表_23889条.txt,	// 共23889条,未知版本
		
		----character set
			GB2312汉字表_6763.txt,	//	6763条,《信息交换用汉字编码字符集·基本集》,GB2312或GB2312-80。其中的汉字表。
			GBK汉字表_21003.txt,	//	21003条,GBK,汉字内码扩展规范。Chinese Internal Code Specification.其中汉字表。
			Big5汉字表_13060.txt,	//	13060条,Big5 (Traditional Chinese) character code table.其中汉字表,最后两个字“兀嗀”是重复编码。
			Unicode中文汉字_20902.txt,	// 20902条,Unicode其中的汉字表。
			
			-----相关文档	(汉字编码相关的文档。)
				通用规范汉字表,2013年,参见http://www.gov.cn/zwgk/2013-08/19/content_2469793.htm
				
			-----繁简体
				简化字总表(1986)_2276条.txt,	// 共2276条。简化字总表,1986年新版
		----分类词库
			2014年全国高等学校名单_2542所.txt,    // 截至2014年7月9日
			我国县及县以上行政区划代码-截止2013年8月31日.txt,    //共3514个。
			联合国会员国列表.txt,    //193个
			
		
--corpus/
	---bilingual parallel corpus
		外国人名foreignNames_list_39687.txt, 	// 外国人名,中英对照的,共39687条
		1500en_zh.txt,		// 英汉双语句对齐语料库,1500句对

--tools/
	---分句
		CutFile_ZH.py,    //中文分句工具,python
	---去除UTF-8开头的BOM
		Remove_BOM_Dir.py,	//去除UTF-8文件,开头的BOM