โโโ README.txt
โโโ corpus/
โ โโโ sina_news_gbk/
โ โ โโโ ... (่ฏพ็จๆไพ็*.txt่ฏญๆๅบ)
โ โโโ webtext2019zh/
โ โโโ web_text_zh_train.json (่ชๅทฑไธ่ฝฝ็่ฏญๆๅบ)
โโโ data/
โ โโโ input.txt
โ โโโ output_v0.txt
โ โโโ output_v1.txt
โ โโโ output_v2.txt
โ โโโ output.txt (ๆ็ป่พๅบ)
โ โโโ std_output.txt (ๆ ๅ่พๅบ)
โโโ src/
โโโ frequency-list/
โ โโโ merged/
โ โ โโโ corpus_merge.py (็ๆๆททๅไธๅ
่ฏ้ข่กจ)
โ โ โโโ merged_3gram.json
โ โโโ sina/
โ โ โโโ sina_2gram.json
โ โ โโโ sina_2gram.py (็ๆไบๅ
่ฏ้ข่กจ)
โ โ โโโ sina_3gram.json
โ โ โโโ sina_3gram.py (็ๆไธๅ
่ฏ้ข่กจ)
โ โโโ web_text/
โ โโโ web_text_2gram.json
โ โโโ web_text_2gram.py (็ๆไบๅ
่ฏ้ข่กจ)
โ โโโ web_text_3gram.json
โ โโโ web_text_3gram.py (็ๆไธๅ
่ฏ้ข่กจ)
โโโ pinyin-dict/
โ โโโ pinyin_dict.json
โ โโโ pinyin_dict.py
โโโ pinyin_2gram.py (่พๅบๅจ output_v0.txt \ ไบๅ
ๆจกๅ-ๆฐๆตช่ฏญๆๅบ)
โโโ pinyin_3gram.py (่พๅบๅจ output_v1.txt \ ไธๅ
ๆจกๅ-ๆฐๆตช่ฏญๆๅบ)
โโโ pinyin_3gram_fix.py (่พๅบๅจ output_v2.txt \ ไธๅ
ๆจกๅ-็คพๅบ้ฎ็ญ่ฏญๆๅบ)
โโโ pinyin.py (่พๅบๅจ output.txt \ ไธๅ
ๆจกๅ-ๅ ๆๆททๅ่ฏญๆๅบ)
โโโ utils.py
ไฝ็ฝฎไธบ corpus/webtext2019zh/
.
ไฝ็ฝฎ่งไธ, ไฝ ไนๅฏไปฅ้่ฟไธ้ข็ๆญฅ้ชคๆๅจ็ๆ่ฏ้ข่กจ:
- ๅจ
frequency-list/sina/
ไธ, ไพๆฌก่ฟ่กsina_2gram.py
,sina_3gram.py
. - ๅจ
frequency-list/web_text/
ไธ, ไพๆฌก่ฟ่กweb_text_2gram.py
,web_text_3gram.py
. - ๅจ
frequency-list/merged/
ไธ, ไพๆฌก่ฟ่กcorpus_merge.pinyin
.
- ่ฟ่ก
pinyin_2gram.py ../data/input.txt ../data/output_v0.txt
. - ่ฟ่ก
pinyin_3gram.py ../data/input.txt ../data/output_v1.txt
. - ่ฟ่ก
pinyin_3gram_fix.py ../data/input.txt ../data/output_v2.txt
. - ่ฟ่ก
pinyin.py ../data/input.txt ../data/output.txt
. - ่งๅฏ็ป็ซฏ่พๅบ็ๅ็กฎ็ไฟกๆฏ, ๅฟ
่ฆๆถๅฏไปฅๆๅจไฟฎๆนๆไปถๅ
็ๅๆฐ
ALPHA
,BETA
,GAMMA
่ฟ่กๅ็กฎ็็่ฐๆด.