/Pinyin-Master

Pinyin Master - 2023 Spring THU Introduction to AI

Primary LanguagePython

๐Ÿ† Pinyin Master

็จ‹ๅบ็›ฎๅฝ•็ป“ๆž„

    โ”œโ”€โ”€ README.txt
    โ”œโ”€โ”€ corpus/
    โ”‚   โ”œโ”€โ”€ sina_news_gbk/
    โ”‚   โ”‚   โ””โ”€โ”€ ... (่ฏพ็จ‹ๆไพ›็š„*.txt่ฏญๆ–™ๅบ“)
    โ”‚   โ””โ”€โ”€ webtext2019zh/
    โ”‚       โ””โ”€โ”€ web_text_zh_train.json (่‡ชๅทฑไธ‹่ฝฝ็š„่ฏญๆ–™ๅบ“)
    โ”œโ”€โ”€ data/
    โ”‚   โ”œโ”€โ”€ input.txt
    โ”‚   โ”œโ”€โ”€ output_v0.txt
    โ”‚   โ”œโ”€โ”€ output_v1.txt
    โ”‚   โ”œโ”€โ”€ output_v2.txt
    โ”‚   โ”œโ”€โ”€ output.txt (ๆœ€็ปˆ่พ“ๅ‡บ)
    โ”‚   โ””โ”€โ”€ std_output.txt (ๆ ‡ๅ‡†่พ“ๅ‡บ)
    โ””โ”€โ”€ src/
        โ”œโ”€โ”€ frequency-list/
        โ”‚   โ”œโ”€โ”€ merged/
        โ”‚   โ”‚   โ”œโ”€โ”€ corpus_merge.py (็”Ÿๆˆๆททๅˆไธ‰ๅ…ƒ่ฏ้ข‘่กจ)
        โ”‚   โ”‚   โ””โ”€โ”€ merged_3gram.json
        โ”‚   โ”œโ”€โ”€ sina/
        โ”‚   โ”‚   โ”œโ”€โ”€ sina_2gram.json
        โ”‚   โ”‚   โ”œโ”€โ”€ sina_2gram.py (็”ŸๆˆไบŒๅ…ƒ่ฏ้ข‘่กจ)
        โ”‚   โ”‚   โ”œโ”€โ”€ sina_3gram.json
        โ”‚   โ”‚   โ””โ”€โ”€ sina_3gram.py (็”Ÿๆˆไธ‰ๅ…ƒ่ฏ้ข‘่กจ)
        โ”‚   โ””โ”€โ”€ web_text/
        โ”‚       โ”œโ”€โ”€ web_text_2gram.json
        โ”‚       โ”œโ”€โ”€ web_text_2gram.py (็”ŸๆˆไบŒๅ…ƒ่ฏ้ข‘่กจ) 
        โ”‚       โ”œโ”€โ”€ web_text_3gram.json
        โ”‚       โ””โ”€โ”€ web_text_3gram.py (็”Ÿๆˆไธ‰ๅ…ƒ่ฏ้ข‘่กจ)
        โ”œโ”€โ”€ pinyin-dict/
        โ”‚   โ”œโ”€โ”€ pinyin_dict.json
        โ”‚   โ””โ”€โ”€ pinyin_dict.py
        โ”œโ”€โ”€ pinyin_2gram.py (่พ“ๅ‡บๅœจ output_v0.txt \ ไบŒๅ…ƒๆจกๅž‹-ๆ–ฐๆตช่ฏญๆ–™ๅบ“)
        โ”œโ”€โ”€ pinyin_3gram.py (่พ“ๅ‡บๅœจ output_v1.txt \ ไธ‰ๅ…ƒๆจกๅž‹-ๆ–ฐๆตช่ฏญๆ–™ๅบ“)
        โ”œโ”€โ”€ pinyin_3gram_fix.py (่พ“ๅ‡บๅœจ output_v2.txt \ ไธ‰ๅ…ƒๆจกๅž‹-็คพๅŒบ้—ฎ็ญ”่ฏญๆ–™ๅบ“)
        โ”œโ”€โ”€ pinyin.py (่พ“ๅ‡บๅœจ output.txt \ ไธ‰ๅ…ƒๆจกๅž‹-ๅŠ ๆƒๆททๅˆ่ฏญๆ–™ๅบ“)
        โ””โ”€โ”€ utils.py

็จ‹ๅบ่ฟ่กŒๆ–นๆณ•

ๅฎ‰่ฃ…่ฏญๆ–™ๅบ“ๆ–‡ไปถ

ไฝ็ฝฎไธบ corpus/webtext2019zh/.

ๅฎ‰่ฃ…่ฏ้ข‘่กจๆ–‡ไปถ

ไฝ็ฝฎ่งไธŠ, ไฝ ไนŸๅฏไปฅ้€š่ฟ‡ไธ‹้ข็š„ๆญฅ้ชคๆ‰‹ๅŠจ็”Ÿๆˆ่ฏ้ข‘่กจ:

  • ๅœจ frequency-list/sina/ ไธ‹, ไพๆฌก่ฟ่กŒ sina_2gram.py, sina_3gram.py.
  • ๅœจ frequency-list/web_text/ ไธ‹, ไพๆฌก่ฟ่กŒ web_text_2gram.py, web_text_3gram.py.
  • ๅœจ frequency-list/merged/ ไธ‹, ไพๆฌก่ฟ่กŒ corpus_merge.pinyin.

่ฟ่กŒ็จ‹ๅบ

  • ่ฟ่กŒ pinyin_2gram.py ../data/input.txt ../data/output_v0.txt.
  • ่ฟ่กŒ pinyin_3gram.py ../data/input.txt ../data/output_v1.txt.
  • ่ฟ่กŒ pinyin_3gram_fix.py ../data/input.txt ../data/output_v2.txt.
  • ่ฟ่กŒ pinyin.py ../data/input.txt ../data/output.txt.
  • ่ง‚ๅฏŸ็ปˆ็ซฏ่พ“ๅ‡บ็š„ๅ‡†็กฎ็Ž‡ไฟกๆฏ, ๅฟ…่ฆๆ—ถๅฏไปฅๆ‰‹ๅŠจไฟฎๆ”นๆ–‡ไปถๅ†…็š„ๅ‚ๆ•ฐ ALPHA, BETA, GAMMA ่ฟ›่กŒๅ‡†็กฎ็Ž‡็š„่ฐƒๆ•ด.