/Cangjie5

倉頡五代補完計劃

Primary LanguagePythonMIT LicenseMIT

Cangjie5

简化字版说明

相關項目:Arthurmcarthur/Cangjie3-Plus

「倉頡平台 2012」的「五倉世紀」碼表修改而來。

下載

你可以在發佈頁下載適用於RIME、Fcitx 5、小小輸入法的碼表文檔,以及用於替換微軟倉頡碼表的文檔。
或者嘗試使用腳本生成其他格式的碼表文檔。

目標

本項目參考官方資料對碼表進行修改,可能與其他常見倉頡輸入法軟件存在差異,詳閱說明

  1. 本項目:
    1. (✓)意圖 修改字碼以貼近官方資料
    2. (✗)無意 修改或解釋官方碼表中被認為不符合倉頡輸入法規則的部分,除非是明顯的筆誤
    3. (✓)意圖 完善字形兼容。參考官方碼表為主,適當添加各地字形
    4. (✗)無意 兼容全部舊字形、中國大陸、香港、台灣、日本、韓國、越南字形
    5. (✓)意圖 根據個人主觀理解製作一份碼表,為大家提供一個選擇
    6. (✗)無意 滿足所有人的需求
  2. 所稱「官方資料」,包括:
    1. 《第五代倉頡輸入法手冊》(松崗,1993、文化傳信,1999、博碩,2006)
    2. 「漢文庫典」網站
    3. 朱邦復工作室《內碼對照表》(含2003版五代、六代編碼)
    4. 《零壹中文電腦叢書之八 倉頡第三代中文字母輸入法》(全華,1984)、《零壹中文電腦叢書之九 增訂版倉頡第三代中文輸入法》(全華,1991)
    5. 《零壹中文電腦叢書之七 標準倉頡第二代中文輸入法》(全華,1983)
    6. 沈紅蓮女士之信函

內容

  • Cangjie5.txt
    碼表。一般排序,綜合考慮字頻及繁簡,部分常用簡化字可能排在傳統漢字前面。
  • Cangjie5_TC.txt
    碼表。傳統漢字優先,偏好台灣用字習慣,符合《常用國字標準字體表》的字形將排在前面。
  • Cangjie5_HK.txt
    碼表。傳統漢字優先,偏好香港用字習慣,符合《常用字字形表》的字形將排在前面。
  • Cangjie5_SC.txt
    碼表。簡化字優先,符合《通用規範漢字表》的字形將排在前面。
    ※以上四份碼表收錄字符相同,包括:中日韓統一表意文字基本區至擴展I區、兼容漢字區中視作統一漢字的十二個字符,以及官方碼表中收錄的符號。
    另外收錄兼容漢字、部首、筆畫、一些形似漢字的符號、以及其他標點符號。為避免與常規漢字混淆,此部分字符編碼以「z」開頭(兼容漢字「zc」,部首「zr」,筆畫「zs」,表意文字描述字符「zi」,數碼符號「zn」,標點符號「zx」,日文假名「zj」,注音符號「zz」,拼音「zp」)。
  • Cangjie5_supplement.txt
    碼表。收錄兼容漢字、部首、筆畫以及其他一些形似漢字的符號。此表按原始編碼收錄,編碼不以「z」開頭。
  • change_summary.md
    總體說明,包括取碼爭議、字形兼容、重碼字排序調整說明。
  • change_details.log
    碼表的詳細編輯記錄。
  • Cangjie5_special.txt
    碼表。收字較少的版本,收錄主流系統通常可以顯示的字符,包括:中日韓統一表意文字基本區(除去U+9FF0U+9FFF)、擴展A區(除去U+4DB6U+4DBF)、兼容漢字區中視作統一漢字的十二個字符、《通用規範漢字表》、《香港增補字符集—2016》(HKSCS)、JIS X 0213。
    此碼表與前面幾份碼表更新可能不同步。

FAQ

  1. Q:此項目是「官方」碼表嗎?
    A:不是。本項目為個人製作,非倉頡輸入法官方。本項目修訂過程中參考官方資料為主,遇到疑難問題有諮詢沈紅蓮女士之意見,但並不與官方完全一致。
  2. Q:有些官方編碼不合理,為甚麼此項目不作出更正,是盲從嗎?
    A:倉頡輸入法是自由的,朱邦復先生放棄專利,允許各界自由使用和修改。坊間對倉頡輸入法有不同理解,亦衍生出許多有差異的碼表。
    討論當然是好的,但最終未必能達成共識。本人沒有能力,也認為沒有必要追求統一。
    僅就本項目而言,修訂的方向是以官方資料為主,結合個人的理解。用戶可以根據需要,選用任何適合自己的碼表。
  3. Q:碼表的重碼字排序是如何確定的?
    A:重碼字排序參考了各地的常用字表以及字頻數據。
    「一般排序」版本假設用戶繁簡並用,以繁體為主,但是常用的簡體字也可能排在不那麼常用的繁體字之前。
    「傳統漢字優先」版本又分為「偏好台灣用字習慣」和「偏好香港用字習慣」兩種,差異在於「群羣」等異體字的排序。
    「簡化字優先」版本除簡體字排在前面外,符合《通用規範漢字表》的繁體字(俗稱「陸標繁體」)也會排在相對前面的位置。
    除此之外,粵語白話文的常用字獲得了一定程度的權重加成。
    顯然,每個人有不同的用字習慣,重碼字排序不可能同時滿足所有人。用戶可根據自己的需要自行調整。
    以下為四個版本的排序示例
    字碼 Cangjie5.txt Cangjie5_TC.txt Cangjie5_HK.txt Cangjie5_SC.txt
    ol 仲个 仲个 仲个 个仲
    srtq 群羣 群羣 羣群 群羣
    tknl 鄭郑鄚 鄭鄚郑 鄭鄚郑 郑鄚鄭
    tomg 荃荏 荏荃 荃荏 荃荏
    yrcru 說説 說説 説說 説說
  4. Q:為甚麼有些字有多個編碼,字形兼容的意義何在?
    A:不同地區有不同字形規範,例如「次」字的左邊,香港寫作「冫」,台灣寫作「二」。有些碼表只收錄了「冫欠」的字形,即「戈一弓人」。習慣「二欠」的用戶按這個字形取碼「一一弓人」,就打不出字。
    為了避免這種困擾,本項目兼容不同字形,使用戶可以按自己習慣的字形取碼。
    不過,出於實用性的考量,有一些字形沒有收錄。例如,「今」字的「丶」也可寫作「一」,後者取「人一弓」。「今」「气」「俞」都常作為漢字的右偏旁出現,三者作字身時均取碼「人一弓」,產生「汽渝汵」「喻吟」等大量重碼字。因此,本項目沒有收錄「今」的「人一弓」這一字形。
  5. Q:為甚麼碼表中很多字無法顯示?
    A:Cangjie5.txtCangjie5_TC.txtCangjie5_HK.txtCangjie5_SC.txt四份碼表收錄了 Unicode 中日韓統一表意文字基本區至擴展I區的所有漢字,數量為九萬餘。有一些擴展區的漢字,若電腦和手機系統字體不支持,就會顯示為方框「□」、問號「�」或空白。
    有些用戶可能不會用到擴展區漢字,Cangjie5_special.txt只保留了主流手機、電腦系統通常可以顯示的漢字,字數為三萬餘。
    以下為不同版本的收字示例
    漢字舉例 Cangjie5_special.txt Cangjie5.txt/Cangjie5_TC.txt/Cangjie5_HK.txt/Cangjie5_SC.txt 備註
    常用字
    擴展A區字
    𠝹𡁻 HKSCS字
    𫫇𩾌 通用規範漢字表字
    鿿𫬷 新版本Unicode增收的基本區和擴展A區字,2016年之後HKSCS增收的字
    𪠽𰻞 擴展B區至I區的其他字

反饋

若發現錯誤,可在此處反饋。 多謝!