相關項目:Arthurmcarthur/Cangjie3-Plus
由「倉頡平台 2012」的「五倉世紀」碼表修改而來。
你可以在發佈頁下載適用於RIME、Fcitx 5、小小輸入法的碼表文檔,以及用於替換微軟倉頡碼表的文檔。
或者嘗試使用腳本生成其他格式的碼表文檔。
本項目參考官方資料對碼表進行修改,可能與其他常見倉頡輸入法軟件存在差異,詳閱說明。
- 本項目:
- (✓)意圖 修改字碼以貼近官方資料
- (✗)無意 修改或解釋官方碼表中被認為不符合倉頡輸入法規則的部分,除非是明顯的筆誤
- (✓)意圖 完善字形兼容。參考官方碼表為主,適當添加各地字形
- (✗)無意 兼容全部舊字形、中國大陸、香港、台灣、日本、韓國、越南字形
- (✓)意圖 根據個人主觀理解製作一份碼表,為大家提供一個選擇
- (✗)無意 滿足所有人的需求
- 所稱「官方資料」,包括:
- 《第五代倉頡輸入法手冊》(松崗,1993、文化傳信,1999、博碩,2006)
- 「漢文庫典」網站
- 朱邦復工作室《內碼對照表》(含2003版五代、六代編碼)
- 《零壹中文電腦叢書之八 倉頡第三代中文字母輸入法》(全華,1984)、《零壹中文電腦叢書之九 增訂版倉頡第三代中文輸入法》(全華,1991)
- 《零壹中文電腦叢書之七 標準倉頡第二代中文輸入法》(全華,1983)
- 沈紅蓮女士之信函
- Cangjie5.txt
碼表。一般排序,綜合考慮字頻及繁簡,部分常用簡化字可能排在傳統漢字前面。 - Cangjie5_TC.txt
碼表。傳統漢字優先,偏好台灣用字習慣,符合《常用國字標準字體表》的字形將排在前面。 - Cangjie5_HK.txt
碼表。傳統漢字優先,偏好香港用字習慣,符合《常用字字形表》的字形將排在前面。 - Cangjie5_SC.txt
碼表。簡化字優先,符合《通用規範漢字表》的字形將排在前面。
※以上四份碼表收錄字符相同,包括:中日韓統一表意文字基本區至擴展I區、兼容漢字區中視作統一漢字的十二個字符,以及官方碼表中收錄的符號。
另外收錄兼容漢字、部首、筆畫、一些形似漢字的符號、以及其他標點符號。為避免與常規漢字混淆,此部分字符編碼以「z」開頭(兼容漢字「zc」,部首「zr」,筆畫「zs」,表意文字描述字符「zi」,數碼符號「zn」,標點符號「zx」,日文假名「zj」,注音符號「zz」,拼音「zp」)。 - Cangjie5_supplement.txt
碼表。收錄兼容漢字、部首、筆畫以及其他一些形似漢字的符號。此表按原始編碼收錄,編碼不以「z」開頭。 - change_summary.md
總體說明,包括取碼爭議、字形兼容、重碼字排序調整說明。 - change_details.log
碼表的詳細編輯記錄。 - Cangjie5_special.txt
碼表。收字較少的版本,收錄主流系統通常可以顯示的字符,包括:中日韓統一表意文字基本區(除去U+9FF0
至U+9FFF
)、擴展A區(除去U+4DB6
至U+4DBF
)、兼容漢字區中視作統一漢字的十二個字符、《通用規範漢字表》、《香港增補字符集—2016》(HKSCS)、JIS X 0213。
此碼表與前面幾份碼表更新可能不同步。
- Q:此項目是「官方」碼表嗎?
A:不是。本項目為個人製作,非倉頡輸入法官方。本項目修訂過程中參考官方資料為主,遇到疑難問題有諮詢沈紅蓮女士之意見,但並不與官方完全一致。 - Q:有些官方編碼不合理,為甚麼此項目不作出更正,是盲從嗎?
A:倉頡輸入法是自由的,朱邦復先生放棄專利,允許各界自由使用和修改。坊間對倉頡輸入法有不同理解,亦衍生出許多有差異的碼表。
討論當然是好的,但最終未必能達成共識。本人沒有能力,也認為沒有必要追求統一。
僅就本項目而言,修訂的方向是以官方資料為主,結合個人的理解。用戶可以根據需要,選用任何適合自己的碼表。 - Q:碼表的重碼字排序是如何確定的?
A:重碼字排序參考了各地的常用字表以及字頻數據。
「一般排序」版本假設用戶繁簡並用,以繁體為主,但是常用的簡體字也可能排在不那麼常用的繁體字之前。
「傳統漢字優先」版本又分為「偏好台灣用字習慣」和「偏好香港用字習慣」兩種,差異在於「群羣」等異體字的排序。
「簡化字優先」版本除簡體字排在前面外,符合《通用規範漢字表》的繁體字(俗稱「陸標繁體」)也會排在相對前面的位置。
除此之外,粵語白話文的常用字獲得了一定程度的權重加成。
顯然,每個人有不同的用字習慣,重碼字排序不可能同時滿足所有人。用戶可根據自己的需要自行調整。
以下為四個版本的排序示例:字碼 Cangjie5.txt
Cangjie5_TC.txt
Cangjie5_HK.txt
Cangjie5_SC.txt
ol 仲个 仲个 仲个 个仲 srtq 群羣 群羣 羣群 群羣 tknl 鄭郑鄚 鄭鄚郑 鄭鄚郑 郑鄚鄭 tomg 荃荏 荏荃 荃荏 荃荏 yrcru 說説 說説 説說 説說 - Q:為甚麼有些字有多個編碼,字形兼容的意義何在?
A:不同地區有不同字形規範,例如「次」字的左邊,香港寫作「冫」,台灣寫作「二」。有些碼表只收錄了「冫欠」的字形,即「戈一弓人」。習慣「二欠」的用戶按這個字形取碼「一一弓人」,就打不出字。
為了避免這種困擾,本項目兼容不同字形,使用戶可以按自己習慣的字形取碼。
不過,出於實用性的考量,有一些字形沒有收錄。例如,「今」字的「丶」也可寫作「一」,後者取「人一弓」。「今」「气」「俞」都常作為漢字的右偏旁出現,三者作字身時均取碼「人一弓」,產生「汽渝汵」「喻吟」等大量重碼字。因此,本項目沒有收錄「今」的「人一弓」這一字形。 - Q:為甚麼碼表中很多字無法顯示?
A:Cangjie5.txt
、Cangjie5_TC.txt
、Cangjie5_HK.txt
、Cangjie5_SC.txt
四份碼表收錄了 Unicode 中日韓統一表意文字基本區至擴展I區的所有漢字,數量為九萬餘。有一些擴展區的漢字,若電腦和手機系統字體不支持,就會顯示為方框「□」、問號「�」或空白。
有些用戶可能不會用到擴展區漢字,Cangjie5_special.txt
只保留了主流手機、電腦系統通常可以顯示的漢字,字數為三萬餘。
以下為不同版本的收字示例:漢字舉例 Cangjie5_special.txt
Cangjie5.txt
/Cangjie5_TC.txt
/Cangjie5_HK.txt
/Cangjie5_SC.txt
備註 常用字 ✓ ✓ 㗎、䶮 ✓ ✓ 擴展A區字 𠝹、𡁻 ✓ ✓ HKSCS字 𫫇、𩾌 ✓ ✓ 通用規範漢字表字 鿿、𫬷 ✗ ✓ 新版本Unicode增收的基本區和擴展A區字,2016年之後HKSCS增收的字 𪠽、𰻞 ✗ ✓ 擴展B區至I區的其他字
若發現錯誤,可在此處反饋。 多謝!