文字編碼

介紹

文字編碼資料和處理方法。現含萬殘碼之宂碼和部件稍訛重構之資料。萬殘碼之「宂碼」指部件、結構全同而異碼者，僅筆迹稍異而已。此類本應認同，而別之以異體綴碼。分開編碼，不啻干擾檢索，影響造字，且同一構件在各字中分合標準不一，令用字者无所適從．亦浪費了基本平面之寶貴碼位。這嚴重阻礙了漢字之信息化。茲總結之，以饗天下學者、用戶。

宂碼表凡例

每字正碼居首，次舉諸宂碼，以利編程。
僅涉及基本平面中 u3400~9FFF 區段（刨除六十四卦，即基本集和擴充Ａ集）。部首、兼容（uF900）等區段，九成以上是宂碼，网上已有映射數據，茲不贅。
草書楷化和輪廓字，如車车、門门、飠饣、肅粛肃等，已見于諸正簡對應表，故原則上不統計。偶有因其他部件而涉及者，如絕絶绝、說説说、綠緑绿，則附之于末。
部件同而結構異者，如峯峰、羣群、鑒鑑等，理應區別，不是宂碼，故不在統計之列。

稍訛重構表說明

筆畫稍訛，導致部件變化，進而理據重構，而音義不變。雖非宂碼，卻亦影響搜索、分析。故附列于茲。

參與貢獻

歧（Fork）庫
新建 Feat_xxx 分支
增補宂碼
新建 Pull Request

heangfat/encode

文字編碼

介紹

宂碼表凡例

稍訛重構表說明

參與貢獻