/encode

Primary LanguagePythonOtherNOASSERTION

文字編碼

介紹

文字編碼資料和處理方法。現含萬殘碼之宂碼和部件稍訛重構之資料。 萬殘碼之「宂碼」指部件、結構全同而異碼者,僅筆迹稍異而已。此類本應認同,而別之以異體綴碼。分開編碼,不啻干擾檢索,影響造字,且同一構件在各字中分合標準不一,令用字者无所適從.亦浪費了基本平面之寶貴碼位。這嚴重阻礙了漢字之信息化。茲總結之,以饗天下學者、用戶。

宂碼表凡例

  1. 每字正碼居首,次舉諸宂碼,以利編程。
  2. 僅涉及基本平面中 u3400~9FFF 區段(刨除六十四卦,即基本集和擴充A集)。部首、兼容(uF900)等區段,九成以上是宂碼,网上已有映射數據,茲不贅。
  3. 草書楷化和輪廓字,如車车、門门、飠饣、肅粛肃等,已見于諸正簡對應表,故原則上不統計。偶有因其他部件而涉及者,如絕絶绝、說説说、綠緑绿,則附之于末。
  4. 部件同而結構異者,如峯峰、羣群、鑒鑑等,理應區別,不是宂碼,故不在統計之列。

稍訛重構表說明

筆畫稍訛,導致部件變化,進而理據重構,而音義不變。雖非宂碼,卻亦影響搜索、分析。故附列于茲。

參與貢獻

  1. 歧(Fork)庫
  2. 新建 Feat_xxx 分支
  3. 增補宂碼
  4. 新建 Pull Request