rime/rime-jyutping

詞彙建議應符合正確讀音

brycetsao opened this issue · 35 comments

包含破音字之詞彙建議只應在符合該詞彙正確讀音時出現。
e.g.「身體(san tai)」一詞之建議只應該在輸入「st」時出現,而不應在輸入「gt」時出現(身:gyun)。正如 rime-bopomofo 不會在輸入「ㄐㄩㄣˉㄊㄧˇ」時建議「身體(ㄕㄣˉㄊㄧˇ)」

還有很多字有問題,暫時加{Tab}0%解決。

我建議一些異讀音不應收錄,衹保留正確讀音。

For example:

  • keep saang remove sang
  • 花生肉 faa sang juk -> faa saang juk
  • keep sim remove sin

包含破音字之詞彙建議只應在符合該詞彙正確讀音時出現。
e.g.「身體(san taai)」一詞之建議只應該在輸入「st」時出現,而不應在輸入「gt」時出現(身:gyun)。正如 rime-bopomofo 不會在輸入「ㄐㄩㄣˉㄊㄧˇ」時建議「身體(ㄕㄣˉㄊㄧˇ)」

身體的拼音是san tai,這裏是不是寫錯了。

這個粵拼配方目前已經荒廢,無人維護,我想接手但是一直沒有回覆#12
如果有人能將我加入方案維護團隊的話請儘快告知我,非常感謝。

@laubonghaudoi

I spend several hours to make a replacement.

Here it is: sgalal/rime-cantonese

@sgalal 多謝,但是畢竟不是官方的倉庫,若要另外收錄和退礦會有難度。能否將你的方案合併到這個官方倉庫中?

@laubonghaudoi

多謝,但是畢竟不是官方的倉庫,若要另外收錄和退礦會有難度。能否將你的方案合併到這個官方倉庫中?

I hope so, but I think it is currently not a good idea.

  1. The license of the data source of my repository, 粵語審音配詞字庫, is unspecified
  2. It is said that Rime schemata are decentralized, so there is not an official repository. And it is easier to maintain my own repository
  3. The data format is slightly different between the two repository (no tone in this repository)
  4. My repository is still under development, so I am not confidence to override this original repository

@sgalal

  1. Rime配方的確去中心化,但是對於粵拼方案,本倉庫因爲已經佔用了jyutping這個名稱,而且是在rime的官方帳號下,多個平臺(iRime、小狼毫)自動抓取方案的時候都以此倉庫爲準,所以已經成爲事實上的官方倉庫。
  2. 粵語審音配詞字庫的數據可免費任意使用,此應用漢字古今中外讀音查詢中粵語發音部分即是用此數據。
  3. 聲調問題可以較輕易解決,以本倉庫爲準統一不用聲調即可。
  4. 我先聯繫佛振諮詢一下再確定下一步計劃。

@laubonghaudoi

粵語審音配詞字庫的數據可免費任意使用

但是我在該網站中沒有找見相關說明,因此不敢確定

@sgalal
剛纔聯繫了香港中文大學的老師,表示粵語審音配詞字庫中的錯誤較多,不宜作爲輸入法碼錶。我下週會提供另一個表,發音更準確。

@laubonghaudoi

Thanks! Looking forward to that!

粵語羅馬化方案種類繁多,並且共存。我建議可以為不同的方案創立多個Rime配方。如 谷歌粵語輸入法已提供三種方案的支持。因為日常生活經常接觸經由不同方案翻譯而成的英文名,可能有一個最大化融合各種方案而成的Rime配方也是可取之事。

@yxliang01

我認為羅馬字方案的不同不會成為問題。可以先按本倉庫的羅馬字方案 (jyutping) 做好碼表,再根據程序生成其他羅馬字方案即可。

粵語羅馬化方案種類繁多,並且共存。我建議可以為不同的方案創立多個Rime配方。如 谷歌粵語輸入法已提供三種方案的支持。因為日常生活經常接觸經由不同方案翻譯而成的英文名,可能有一個最大化融合各種方案而成的Rime配方也是可取之事。

拼音最忌標準不一,粵拼是目前設計最科學最需要推廣的方案,應以粵拼爲準,避免再加入其他拼音增加混亂度。

粵語羅馬化方案種類繁多,並且共存。我建議可以為不同的方案創立多個Rime配方。如 谷歌粵語輸入法已提供三種方案的支持。因為日常生活經常接觸經由不同方案翻譯而成的英文名,可能有一個最大化融合各種方案而成的Rime配方也是可取之事。

拼音最忌標準不一,粵拼是目前設計最科學最需要推廣的方案,應以粵拼爲準,避免再加入其他拼音增加混亂度。

我個人習慣使用教院式,因為粵拼裏有一個令我極度反感的拼寫,把「書」的元音寫成「yu」而非單一字母「y」,不過兩者能夠互相兼容。

粵語羅馬化方案種類繁多,並且共存。我建議可以為不同的方案創立多個Rime配方。如 谷歌粵語輸入法已提供三種方案的支持。因為日常生活經常接觸經由不同方案翻譯而成的英文名,可能有一個最大化融合各種方案而成的Rime配方也是可取之事。

拼音最忌標準不一,粵拼是目前設計最科學最需要推廣的方案,應以粵拼爲準,避免再加入其他拼音增加混亂度。

我個人習慣使用教院式,因為粵拼裏有一個令我極度反感的拼寫,把「書」的元音寫成「yu」而非單一字母「y」,不過兩者能夠互相兼容。

粵拼方案中本身有模糊音,y等價於yu。用兩個字母來轉寫單語音也不是什麼大問題,粵拼的eo和oe也是單元音。Rime是開源去中心化的平臺,可按個人意願任意選用方案,只不過在進行推廣的時候不可避免要選定一個標準,而這個標準只能是粵拼。

@sgalal 剛剛搞到了這個表,我把它上傳到了這裏,就是那個LSHK Jyutping - Char - JP.csv文件。裏面的發音都已經過校對。我現在的計劃是,先將現有碼表的發音加上聲調,閣下認爲如何。

@laubonghaudoi

我覺得新碼表很好。

是不是準備用這個新碼表替換現在的碼表?新的碼表只有單字沒有詞語,這如何解決?

@sgalal 不是替換,而是補充。在經過一定討論後我確定,還是要將現有碼表的所有字都加入聲調。而詞組都不需要標音所以不會受影響。現在最大的問題是我的新碼表裏只有1萬2千個字,但現有的粵拼碼表有2萬4千個字,也就是說還有一半的字沒有標聲調。

我之前跟這位老師交流時他表示,粵語審音配詞字庫中主要是生僻字的發音比較準確,常用字的記音錯誤較多。而我的新碼表裏大多是常用字,所以我猜測這剩下的一半字基本上是生僻字。所以我現在的打算是,先用我的新碼表校對補充現在的rime-jyutping碼表,加入聲調。剩下的字可以直接用你剛爬取的粵語審音配詞字庫的數據來加入聲調。如果兩者數據有衝突,再另行討論。

lotem commented

如果要標註聲調,請重新做一個碼表(碼錶),詞典的名稱不得與原有的不標調詞典相同。否則將無法兼容已有用戶的用戶詞典。

@lotem 抱歉,已經將錯別字改回來。如果是這樣,有沒有辦法令原有的用戶詞庫兼容新的帶聲調的碼表?因爲原本的無聲調的碼表已經佔用了jyutping.dict這個名稱,是否代表以後只能另用名稱,而且應該怎麼解決用戶遷移的問題。

@laubonghaudoi

我以前使用的聲調粵拼的碼表叫 jyut6ping3,可以使用這個名稱。

我以前使用的聲調粵拼的碼表叫 jyut6ping3,可以使用這個名稱。

突然感到奇怪,為何不是 jyut6ping1

我以前使用的聲調粵拼的碼表叫 jyut6ping3,可以使用這個名稱。

突然感到奇怪,為何不是 jyut6ping1

「粵拼」兩字的聲調本來就是jyut6ping3,沒有問題,「拼」字的聲調是3不是1。

如果是這樣的話,那我覺得本倉庫繼續維持原狀,作爲無聲調版的粵拼配方,而你的rime-cantonese則用作有聲調版的粵拼配方。不知道這樣如何?

既然現在可以為這個倉庫提交代碼,我還是想直接更新到這個倉庫。

我想出一種保持兼容性的方法:

  1. 刪除現有詞庫文件 jyutping.dict
  2. 創建新詞庫文件,稱為 jyut6ping3.dict
  3. 創建有聲調的新方案文件,稱為 jyut6ping3.schema
  4. 使用正則表達式去除聲調,兼容原方案文件 jyutping.schema

不知這樣是否可以接受?

@lotem

既然現在可以為這個倉庫提交代碼,我還是想直接更新到這個倉庫。

我想出一種保持兼容性的方法:

  1. 刪除現有詞庫文件 jyutping.dict
  2. 創建新詞庫文件,稱為 jyut6ping3.dict
  3. 創建有聲調的新方案文件,稱為 jyut6ping3.schema
  4. 使用正則表達式去除聲調,兼容原方案文件 jyutping.schema

不知這樣是否可以接受?

@lotem

也就是說,總共維護jyutping.schema, jyut6ping3.schema, jyut6ping3.dict這三個文件?那麼怎麼考慮用戶字典的兼容問題。

我建議一些異讀音不應收錄,衹保留正確讀音。

For example:

  • keep saang remove sang
  • 花生肉 faa sang juk -> faa saang juk
  • keep sim remove sin

另外,這裏沒有寫錯,「生」是多音字,表示【生育】的時候讀saang1,表示【生命】、【花生】時讀sang1。

我確實沒有考慮用户字典的兼容問題

lotem commented

既然現在可以為這個倉庫提交代碼,我還是想直接更新到這個倉庫。

我想出一種保持兼容性的方法:

  1. 刪除現有詞庫文件 jyutping.dict
  2. 創建新詞庫文件,稱為 jyut6ping3.dict
  3. 創建有聲調的新方案文件,稱為 jyut6ping3.schema
  4. 使用正則表達式去除聲調,兼容原方案文件 jyutping.schema

不知這樣是否可以接受?

@lotem

不可以用拼寫運算去除聲調。因爲用戶詞典記錄的是碼表形式的編碼,而不是經過運算的編碼。
因而,各種雙拼方案與 luna_pinyin 共享用戶詞典;
也是因此 terra_pinyinluna_pinyin 無法合併。

不過可以維護有聲調的碼表,用腳本生成無聲調的。目前需要手動轉換,將來可以讓配方管理器支持構建腳本。
terra_pinyinluna_pinyin 尚未採用這種方式維護,還有個重要原因是前者碼表規模較小,無法覆蓋後者。

我建議一些異讀音不應收錄,衹保留正確讀音。
For example:

  • keep saang remove sang
  • 花生肉 faa sang juk -> faa saang juk
  • keep sim remove sin

另外,這裏沒有寫錯,「生」是多音字,表示【生育】的時候讀saang1,表示【生命】、【花生】時讀sang1。

這兩者有什麼分別?

我在粵語審音配詞字庫中查到的是「sang1 是 saang1 的異讀字」,如果這是粵語審音配詞字庫的錯誤,那麼製作新詞庫時,為詞彙生成拼音應如何處理?

那麼本倉庫繼續維持原狀,作爲無聲調版的粵拼配方,而我的 rime-cantonese 則用作有聲調版的粵拼配方。然後在我的倉庫更新完詞庫後,由腳本生成無聲調的詞庫,發佈到本倉庫。

@sgalal 「生」字在粵語中就是異讀字,在碼表中要用頻率來標記,詞庫單獨加入「花生 faa1 sang1」「先生 sin1 saang1」。所以才說粵語審音配詞字庫的數據不準確,不能參照其作碼表。
實際錄入的時候要靠粵語母語者來手工校對。

我現在的計劃是,利用LSHK Jyutping - Char - JP.csv中的數據來校對一次現有的碼表發音,對於這個表中沒有的數據,再另行用粵音小鏡中的數據校對。然後修正一下詞頻以適應使用習慣。可以把你的想法寫在這裏https://github.com/rime/rime-jyutping/projects/1

@lotem 如果是這樣的話,本倉庫就維持原狀,以rime-cantonese作爲有聲調版粵拼的倉庫?

@tsaodingtw @William8915 我們已經在最近的幾次更新中收復了一些字音,另外也在這個倉庫新建了一份帶聲調版的方案rime-cantonese,請問問題還是否存在?如已解決可以關閉此issue,歡迎提出意見反饋。

@lotem

如今我與 @laubonghaudoi@leimaau@chaaklau 等人共同維護的有聲調的粵拼配方 sgalal/rime-cantonese 已經基本成型,現在希望以 transfer ownership 的方法將這個有聲調的配方轉移到官方名下,使其成為官方倉庫,以便於有聲調配方的推廣。這樣做可以嗎?

lotem commented

吼啊。歡迎啊。

吼啊。歡迎啊。

非常感謝。不過目前rime-cantonese碼表仍有較多問題,例如正體字異體字的收錄還比較混亂,還有收錄的詞組不全。需要把這些問題解決之後再轉移所有權。

@brycetsao 啱先嘅兩次更新 36bdf05 3fa96a8 已經將rime-cantonese嘅數據全部轉移落呢個倉庫入邊,唔該睇下仲有冇問題,如果冇嘅話麻煩關閉咗呢個issue佢。

從此之後,rime-cantonese將作爲 Rime 嘅默認粵語碼表,rime-jyutping僅作爲後備無聲調版碼表。