gheyret/UyghurEditPP

关于统一标准词,统一推荐词

SilvaQ opened this issue · 7 comments

非常荣幸得到 Gheyret 老师开源的这么给力的一个程序。

维吾尔语的 Imla 现在确实是需要一个方向,一个标准。

这几天我也开源了一个项目 维吾尔语开源词汇库

u-open-imla 项目正在从一些没有包含敏感词汇的内容中过滤出词汇,把它们作为原始语料,再从手里的词汇库中过一遍筛查出可以开源的干净,标准词汇。

我手里的词汇来源比较杂,可信度搞、但是缺陷还是比较明显。
所以我在这个issue中想和你讨论一下几个事情我们能否合并推进:

  1. 维吾尔语的老、新词汇的 Imla 基础词汇库我们这两个项目能否统一 ?相同直接使用,不相同的一起过滤,处理并出一个最终的结果,使得两方的词汇都是统一的?
  2. 推荐词库我们双方的词汇能否互补,提供出统一的推荐词映射库?
  3. 我们能否在这里一起讨论,并确定我们接下来合并所有资源,统一标准的1,2,3出来,分阶段处理?

望长辈有空时回复一下这个issue,谢谢。

Salam,

1.Imla ambiri birla, Uyghurche halette saqlan’ghan. Latinche we Slawyanche tekshürgendimu mushuni ishlitidu.
2. Namzat sözlerni pirogramma özi hasil qilidu. ayrim hasil qilin’ghan emes. Uyghurchidiki xatalishish éhtimalliqini közde tutup, her xil hésablashlarni élip bérip, namzat sözlerni hasil qilidu.
3. Elwette ölchemlik Imla ambiri bolushi kérek. emma bu choqum "Imla we Teleppuz Lughitini asas qilishi" kérek.

Men UyghurEditPP da ishletken sözler, "Uyghur Tilining Izahliq Lughiti" diki tüp sözlerni pirogramma arqiliq türlep, türlen’gen sözlerni qolumda bar bolghan 30 GB yéqin tékistin hasil qilin’ghan "Bir Gram" ambiridin izdep, tekrarliqi melum sandin yuqiri bolghan 130 mingdin artuq sözni ishletken. Eger tekrarliqini oylashmisam kompyutér türligen, emeliy ishlitiliwatqan(Bir Gram Ambiri da bar) bolghan sözler 1.2 milyondin ashidu.

哈,明白了,怪不大长辈的程序推荐,发现能力如此强大。

那么接下来这样做老师你看如何:

  1. 你利用你手里的资源+ UyghurEditPP的能力帮忙吧 u-open-imla 这个项目中的 u-open-imla/tree/main/imla_core 这个目录的词汇检查一下,并给出对错的判定
  2. 通过第一步检测出来的结果我们一起确定有问题词汇的正确性。

我们看看这个结果再继续讨论后续应该如何进行来事你怎么看 ?

Yaxshi yaxshi pikir,

Bu yerde bir mesile bar. Hazirqi sözlük 1997-yildiki "Imla we Teleppuz Lughitini" asas qilghan. Emma 2009-yili yéngidin "Imla we Teleppuz Lughiti" chiqti.
Buningda sap Uyghurche sözlerning imlasida özgirish yoq déyerlik iken, emma bashqa tildin qobul qilin’ghan sözlerning imlasida özgirish chong iken.
mesilen:
programma(1997), pirogramma(2009)
biologiye(1997), biyologiye(2009)

Buni qandaq hel qilish kérek?

Méning pikirim:
Awwal 2009-yildiki "Imla we Teleppuz Lughitini" ning tékistini teyyarlisaq, qalghan ishlar asan bolidu.

Yeni biz eng yengi qaidini asas qilishimiz kerek.

明白了。我手里的词汇库有可能两个都有。但老师说的这个问题确实是一个我们需要面临的实际问题。
我找人安排过,可能进度很慢,我也在想起他办法,目前还没找到有效解决方案,但是这个我们不得不整理,所以:

  1. 我们吧 2009-yildiki "Imla we Teleppuz Lughitini" ning tékistini teyyarlisaq 作为我们的目标一起努力
  2. 得出第一个的结果之前我们以两方的数据集为准:
    1. 整理出双方一致的标准词汇作为基库
    2. 整理出双方不一致的部分,通过规则或者第一项中的书籍想办法统一这部分
    3. 那重点放在生成双方认可的最基础的标准词库和推荐词的生成并双发吧数据源统一切换成最后的成果,保证今后多个使用方的数据都是统一基础词汇库上进行的检查和推荐,避免多处规范引起争论。
  3. 就像老师上面提醒 EditPP 自动升级更新推荐词,这个是我们必须争取到的,但是我们必须得建立一个 非常可信的推荐基础词库。这个词库还是取决于我们标准词库的丰富程度,所以我建议我们更多的投入整理出标准词库

非常荣幸得到 Gheyret 老师开源的这么给力的一个程序。

维吾尔语的 Imla 现在确实是需要一个方向,一个标准。

这几天我也开源了一个项目 维吾尔语开源词汇库

u-open-imla 项目正在从一些没有包含敏感词汇的内容中过滤出词汇,把它们作为原始语料,再从手里的词汇库中过一遍筛查出可以开源的干净,标准词汇。

我手里的词汇来源比较杂,可信度搞、但是缺陷还是比较明显。
所以我在这个issue中想和你讨论一下几个事情我们能否合并推进:

  1. 维吾尔语的老、新词汇的 Imla 基础词汇库我们这两个项目能否统一 ?相同直接使用,不相同的一起过滤,处理并出一个最终的结果,使得两方的词汇都是统一的?
  2. 推荐词库我们双方的词汇能否互补,提供出统一的推荐词映射库?
  3. 我们能否在这里一起讨论,并确定我们接下来合并所有资源,统一标准的1,2,3出来,分阶段处理?

望长辈有空时回复一下这个issue,谢谢。

维吾尔语开源词汇库 ni ochuruwettingizmu?

非常荣幸得到 Gheyret 老师开源的这么给力的一个程序。
维吾尔语的 Imla 现在确实是需要一个方向,一个标准。
这几天我也开源了一个项目 维吾尔语开源词汇库
u-open-imla 项目正在从一些没有包含敏感词汇的内容中过滤出词汇,把它们作为原始语料,再从手里的词汇库中过一遍筛查出可以开源的干净,标准词汇。
我手里的词汇来源比较杂,可信度搞、但是缺陷还是比较明显。
所以我在这个issue中想和你讨论一下几个事情我们能否合并推进:

  1. 维吾尔语的老、新词汇的 Imla 基础词汇库我们这两个项目能否统一 ?相同直接使用,不相同的一起过滤,处理并出一个最终的结果,使得两方的词汇都是统一的?
  2. 推荐词库我们双方的词汇能否互补,提供出统一的推荐词映射库?
  3. 我们能否在这里一起讨论,并确定我们接下来合并所有资源,统一标准的1,2,3出来,分阶段处理?

望长辈有空时回复一下这个issue,谢谢。

维吾尔语开源词汇库 ni ochuruwettingizmu?

项目设置成 Private了,近期一段时间继续保持私有。等到时间合适的时候再次开放。

长辈方便的时候建议在 https://gitee.com 也开个账户,国内hub用起来不是很方便。
码云(gitee)是国内版hub。一般国内所有地方可以正常使用,平台具备更多的交流,协作能力。