/arabic_vocalizer

Arabic deep-learning based diacritization models (Shakkala, Shakkelha) in the ONNX format.

Primary LanguagePythonMIT LicenseMIT

Arabic deep-learning based diacritization models (Shakkala, Shakkelha) in the ONNX format.

Install with:

pip install git+https://github.com/nipponjo/arabic_vocalizer.git

Example:

from arabic_vocalizer import vocalize

# %% unvocalized input
input_text = "اللغة العربية هي أكثر اللغات السامية تحدثا، وإحدى أكثر اللغات انتشارا في العالم، يتحدثها أكثر من 467 مليون نسمة"

# %% shakkala output
print(vocalize(input_text, model='shakkala'))
>> اللُّغَةُ الْعَرَبِيَّةُ هِيَ أَكْثَرُ اللُّغَاتِ السَّامِيَةِ تَحَدُّثًا، وَإِحْدَى أَكْثَرِ اللُّغَاتِ انْتِشَارًا فِي الْعَالِمِ، يَتَحَدَّثُهَا أَكْثَرُ مَنْ 467 مُلْيُونُ نُسْمَةَ

# %% shakkelha output
print(vocalize(input_text, model='shakkelha'))
>> اللُّغَةُ الْعَرَبِيَّةُ هِيَ أَكْثَرُ اللُّغَاتِ السَّامِيَةِ تَحَدُّثًا، وَإِحْدَى أَكْثَرِ اللُّغَاتِ انْتِشَارًا فِي الْعَالِمِ، يَتَحَدَّثُهَا أَكْثَرُ مِنْ 467 مَلْيُونٍ نَسَمَةً