/tts-frontend-dataset

TTS FrontEnd DataSet: Polyphone / Prosody / TextNormalization

Primary LanguagePythonApache License 2.0Apache-2.0

tts-frontend-dataset

TTS 前端数据集汇总: 多音字 / 韵律 / 文本归一化 TTS FrontEnd DataSet: Polyphone / Prosody / TextNormalization

欢迎贡献,添加更多数据集, Feel free to contribute and add more datasets!

链接:语音 AI 共创知识库

ChangeLog

  • 2023-12-25 添加中文多音字韵律数据

Todo

  • 添加更多语种数据

数据说明

中文Chinese

  • 中文多音字韵律数据集 Chinese Polyphone and Prosody Dataset
    • 描述 Description
      • 包含61万句多音字,397个多音字, 以及32万句韵律数据. 但准确率未评估
      • Contains 610k polyphone sentences, 397 polyphones, and 320k prosody sentences. But the accuracy is not evaluated.
    • 下载 Download
    • 数据来源
      • 文本来源:
      • 标注来源:
        • 使用字节的 TTS API 返回结果 https://www.volcengine.com/product/voice-tech
        • TTS Api from ByteDance
        • 代码
          # 1. get your token from https://www.volcengine.com/product/voice-tech, save to .env
          # 2. prepare txtfile then run code
          cd scripts/
          python bd_tts.py -n 2 -o output/
          python extract_data_from_bd_json.py 
          python get_g2p_data.py
          
    • 数据格式
      • Example: The polyphone is surrounded with ▁ in training corpus.
        # 多音字polyphone
        宋代出现了▁le5▁燕乐音阶的记载
        爆发了▁le5▁占领华尔街示威活动
        # 韵律prosody
        阿马#1里洛#3(德克#1萨斯州#4)。
        深约#1零点#1五四#1公里#4。
        
    • Lexicon 《现代汉语词典》(第7版) 网友 txt 校对
  • TN 文本正则化

英文English

粤语Cantonese

参考开源项目 Reference github project

Chinese

English

Cantonese

  • TN
  • G2P
  • Prosody

声明 Declaration

如有侵权请联系我 If there is any infringement, please contact me

讨论 Discussion

使用 chatgpt 标注多音字?

使用 gpt 4, 可能是我使用姿势不对, 没有得到一个好的结果, 我没有做深入的尝试, 如果你能得到一个好的结果欢迎与我分享

User:

你现在是一个中文多音字数据标注员,请按照以下格式对中文的多音字进行标注,例子:

宋代出现了▁le5▁燕乐音阶的记载
爆发了▁le5▁占领华尔街示威活动

请标注下面数据中的多音字

12月2日,江西南昌一彩票店售出中得2.2亿元大奖的彩票
为城市一线工作者营造温馨舒适的生活环境、提供多元化的配套服务。
被砸得一踏糊涂

ChatGPT

根据您的要求,这里是对给定文本中多音字的标注:

12月2日,江西南昌一彩票店售出中得▁zhong4▁2.2亿元大奖的彩票
为城市一线工作者营造温馨舒适的生活环境、提供多元化的配套服务。
被砸得一踏糊涂
在这些句子中,我只找到了一个多音字的例子,即“中”在“中得2.2亿元大奖”的上下文中读作“zhong4”。其他句子中没有显而易见的多音字。

User

继续标注

若是能让东冕少主看上
与祝先生同行的夏先生因为没注意
强烈的感觉到主人有难瞬间跳出灵魂空间

ChatGPT

以下是对您提供的文本中的多音字进行标注:

若是能让东▁mian3▁冕少主看上
与祝先生同行的夏▁xia4▁先生因为没注意
强烈的感觉到主人有难瞬间跳出灵魂空间
在这些句子中,“冕”在“东冕少主”中读作“mian3”,而“夏”在“夏先生”中读作“xia4”。其他部分没有发现多音字的用例。