该资源将应用人工智能技术研究水族文化、文字和古籍。为更好的抢救和保护濒危水族文字和非物质文化遗产,作者申请并开源了该项目,主要通过人工智能技术识别水书,构建与汉字的自动翻译系统,实现水族本体和文献知识图谱构建,挖掘新词并溯源民族变迁历史。作者回到家乡贵州教书以来,对利用AI抢救民族文物研究产生浓厚兴趣并后半生都将致力于该研究中,包括侗族大歌、苗族飞歌语音识别研究,少数民族古籍保护及文化图腾识别都会陆续展开,希望有共同爱好的朋友参与进来,一起加油。此外,作者会将近5年的数字人文与人工智能研究代码开源,供大家交流,希望民族的记忆延续下去。
研究内容包括:
-
水书图像识别研究
Sui-Character-Recognition -
水书和汉字自动翻译研究
Sui-Chinese-Translation -
水族知识图谱和本体构建研究
Sui-KnowledgeGraph -
苗族AI研究
MIAO-AIResearch
苗族飞歌、苗族图腾、苗族建筑、清水江文献古籍 -
侗族AI研究
DONG-AIResearch
侗族大歌、侗族图腾、侗族建筑、清水江文献古籍 -
甲骨文AI研究
Jiaguwen-AIResearch
新字图像识别、图像去噪处理、图像演化还原、历史变迁 -
王阳明文化AI研究
WangYangMing-AIResearch
王阳明文化知识图谱构建、王阳明核心**主题挖掘、文化变迁 -
少数民族语言同声传译
语料库构建包括:
(1)少数民族文字数据库
- 水书
水书数据库由作者自建的12个水族文字、5280 幅古文字图像组成,供大家开源使用。下图显示具体的数据集,详见资源中的“水书自建数据集”。
-
阿拉伯文字数据集
-
手写东巴文单字数据集(“民族语言智能分析与安全治理”教育部重点实验室)
-- https://xingong.muc.edu.cn/info/1042/4055.htm
-- https://mzyy.muc.edu.cn/
-- https://mzyy.muc.edu.cn/info/1422/2017.htm
(2)少数民族语音数据库
(3)少数民族图腾数据库
(1) 古籍
- 四库Bert:https://github.com/hsc748NLP/SikuBERT-for-digital-humanities-and-classical-Chinese-information-processing
- 古籍Bert:https://github.com/Ethan-yt/guwenbert
- 说文解字:https://www.zdic.net/
- 系列笔谈之五:古籍专题资源库的建设:https://mp.weixin.qq.com/s/XXZiYRSMqRN2ODWkqpZAjQ
- 常见80个象形字大全对照表:https://mp.weixin.qq.com/s/Dl3Za6FZgS4DMlk8gxSuMA
(2) 数据集
- 多模态带数据集
- VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
本文是来自中科院自动化所模式识别实验室刘静老师组的一项多模态相关的工作,目前常见的多模态模型一般局限在文本和图片(或视频)两个模态,本文则包含文本、图片(或视频)、音频三个模态,提出了 VALOR (Vision-Audio-Language Omni-peRception)多模态模型进行多模态理解和文本生成。同时为了促进三模态的研究,作者还创建了一个大规模高质量的三模态数据集 VALOR-1M,包含了 100 万部视频,都有人工标注的字幕。
(3)图像去雾先进算法
- RIDCP_dehazing CVPR 2023:https://github.com/RQ-Wu/RIDCP_dehazing
- MAP-Net CVPR 2023:https://github.com/jiaqixuac/MAP-Net
如果您对这个方向有兴趣,或长期从事民族文化研究,或想利用AI及传统技术抢救民族文物及非物质文化遗产,以及对数字人文感兴趣,有人工智能基础并想加入这个开源项目,可以私聊我,我们一起加油。中华民族的才是最好的,希望将这些民族的记忆、文字、语音、背影和文化延续下去。^_^
By:2021-07-12 杨秀璋
日志:
- 2024年1月19日重新更新,上传水书数据集