Pinned Repositories
apk-reverse
Decompiler apk file to java files
CanvaChen
chinese-llama-tokenizer
目标:构建一个更符合语言学的小而美的 llama 分词器,支持中英日三国语言
chinese-poetry
The most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
Classical-Modern
全面的文言文(古文)—现代文平行语料。(源仓库移除了引号,本仓库保留引号,并对古文原文进行大量的缺字、缺句和标点符号修正)
llm-dataset-chinese-poetry
目标:整理一份高质量的大模型古诗词数据集,涵盖先秦到现代
CanvaChen's Repositories
CanvaChen/llm-dataset-chinese-poetry
目标:整理一份高质量的大模型古诗词数据集,涵盖先秦到现代
CanvaChen/chinese-llama-tokenizer
目标:构建一个更符合语言学的小而美的 llama 分词器,支持中英日三国语言
CanvaChen/apk-reverse
Decompiler apk file to java files
CanvaChen/Classical-Modern
全面的文言文(古文)—现代文平行语料。(源仓库移除了引号,本仓库保留引号,并对古文原文进行大量的缺字、缺句和标点符号修正)
CanvaChen/CanvaChen
CanvaChen/chinese-poetry
The most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。