Seq2Seq中文拼写纠错

介绍

Web_Search_Tech期末大作业

模型架构

  • 基于Sequence to Sequence的中文错别字纠错模型

    这个模型本质上是两个循环神经网络,编码器用来分析输入序列,解码器用来生成输出序列。

    编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量c,并在该背景变量中编码输入序列信息。

    解码器根据编码器输出的背景向量c、已经预测的输出以及上一隐藏层状态来得到下一步隐藏状态,有了解码器的隐藏状态后,我们可以使用自定义的输出层和softmax运算来计算预测字的概率分布。

安装教程

  • pip安装依赖包
conda create -n Web_Search_Tech python=3.9
conda activate Web_Search_Tech
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
conda install scikit-learn pandas matplotlib
pip install pycorrector

使用说明

  • Training
cd <当前代码相对路径>
conda activate Web_Search_Tech
train.sh
  • Inference
cd <当前代码相对路径>
conda activate Web_Search_Tech
infer.sh

参与贡献

  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

特技

  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. Gitee 官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解 Gitee 上的优秀开源项目
  4. GVP 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目
  5. Gitee 官方提供的使用手册 https://gitee.com/help
  6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 https://gitee.com/gitee-stars/