Seq2Seq中文拼写纠错

介绍

Web_Search_Tech期末大作业

模型架构

基于Sequence to Sequence的中文错别字纠错模型

这个模型本质上是两个循环神经网络，编码器用来分析输入序列，解码器用来生成输出序列。

编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量c，并在该背景变量中编码输入序列信息。

解码器根据编码器输出的背景向量c、已经预测的输出以及上一隐藏层状态来得到下一步隐藏状态，有了解码器的隐藏状态后，我们可以使用自定义的输出层和softmax运算来计算预测字的概率分布。

安装教程

pip安装依赖包

conda create -n Web_Search_Tech python=3.9
conda activate Web_Search_Tech
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
conda install scikit-learn pandas matplotlib
pip install pycorrector

使用说明

Training

cd <当前代码相对路径>
conda activate Web_Search_Tech
train.sh

Inference

cd <当前代码相对路径>
conda activate Web_Search_Tech
infer.sh

参与贡献

Fork 本仓库
新建 Feat_xxx 分支
提交代码
新建 Pull Request

特技

使用 Readme_XXX.md 来支持不同的语言，例如 Readme_en.md, Readme_zh.md
Gitee 官方博客 blog.gitee.com
你可以 https://gitee.com/explore 这个地址来了解 Gitee 上的优秀开源项目
GVP 全称是 Gitee 最有价值开源项目，是综合评定出的优秀开源项目
Gitee 官方提供的使用手册 https://gitee.com/help
Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 https://gitee.com/gitee-stars/

Looong01/seq2seq_Chinese_spelling_correction

Seq2Seq中文拼写纠错

介绍

模型架构

安装教程

使用说明

参与贡献

特技