/Language-Model-Study

初学NLP:学习自己搭建简单的语言模型

Primary LanguagePythonApache License 2.0Apache-2.0

Language Model Study

初学NLP: 学习自己搭建简单的语言模型。欢迎大家一起交流,共同进步!

更新日志

  • Update on Jan. 4th, 2024

    • 创建代码仓库,开发词袋模型v1.0版本。

    • “词袋模型”是NLP中常用的一种文本表示方法。它将文本看作是一个“袋子”,忽略了文本中单词出现的顺序,只关注每个单词在文本中出现的频率或者存在的情况。在这个模型中,一个文本可以被表示为一个由单词构成的集合,每个单词都有一个对应的计数(或者布尔值),表示它在文本中的出现情况。词袋模型常用于文本分类,情感分析、信息检索等场景。

  • Update on Jan. 10th, 2024

    • 学习并尝试编写了基于Skip-Gram模型算法的英文词向量训练代码,使用PyTorch构建了具有一个嵌入层和一个线性隐藏层的神经网络,用了交叉熵损失作为损失函数,SGD作为参数优化算法。
    • Skip-Gram是一个用于词嵌入的模型,它是Word2Vec模型的一部分,它的目标是给定一个中心词,预测在该词的上下文窗口内可能出现的其他词。当神经网络的参数稳定下来时,Embedding层的参数就是词嵌入矩阵。
    • 词嵌入向量反映一个词语在高维空间中与其他词语间的关系,通常两个词的词向量越接近,两个词语的语义(或其他某些属性)就越相似。利用词向量可以完成分类、情感分析等非常多的NLP下游任务。
  • Update on Jan. 12th, 2024

    • 使用skip_gram.py中的代码,训练了一组样例词向量。包含3093词,每个向量64个维度。语料的主要来源包括莎士比亚的著作、BBC新闻以及一些公开的科学文献,确保语料在各个时间段与领域均有所涉及。

      Loss_values Test_values

访问次数统计

Number of Total Visits (All of Duyu09's GitHub Projects):
Number of Total Visits (Language-Model-Study):