/rcc-nlp-word2vec

RCC自然言語処理班:Word2Vec

Primary LanguagePython

Word2Vec

Twitter

RCC 2020 年度プロジェクト活動

自然言語処理班

概要

単語の分散表現をWord2Vecを用いて体験します。

学習済みモデルを使って,サンプルコードを動かしてみましょう。

実行環境

  • OS:問わない
  • Python ~> 3.8

インストールと学習

データの準備

学習済みモデルをダウンロードし,展開する。

インストール

$ git clone <this repo>
$ cd <this repo>

$ pip install -U pip
$ pip install -r requirements.txt

デモ

$ python
>>> import gensim
>>> model = gensim.models.KeyedVectors.load_word2vec_format('jawiki.word_vectors.100d.txt')
>>>
>>> model['日本'] # ベクトルを取り出す
[ 5.30889511e-01 -2.57213235e-01 -1.59220584e-02 -4.43872392e-01
>>> model.most_similar('日本') # 類似した単語を取り出す
[('日本国内', 0.72707200050354), ('アジア', 0.7265250086784363), ('海外', 0.7229053974151611)

他にも,単語の加減算を行う方法もありますので,興味があれば調べてみてください。

例: 父親 - 男性 + 女性 = 母親