Word2Vec

RCC 2020 年度プロジェクト活動

自然言語処理班

概要

単語の分散表現をWord2Vecを用いて体験します。

学習済みモデルを使って，サンプルコードを動かしてみましょう。

実行環境

OS：問わない
Python ~> 3.8

インストールと学習

データの準備

学習済みモデルをダウンロードし，展開する。

インストール

$ git clone <this repo>
$ cd <this repo>

$ pip install -U pip
$ pip install -r requirements.txt

デモ

$ python
>>> import gensim
>>> model = gensim.models.KeyedVectors.load_word2vec_format('jawiki.word_vectors.100d.txt')
>>>
>>> model['日本'] # ベクトルを取り出す
[ 5.30889511e-01 -2.57213235e-01 -1.59220584e-02 -4.43872392e-01
>>> model.most_similar('日本') # 類似した単語を取り出す
[('日本国内', 0.72707200050354), ('アジア', 0.7265250086784363), ('海外', 0.7229053974151611)

他にも，単語の加減算を行う方法もありますので，興味があれば調べてみてください。

例: 父親 - 男性 + 女性 = 母親

averak/rcc-nlp-word2vec

Word2Vec

概要

実行環境

インストールと学習

データの準備

インストール

デモ