Word and Text Embeddings

Введение

Недавно увлекся темой эмбеддингов, и решил подробно изучить методы обучения эмбеддингов слов и текстов с их модификациями. Каждая модель написана собственно-ручно для лучшего понимания, что у них под капотом. Также будет описание за что и как отвечает каждый слой модели и особенности модели.

Модели для обучения эмбеддингов слов:

Word2Vec
1. Skip-Gram
2. CBOW
FastText
GloVe

Модели для обучения эмбеддингов слов и текста одновременно:

ELMO
Tranformers
1. BERT (Encoder)
2. GPT (Decoder)
3. T5 (Encoder + Decoder)

Модификации класссических методов

У первой тройки реализовал такие методы, как:

Negative Sampling
Hierarhical Softmax: реализовано на сбалансированном бинарном дереве

Реализация, описание и тест моделей

Токенизаторы

Реализация:

Тест и описание работы моей реализации:

Word2Vec

Реализация: Общая реализация модели

Тест и описание работы моей реализации: Тест и описание работы Word2Vec

GPT (Generative Pre-trained Transformer)

Реализация: Реализация модели
Тест и описание работы моей реализации (обычный токенизатор): Тест и описание работы GPT
Тест и описание работы моей реализации (fasttext токенизатор): Тест и описание работы N_Gram GPT

T5 (Text-to-Text Transfer Transformer)

Реализация: Реализация модели

Цель

Реализация всех методов в одном проекте для полного покружения в мир эмбеддингов
Тест и изучение каждого из методов с программной, математической, философской точки зрения

Отличие моего проекта от таких реализаций, как от nltk и тд

Использование torch, а значит и cuda ядер
Более читаемый код с точки зрения ООП
Больше методов для работы с моделями и их изучения
Описание каждой модели и их особенностей
Описание на русском языке (возможно, потом добавлю также и на английском)

Визуализация с помощью plotly

Метрики

Представление эмбеддингов на плоскости (TSNE)

Дополнительно

Написал свой токенизатор со всеми нужными методами

CHISH08/PytorchEmbedding

Word and Text Embeddings

Введение

Модели для обучения эмбеддингов слов:

Модели для обучения эмбеддингов слов и текста одновременно:

Модификации класссических методов

Реализация, описание и тест моделей

Токенизаторы

Word2Vec

CBOW (Continuous Bag of Words)

Skip-Gram

FastText

GloVe (Global Vectors)

ELMO (Embeddings from Language Models)

Transformers

BERT (Bidirectional Encoder Representations from Transformers)