stepik-dl-nlp
Материалы мини-курса на Stepik "Нейронные сети и обработка текста"
Описание курса
Современные методы автоматической обработки текста -- это поиск по смыслу, машинный перевод, чат-боты, построение баз знаний... Как к этому подступиться? Больше практики! Авторы курса, эксперты Центра ИИ Samsung, доступным языком рассказывают, как начать работать с текстами при помощи нейросетей.
Мы рекомендуем наш курс всем, кто уже имеет базовые знания в машинном обучении и хочет научиться применять нейронные сети для решения задач обработки текстов на естественном языке (NLP, Natural Language Processing).
Авторы курса "Нейронные сети и обработка текста" — эксперты московского Центра искусственного интеллекта Samsung, специалисты в области машинного обучения — преподносят свои знания в доступной форме и в таком объёме, который позволит ориентироваться в современных технологиях в области NLP.
Этот онлайн-курс является частью трека по искусственному интеллекту социально-образовательной программы для ВУЗов "IT Академия Samsung", которая стартовала в 2019 году в МГУ и ЮФУ. Если Ваш ВУЗ хочет вступить в программу "IT Академия Samsung", пишите нам на электронную почту info@myitacademy.ru.
И наконец, главное! Лучших студентов курса мы пригласим на собеседование в Московский Исследовательский Центр Samsung!
Как построен наш курс? Мы начнём с разговора о языке: почему он такой удобный для людей и сложный для машин. Затем мы сформируем высокоуровневую картину предметной области, расскажем об основных понятиях и задачах. После введения мы разберём классические методы, подходящие, например, для определения тематики документа.
А затем начнутся нейросети! Мы расскажем, как подготавливать данные, извлекать "смыслы" слов из текстов, генерировать тексты, разбирать их структуру, выделять наименования объектов, и даже обучать нейросеть искать ответы на вопросы!
Кроме лекций Вас ждут практические семинары. В завершение мы предложим Вам решить сложную прикладную задачу в области NLP.
Инструкция по запуску
Чтобы запустить ноутбук с семинара на своем ноутбуке:
- Cклонируйте репозиторий курса:
git clone https://github.com/Samsung-IT-Academy/stepik-dl-nlp.git
- В терминале выполните команду:
pip install -r requirements.txt
- Запустите ноутбук:
ipython notebook
Чтобы запустить ноутбук на Google Colab:
-
Скачайте ноутбук (вкладка Github, затем прописываете адрес репозитория.
-
Запустите ноутбук.
-
Чтобы выкачать на colab библиотеку dlnlputils, не забудьте выполнить команду в первой ячейке:
!git clone https://github.com/Samsung-IT-Academy/stepik-dl-nlp.git && pip install -r stepik-dl-nlp/requirements.txt
import sys; sys.path.append('./stepik-dl-nlp')
- Не забудьте настроить
device='cpu'
илиdevice='cuda'
, а также выбрать подходящий Runtime в Google Colab (CPU/TPU/GPU).
А также следуйте комментариям касательно путей внутри ноутбуков.
Ноутбуки также работают и на Kaggle Notebooks.
Датасеты
New York Times
https://github.com/nytimes/ingredient-phrase-tagger
Copyright (c) 2016 The New York Times Company Licensed under the Apache License, Version 2.0