/stepik-dl-nlp

Материалы мини-курса на Stepik "Нейронные сети и обработка текста"

Primary LanguageJupyter NotebookMIT LicenseMIT

stepik-dl-nlp

Материалы мини-курса на Stepik "Нейронные сети и обработка текста"

Описание курса

Современные методы автоматической обработки текста -- это поиск по смыслу, машинный перевод, чат-боты, построение баз знаний... Как к этому подступиться? Больше практики! Авторы курса, эксперты Центра ИИ Samsung, доступным языком рассказывают, как начать работать с текстами при помощи нейросетей.

Мы рекомендуем наш курс всем, кто уже имеет базовые знания в машинном обучении и хочет научиться применять нейронные сети для решения задач обработки текстов на естественном языке (NLP, Natural Language Processing).

Авторы курса "Нейронные сети и обработка текста" — эксперты московского Центра искусственного интеллекта Samsung, специалисты в области машинного обучения — преподносят свои знания в доступной форме и в таком объёме, который позволит ориентироваться в современных технологиях в области NLP.

Этот онлайн-курс является частью трека по искусственному интеллекту социально-образовательной программы для ВУЗов "IT Академия Samsung", которая стартовала в 2019 году в МГУ и ЮФУ. Если Ваш ВУЗ хочет вступить в программу "IT Академия Samsung", пишите нам на электронную почту info@myitacademy.ru.

И наконец, главное! Лучших студентов курса мы пригласим на собеседование в Московский Исследовательский Центр Samsung!

Как построен наш курс? Мы начнём с разговора о языке: почему он такой удобный для людей и сложный для машин. Затем мы сформируем высокоуровневую картину предметной области, расскажем об основных понятиях и задачах. После введения мы разберём классические методы, подходящие, например, для определения тематики документа.

А затем начнутся нейросети! Мы расскажем, как подготавливать данные, извлекать "смыслы" слов из текстов, генерировать тексты, разбирать их структуру, выделять наименования объектов, и даже обучать нейросеть искать ответы на вопросы!

Кроме лекций Вас ждут практические семинары. В завершение мы предложим Вам решить сложную прикладную задачу в области NLP.

Инструкция по запуску

Чтобы запустить ноутбук с семинара на своем ноутбуке:

  1. Cклонируйте репозиторий курса:

git clone https://github.com/Samsung-IT-Academy/stepik-dl-nlp.git

  1. В терминале выполните команду:

pip install -r requirements.txt

  1. Запустите ноутбук:

ipython notebook

Чтобы запустить ноутбук на Google Colab:

  1. Скачайте ноутбук (вкладка Github, затем прописываете адрес репозитория.

  2. Запустите ноутбук.

  3. Чтобы выкачать на colab библиотеку dlnlputils, не забудьте выполнить команду в первой ячейке:

!git clone https://github.com/Samsung-IT-Academy/stepik-dl-nlp.git && pip install -r stepik-dl-nlp/requirements.txt
import sys; sys.path.append('./stepik-dl-nlp')
  1. Не забудьте настроить device='cpu' или device='cuda', а также выбрать подходящий Runtime в Google Colab (CPU/TPU/GPU).

А также следуйте комментариям касательно путей внутри ноутбуков.

Ноутбуки также работают и на Kaggle Notebooks.

Датасеты

New York Times

https://github.com/nytimes/ingredient-phrase-tagger

Copyright (c) 2016 The New York Times Company Licensed under the Apache License, Version 2.0