🎈 Конференция в Slack, регистрация.
- Что почитать: книги для ML-специалистов (ENG, RUS), учебники и учебные материалы, статьи, онлайн-пособия и туториалы.
- Code editors: IDE, текстовые редакторы, iPython-notebook, и где вообще стоит писать код.
- Datasets: источники бесплатных датасетов.
- Курсы: релевантные и полезные онлайн-курсы (MOOC) на русском и английском.
- Reddit: небольшой список сабреддитов по теме.
- Математические методы обучения по прецедентам (теория обучения машин) – К. В. Воронцов;
- Логические алгоритмы классификации – К. В. Воронцов;
- Машинное обучение: вводная лекция – К. В. Воронцов;
- Конспекты лекций;
- Семинары по машинному обучению. Конспекты, код и прочие материалы к семинарам по машинному обучению, проводимым на ВМК МГУ;
- Пост на reddit: Machine Learning Books;
- immersive linear algebra – online linear algebra book with fully interactive figures;
- Цикл статей Titanic: Getting Started With R, в нём используется уже знакомый нам датасет Titanic. It’s a wonderful entry-point to machine learning with a manageably small but very interesting dataset with easily understood variables;
- 100 репозиториев по машинному обучению;
- Блоги по датасаенс-тематике;
- People tweeting about ML and AI;
- Machine Learning Resource Guide;
- 17 ресурсов по машинному обучению от Типичного Программиста.
- An Introduction to Statistical learning – Gareth James, D. Witten et. al;
- A Course in Machine Learning - Hal Daumé III;
- Bayesian Reasoning and Machine Learning - D.Barber (2013);
- Data Mining and Analysis. Fundamental Concepts and Algorithms - M.J.Zaki, W.Meira Jr (2014);
- Data Science For Dummies – Lillian Pierson (2015);
- Doing data science;
- The Elements of Statistical Learning: Data Mining, Inference, and Prediction - T. Hastie, R. Tibshirani, J. Friedman;
- Gaussian Processes for Machine Learning - Carl E. Rasmussen, Christopher K. I. Williams;
- Inductive Logic Programming: Techniques and Applications - Nada Lavrac, Saso Dzeroski;
- Information Theory, Inference and Learning Algorithms – David MacKay;
- Introduction To Machine Learning - Nils J Nilsson (1997);
- The LION Way Machine Learning plus Intelligent Optimization (pdf);
- Machine Learning, Neural and Statistical Classification - D. Michie, D. J. Spiegelhalter;
- Machine Learning. The Art of Science of Algorithms that Make Sense of Data - P. Flach (2012);
- Machine Learning: A Probabilistic Perspective;
- Machine learning cheat sheet - soulmachine (2015);
- Openintro Statistics 3 –
- Pattern Recognition and Machine Learning - C.M.Bishop (2006);
- R in action;
- Reinforcement Learning: An Introduction - Richard S. Sutton, Andrew G. Barto;
- The Elements of Statistical Learning – Trevor Hastie, R. Tibshirani, J. Friedman;
- Understanding Machine Learning: From Theory to Algorithms;
- Математическая статистика – Чернова Н.И. (НГУ, 2014);
- Математическая статистика – Чернова Н.И. (СибГУТИ, 2009);
- Машинное обучение — Петер Флах;
- Теория вероятностей – Чернова Н.И. (СибГУТИ, 2009);
- Теория вероятностей – Чернова Н.И. (НГУ, 2007).
📚 А также полка «Анализ данных» на Букмейте.
Посмотреть тред или внести свои предложения можно здесь.
Decision Trees
- Урок про Desicion Trees на scikit-learn.org;
- Семинары по решающим деревьям – Е. Соколов.
Grid Search
- How to Tune Algorithm Parameters with Scikit-Learn;
- Python and Kaggle: Feature selection, multiple models and Grid Search;
- Grid-search and cross-validated estimators на scipy-lectures.org;
- Grid Search на scikit-learn.org
Логистическая регрессия
- Подробнее о логистической регрессии и предсказании вероятностей с ее помощью;
- Семинары по выбору моделей и критериев качества.
Градиентный спуск
Подробнее о градиентном бустинге и особенностях его применения к деревьям.
Лекции по искусственным нейронным сетям — К. В. Воронцов.
- Заметка по IPython Notebook.
- Статья Data Munging in Python (using Pandas) — «Может кому понадобится, кто тоже в первый раз видит питон».
- Введение в Sklearn — IPython-notebook на русском языке.
- Scipy lecture notes — tutorials on the scientific Python ecosystem: a quick introduction to central tools and techniques.
- 100 Numpy exercises. The goal is both to offer a quick reference for new and old users and to provide also a set of exercices for those who teach.
- Spyder – the Scientific PYthon Development EnviRonment. Spyder входит в Анаконду (просто введите
spyder
в командной строке); - Canopy — рекомендуют в курсе MIT 6.00.1.x (Introduction to Computer Science and Programming Using Python);
- Rodeo — a data science IDE for Python;
- PyCharm от JetBrains - серьезная IDE для больших проектовl
- Jupyter – open source, interactive data science and scientific computing across over 40 programming languages. The Jupyter Notebook is a web application that allows you to create and share documents that contain live code, equations, visualizations and explanatory text;
- nbviewer – renders notebooks available on other websites;
- Sublime Text 3 - VIM XXI века, отлично подходит для python, если использовать вместе с плагинами:
- Package Control - для быстрой и удобной работы с дополнениями
- Git - для работы с git;
- Jedi - делает автодополнения для Python более умными и глубокими;
- SublimeREPL - запускает
Read-eval-print loop
в соседней вкладке, удобно для пошаговой отладки кода; - Auto-PEP8 - приводит код в соответствие с каноном стиля pep8;
- Python Checker - проверка кода.
Дополнительные материалы:
- PyCharm vs Sublime Text – a blog post comparing these two popular development tools and text editors.
- PEP 0008 -- Style Guide for Python Code. Важно, нужно.
- Перечень лучших курсов по практически любым областям математики;
- Тонна разнообразных курсов по программированию, алгоритмам, в том числе 14 курсов по ML;
- Coursera:
- ❗ Machine Learning by Stanford University: «Сложность курса [Введение в машинное обучение] нормальная, если сначала пройти этот курс»;
- Machine Learning Foundations: A Case Study Approach: «В качестве самого первого курса по ML, кто с английским, очень советую. Очень доходчиво»;
- Practical Predictive Analytics: Models and Methods: «Сейчас параллельно вот этот курс смотрю, о том же, но на пальцах»;
- Basic Statistics – хорошие лекции для новичков. Задания на DataCamp, ужасно глючные, недоработанные, к курсу отношения имеют не очень много (по состоянию на начало 2016);
- Calculus: Single Variable Part 1 - Functions from University of Pennsylvania;
- Calculus One from The Ohio State University;
- Современная комбинаторика;
- Теория вероятностей для начинающих. Этот и предыдущий курсы преподаёт А. Райгородский, на их фоне упомянутый выше Basic Statistics — Улица Сезам;
- Линейная алгебра от ВШЭ. Курс линейной алгебры для нематематических факультетов, подходит «для быстрого старта»;
- Математика и Python для анализа данных, курс на русском языке по Математике, Python и анализу данных;
- Специализация Машинное обучение — её начинает вышеупомянутый курс «Математика и Python для анализа данных». У меня по этой специализации есть аккуратная репка.
- Udacity:
- Intro to Machine Learning — «по Scikit/Pandas вот этот курс просто отличный»;
- Intro to Statistics;
- Intro to Descriptive Statistics – подробный курс для новичков;
- Intro to Inferential Statistics.
- Edx:
- MITx: 6.041x Introduction to Probability - The Science of Uncertainty;
- Introduction to Computational Thinking and Data Science;
- The Analytics Edge;
- Learning from Data. «Его особенность - нет привязки к языку какому-либо. Дали задание, например, посчитать лин регрессию - дальше делайте как хотите»;
- «на stepic.org есть курс по Статистике. Местами чуть сумбурно (как я понял по прохождении и прочтении 2 книг дополнительно), но для начала лучше не придумать/не найти»;
- Видеозаписи лекций Школы Анализа Данных;
- Probability and Statistics на KhanAcademy;
- Intro to Python for Data Science – основы Python и немного про NumPy;
- Data Science and Machine Learning Essentials от Microsoft.
Рекомендую посмотреть как минимум топ за всё время + sidebar в этих сабреддитах: