Проекты Data Science
Ноутбуки с отметкой kaggle
выполнены на английском языке. Для всех есть копия в Google collab
Все проекты выполнены в ноутбуке, преимущественно Jupiter notebook и Google Collab, дата сеты не приложены. Приведен только готовый вариант.
Рекомендуется смотреть через External viewer или Google Collab
Сертификаты и полезные ссылки и книги
Проект | Тип исследования | Примечание |
---|---|---|
01. Исследование надёжности заёмщиков | Предобработка и очистка данных\Кредитный отдел банка запросил исследовать, какие факторы влияют на надёжность заёмщика. Необходимо предоставить портрет надёжного заемщика. | Pandas. Предобработка данных, лемматизация, категоризация данных. |
02. Исследование объявлений о продаже квартир | Исследовательский анализ данных Необходимо определить параметры, оказывающие наибольшее влияние на оценку стоимости недвижимости. | Pandas, Matplotlib, Seaborn, NumPy, Datetime. Исследовательский анализ данных, предобработка данных, визуализация. |
03. Музыка больших городов | введение в Data science. Первый проект | есть Collab версия, введение в EDA |
04. Введение в Машинное обучение | есть Collab версия, введение в ML, с учителем | Sklearn, Pandas, Numpy, Seaborn |
05. Определение перспективного тарифа для телеком компании RUS | Статистический анализ данных\Statistics\Необходимо проанализировать активность клиентов в разрезе тарифов, и определить более перспективный тариф для маркетинговой кампании. | Pandas, SciPy, Matplotlib, Seaborn, NumPy, Datetime. Исследовательский анализ данных, проверка гипотез, предобработка данных, визуализация. |
06. Прогноз продаж в интернет-магазине | Исследовательский и статистический анализ\EDA\Необходимо выявить определяющие успешность игры закономерности и для каждого из трех регионов (NA, Europe, JP) выбрать игры для рекламных кампаний. | Pandas, SciPy, Matplotlib, Seaborn, NumPy, Datetime. Исследовательский анализ данных, проверка гипотез, предобработка данных, визуализация. |
07. Titanic competition KAGGLE | Саббмит на соревнование каггл | есть Collab версия, kaggle compete |
08. Монте Карло KAGGLE | Визуализация ЦПТ и закона больших числе | Kaggle notebook |
09. Heart attack analysis and prediction KAGGLE | проект: построение модели, предсказывающий сердечный приступ у пациента | Kaggle notebook |
10. Video games EDA KAGGLE | версия для kaggle | Kaggle notebook |
11. Прогнозирование оттока клиентов банка | Необходимо спрогонозировать, уйдет ли клиент в ближайшее время или нет. | Scikit-learn, Pandas, Matplotlib, Seaborn, NumPy, Random. Машинное обучение, Upsampling, Downsampling, One-Hot Encoding, Ordinal Encoding, Масштабирование данных, предобработка данных, визуализация. |
12. Client churn from bank kaggle version | версия для kaggle | Kaggle notebook |
13. Video games with score kagg | версия для kaggle | Kaggle notebook |
14. Прогнозирование прибыли от нефтяных скважин | Моделирование прогнозов (регрессия) | Scikit-learn, Pandas, Matplotlib, Seaborn, NumPy, SciPy. Машинное обучение, Bootstrap, предобработка данных, визуализация. |
15. Предсказание коэффициента восстановления золота из золотосодержащей руды(промышленное моделирование) | есть Collab версия, EDA и построение модели для промышленной компании\Машинное обучение, предобработка данных, визуализация, проверка гипотез. | Scikit-learn, Pandas, NumPy, SciPy, Matplotlib, Seaborn |
16. Защита персональных данных клиентов страховой компании | Необходимо защитить персональные данные клиентов страховой компании. Разработать такой метод преобразования данных, чтобы по ним было тяжело восстановить исходную информацию и при этом не менялось качество линейной регрессии. | есть Collab версия, EDA и построение модели для промышленной компании\Scikit-learn, Pandas, NumPy, Random, Matplotlib, Seaborn. Линейная алгебра, машинное обучение. |
17. Аппроксимация и оптимизация | Изучение методом аппроксимации и оптимизации функций, численные методы | есть Collab версия, SciPy, Numpy, Pandas, Matplotlib, Seabron |
18. Предсказания цены автомобиля | Необходимо построить и сравнить несколько моделей для определения стоимости автомобиля | есть Collab версия, Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seaborn. Градиентный бустинг, машинное обучение, Ordinal Encoding, масштабирование данных |
19. SMA стратегия Forex | Работа с временными рядами, реализация торговой стратегии | есть Collab версия, Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seaborn, Plotly |
20. Прогнозирование количества заказов такси | Работа с временными рядами, Необходимо построить модель для прогнозирования количества заказов такси. | есть Collab версия, LightGBM, Scikit-learn, Statsmodels, Pandas, ARIMA, SARIMA. Временные ряды, машинное обучение, создание признаков. |
21. Классификация тональности текста | Необходимо обучить модель классифицировать комментарии на позитивные и негативные | есть Collab версия, Scikit-learn, LightGBM, NLTK, re, DistilBert, Pandas. Предобработка и векторизация текста, машинное обучение, стеккинг, ансамбли |
22. Cleaned Toxic Comments | версия для kaggle | Kaggle notebook |
23. Аналитика в авиакомпании | Понять предпочтения пользователей, покупающих билеты на рейсы в города, где проходят крупнейшие фестивали | Pandas, numpy, Seaborn, Folium, исследовательский анализ данных |
24. Kaggle ML cont | версия для kaggle | Kaggle notebook |
25. Обучение нейронных сетей | Необходимо построить модель, которая по фотографии определит приблизительный возраст человека. В нашем распоряжении набор фотографий людей с указанием возраста | Keras, PIL, NumPy, Pandas, Нейронные сети, ResNet50, Аугментация |
26. Digits_recognation | распознавание цифр. MNIST, CV | Keras, PIL, NumPy, Pandas, Нейронные сети |
26. LastFM reccomendation system | простая рекомендательная система | Sparse матрицы |
27. Выпускной проект. YaPracticum | Необходимо выяснить, что пользователь планирует уйти. Тогда ему будут предложены промокоды и специальные условия. | Sklearn, Keras, бинарная классификация, статистический анализ данных и иследовательский анализ данных. Подготовка Pipeline |
28. OOП в линейных моделях | ООП в линейных моделях | |
29. Предсказание дефолта клиентов банка | Предсказание дефолта с помощью инструментов МЛ, pipiline обработки для продакшн | Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seaborn, |
30. Предсказание температуры и углерода в процессе продувки | Предсказание двух целевых переменных в задаче регрессии с помощью инструментов МЛ, pipiline обработки для продакшн, борьба с различным распределением целевой переменной | Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seabor |
31. Обучение нейронных сетей. DLS | Полный цикл обучения ANN, CNN на pyTorch | Scikit-learn, PyTorch, Pandas, NumPy, Matplotlib, Seaborn |
32. Прогнозирование востребования баковской гарантии | построить аппликационную модель оценки вероятности предъявления по гарантии, чтобы минимизировать потери от кредитного риска | Scikit-learn, Catboost, Pandas, NumPy, Matplotlib, Seaborn |
33. Компьютерное зрение. Классификация. Симпсоны | версия для kaggle | Kaggle notebook |
34. Компьютерное зрение. Сегментация | реализация архитектур нейронных сетей для задач сегментации, pyTorch | Torch, numpy, pandas, sklearn |
35. Компьютерное зрение. Автоэнкодеры | реализация архитектур нейронных сетей автокодировщиков, pyTorch | Torch, numpy, pandas, sklearn |
36. Компьютерное зрение. GAN | реализация архитектур нейронных сетей GAN, pyTorch | Torch, numpy, pandas, sklearn |
37. NLP. Простые эмбэддинги | реализация простых эмбеддингов, word2vec, ранжирование, pyTorch | Torch, numpy, pandas, sklearn, gensim, word2vec, Natasha |
38. NLP. Простые эмбэддинги | реализация эмбеддингов c применением SVD, word2vec, классификация, pyTorch | Torch, numpy, pandas, sklearn, gensim, word2vec, TF-IDF |
39. NLP. Классификация | реализация различных подходов к классификации текстов, RNN, CNN, pyTorch | Torch, numpy, pandas, sklearn, Glove, word2vec |
40. NLP. Языковые модели | реализация различных подходов к классификации к определению POS | torch |
41. NLP. Seq2seq | реализация Seq2seq модели с аттеншн | torch, nltk, torch.dataset |
42. NLP. BERT | работа с трансформерами. BERT | BERT, hugging face, torch |
43. NLP. GPT | работа с трансформерами. GPT2 | GPT2, hugging face, torch |
44. SparkML | работа SparkML | spark, sparkML |
45. NLP. Summarization | работа с с архитектурами для суммаризации текста | LSTM, Summarunner, torch |
46. NLP. Audio processing | работа со звуком, классификация и регрессия | torch, librosa |
47. NLP/CNN. Image Captioning | работа с задачей Image Captioning | torch, seq2seq |
Artem Solomko aka ArtyKraftyy artysolomko@gmail.com