/Data_science_projects

A series of Jupyter notebooks that walk you through the projects from beginner to jun

Primary LanguageJupyter Notebook

Проекты Data Science

Ноутбуки с отметкой kaggle выполнены на английском языке. Для всех есть копия в Google collab

Все проекты выполнены в ноутбуке, преимущественно Jupiter notebook и Google Collab, дата сеты не приложены. Приведен только готовый вариант.

Рекомендуется смотреть через External viewer или Google Collab

Сертификаты и полезные ссылки и книги


Проект Тип исследования Примечание
01. Исследование надёжности заёмщиков Предобработка и очистка данных\Кредитный отдел банка запросил исследовать, какие факторы влияют на надёжность заёмщика. Необходимо предоставить портрет надёжного заемщика. Pandas. Предобработка данных, лемматизация, категоризация данных.
02. Исследование объявлений о продаже квартир Исследовательский анализ данных Необходимо определить параметры, оказывающие наибольшее влияние на оценку стоимости недвижимости. Pandas, Matplotlib, Seaborn, NumPy, Datetime. Исследовательский анализ данных, предобработка данных, визуализация.
03. Музыка больших городов введение в Data science. Первый проект есть Collab версия, введение в EDA
04. Введение в Машинное обучение есть Collab версия, введение в ML, с учителем Sklearn, Pandas, Numpy, Seaborn
05. Определение перспективного тарифа для телеком компании RUS Статистический анализ данных\Statistics\Необходимо проанализировать активность клиентов в разрезе тарифов, и определить более перспективный тариф для маркетинговой кампании. Pandas, SciPy, Matplotlib, Seaborn, NumPy, Datetime. Исследовательский анализ данных, проверка гипотез, предобработка данных, визуализация.
06. Прогноз продаж в интернет-магазине Исследовательский и статистический анализ\EDA\Необходимо выявить определяющие успешность игры закономерности и для каждого из трех регионов (NA, Europe, JP) выбрать игры для рекламных кампаний. Pandas, SciPy, Matplotlib, Seaborn, NumPy, Datetime. Исследовательский анализ данных, проверка гипотез, предобработка данных, визуализация.
07. Titanic competition KAGGLE Саббмит на соревнование каггл есть Collab версия, kaggle compete
08. Монте Карло KAGGLE Визуализация ЦПТ и закона больших числе Kaggle notebook
09. Heart attack analysis and prediction KAGGLE проект: построение модели, предсказывающий сердечный приступ у пациента Kaggle notebook
10. Video games EDA KAGGLE версия для kaggle Kaggle notebook
11. Прогнозирование оттока клиентов банка Необходимо спрогонозировать, уйдет ли клиент в ближайшее время или нет. Scikit-learn, Pandas, Matplotlib, Seaborn, NumPy, Random. Машинное обучение, Upsampling, Downsampling, One-Hot Encoding, Ordinal Encoding, Масштабирование данных, предобработка данных, визуализация.
12. Client churn from bank kaggle version версия для kaggle Kaggle notebook
13. Video games with score kagg версия для kaggle Kaggle notebook
14. Прогнозирование прибыли от нефтяных скважин Моделирование прогнозов (регрессия) Scikit-learn, Pandas, Matplotlib, Seaborn, NumPy, SciPy. Машинное обучение, Bootstrap, предобработка данных, визуализация.
15. Предсказание коэффициента восстановления золота из золотосодержащей руды(промышленное моделирование) есть Collab версия, EDA и построение модели для промышленной компании\Машинное обучение, предобработка данных, визуализация, проверка гипотез. Scikit-learn, Pandas, NumPy, SciPy, Matplotlib, Seaborn
16. Защита персональных данных клиентов страховой компании Необходимо защитить персональные данные клиентов страховой компании. Разработать такой метод преобразования данных, чтобы по ним было тяжело восстановить исходную информацию и при этом не менялось качество линейной регрессии. есть Collab версия, EDA и построение модели для промышленной компании\Scikit-learn, Pandas, NumPy, Random, Matplotlib, Seaborn. Линейная алгебра, машинное обучение.
17. Аппроксимация и оптимизация Изучение методом аппроксимации и оптимизации функций, численные методы есть Collab версия, SciPy, Numpy, Pandas, Matplotlib, Seabron
18. Предсказания цены автомобиля Необходимо построить и сравнить несколько моделей для определения стоимости автомобиля есть Collab версия, Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seaborn. Градиентный бустинг, машинное обучение, Ordinal Encoding, масштабирование данных
19. SMA стратегия Forex Работа с временными рядами, реализация торговой стратегии есть Collab версия, Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seaborn, Plotly
20. Прогнозирование количества заказов такси Работа с временными рядами, Необходимо построить модель для прогнозирования количества заказов такси. есть Collab версия, LightGBM, Scikit-learn, Statsmodels, Pandas, ARIMA, SARIMA. Временные ряды, машинное обучение, создание признаков.
21. Классификация тональности текста Необходимо обучить модель классифицировать комментарии на позитивные и негативные есть Collab версия, Scikit-learn, LightGBM, NLTK, re, DistilBert, Pandas. Предобработка и векторизация текста, машинное обучение, стеккинг, ансамбли
22. Cleaned Toxic Comments версия для kaggle Kaggle notebook
23. Аналитика в авиакомпании Понять предпочтения пользователей, покупающих билеты на рейсы в города, где проходят крупнейшие фестивали Pandas, numpy, Seaborn, Folium, исследовательский анализ данных
24. Kaggle ML cont версия для kaggle Kaggle notebook
25. Обучение нейронных сетей Необходимо построить модель, которая по фотографии определит приблизительный возраст человека. В нашем распоряжении набор фотографий людей с указанием возраста Keras, PIL, NumPy, Pandas, Нейронные сети, ResNet50, Аугментация
26. Digits_recognation распознавание цифр. MNIST, CV Keras, PIL, NumPy, Pandas, Нейронные сети
26. LastFM reccomendation system простая рекомендательная система Sparse матрицы
27. Выпускной проект. YaPracticum Необходимо выяснить, что пользователь планирует уйти. Тогда ему будут предложены промокоды и специальные условия. Sklearn, Keras, бинарная классификация, статистический анализ данных и иследовательский анализ данных. Подготовка Pipeline
28. OOП в линейных моделях ООП в линейных моделях
29. Предсказание дефолта клиентов банка Предсказание дефолта с помощью инструментов МЛ, pipiline обработки для продакшн Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seaborn,
30. Предсказание температуры и углерода в процессе продувки Предсказание двух целевых переменных в задаче регрессии с помощью инструментов МЛ, pipiline обработки для продакшн, борьба с различным распределением целевой переменной Scikit-learn, LightGBM, Catboost, Pandas, NumPy, Matplotlib, Seabor
31. Обучение нейронных сетей. DLS Полный цикл обучения ANN, CNN на pyTorch Scikit-learn, PyTorch, Pandas, NumPy, Matplotlib, Seaborn
32. Прогнозирование востребования баковской гарантии построить аппликационную модель оценки вероятности предъявления по гарантии, чтобы минимизировать потери от кредитного риска Scikit-learn, Catboost, Pandas, NumPy, Matplotlib, Seaborn
33. Компьютерное зрение. Классификация. Симпсоны версия для kaggle Kaggle notebook
34. Компьютерное зрение. Сегментация реализация архитектур нейронных сетей для задач сегментации, pyTorch Torch, numpy, pandas, sklearn
35. Компьютерное зрение. Автоэнкодеры реализация архитектур нейронных сетей автокодировщиков, pyTorch Torch, numpy, pandas, sklearn
36. Компьютерное зрение. GAN реализация архитектур нейронных сетей GAN, pyTorch Torch, numpy, pandas, sklearn
37. NLP. Простые эмбэддинги реализация простых эмбеддингов, word2vec, ранжирование, pyTorch Torch, numpy, pandas, sklearn, gensim, word2vec, Natasha
38. NLP. Простые эмбэддинги реализация эмбеддингов c применением SVD, word2vec, классификация, pyTorch Torch, numpy, pandas, sklearn, gensim, word2vec, TF-IDF
39. NLP. Классификация реализация различных подходов к классификации текстов, RNN, CNN, pyTorch Torch, numpy, pandas, sklearn, Glove, word2vec
40. NLP. Языковые модели реализация различных подходов к классификации к определению POS torch
41. NLP. Seq2seq реализация Seq2seq модели с аттеншн torch, nltk, torch.dataset
42. NLP. BERT работа с трансформерами. BERT BERT, hugging face, torch
43. NLP. GPT работа с трансформерами. GPT2 GPT2, hugging face, torch
44. SparkML работа SparkML spark, sparkML
45. NLP. Summarization работа с с архитектурами для суммаризации текста LSTM, Summarunner, torch
46. NLP. Audio processing работа со звуком, классификация и регрессия torch, librosa
47. NLP/CNN. Image Captioning работа с задачей Image Captioning torch, seq2seq

Artem Solomko aka ArtyKraftyy artysolomko@gmail.com