FedorSafonov/Portfolio

Здесь собрана информация (включая ссылки и статусы) обо всех проектах, которые я успешно завершил или над которыми работаю сейчас. В том числе pet-проекты, соревнования, коммерческие проекты, учебные проекты.

Портфолио.

Здесь собрана информация (включая ссылки и статусы) обо всех проектах, которые я успешно завершил или над которыми работаю сейчас. В том числе pet-проекты, соревнования, коммерческие проекты, учебные проекты.

В каждой категории - Сверху более новые проекты, снизу более старые.

Pet-проекты

Название	Задача	Данные	Описание	Статус	Инструменты
Сервис поиска похожих вопросов для медицинских форумов	Разработка сервиса для поиска похожих вопросов на медицинских форумах. Сервис поможет удержать пользователей на платформе и увеличить количество просмотров страниц, что в свою очередь повысит эффективность рекламных кампаний и улучшит общие показатели форумов.	Для обучения и тестирования моделей используется датасет "medical_questions_pairs" от Hugging Face. Датасет содержит пары вопросов на английском языке, связанных с медицинской тематикой.	Задача поиска похожих вопросов актуальна во многих областях, таких как онлайн-форумы, системы вопросов-ответов и чат-боты. Она позволяет пользователям быстро находить информацию, которая уже была обсуждена, избегая дублирования вопросов и повышая эффективность коммуникации.	Завершён - создано приложение streamlit, создан микросервис FastAPI, сформирован отчёт по машинниому обучению.	Python, ML, MLE, NLP, pandas, numpy, FastAPI, Streamlit, SentenceTransformers, spacy, Word2Vec, scipy, torch, sklearn, matplotlib, pickle
Предсказание стоимости недвижимости в Москве и Подмосковье	Создать модель машинного обучения для предсказания стоимости недвижимости в Москве и подмосковье (в частности Раменское и Жуковский) с использованием данных, полученных с помощью библиотеки Cianparser.	Парсинг открытых данных с сайта Циан	Среди моих знакомых и родных в последнее время часто идут разговоры о недвижимости в Москве и МО, у кого-то она есть, а кто-то планирует переезжать да и я сам хочу присмотреть что-нибудь в МО. Поэтому решил разобраться в этой теме и используя отрытые данные построить модель оценки стоимости домов и таунхаусов (позже возможно добавлю квартиры).	В процессе - проведенее углублённого EDA	Python, pandas, numpy, cianparcer, GeoPy, PyCaret, sklearn, CatBoost, XGBoost, matplotlib, seaborn
Предсказание стоимости авто по VIN-номеру	Основной целью проекта было создание модели, способной предсказывать стоимость автомобиля с приемлемой точностью на основе информации, извлеченной из его VIN-кода.	Для обучения и тестирования модели использовался набор данных, содержащий VIN-коды автомобилей и соответствующие цены.	В данном проекте была разработана модель машинного обучения для предсказания стоимости автомобиля по его VIN-коду. VIN-код (Vehicle Identification Number) - это уникальный идентификатор транспортного средства, который содержит информацию о его производителе, модели, годе выпуска, характеристиках и других параметрах.	Завершён. (Создано веб-приложение на strimlit)	NumPy, Pandas, PyCaret, scikit-learn, Matplotlib, re, time, skimpy, chime, Pipeline, CatBoost, XGBoost, LightGBM
Предсказание успешности стартапов.	Целью данного исследования является построение модели машинного обучения, способной прогнозировать закрытие стартапов с высокой точностью. В рамках исследования будут идентифицированы ключевые факторы, влияющие на успех или провал стартапов, а также проанализирована эффективность модели на различных временных периодах и для разных категорий стартапов.	Датасет состоит из двух файлов: тренировочный набор (около 53к записей) и тестовый набор (около 13к записей). Тренировочный набор содержит целевой признак status, указывающий на то, закрылся стартап или продолжает действовать. Временной период - '1970-01-01' по '2018-01-01'. Дата формирования выгрузки - '2018-01-01'	Прогнозирование закрытия стартапов является актуальной задачей в современной экономике, где инновации и предпринимательство играют ключевую роль. Успех стартапа зависит от множества факторов, таких как финансирование, команда, продукт, рынок и внешние условия. Разработка эффективных моделей прогнозирования может помочь снизить риски инвестиций и повысить шансы на успех новых предприятий.	Завершён (Создана ML-модель, составлен отчёт)	pandas, numpy, skimpy, matplotlib, seaborn, sklearn, pycaret, Catboost, LightGBM, XGBoost
Multi-label классификация обратной связи пользователей маркетплейса (NLP)	Автоматизировать исследование обратной связи пользователей маркетплейса для SAMOKAT TECH.	Представляют собой ответы из проведенного опроса. Опросник состоял из списка закрытых вопросов с выбором одного ответа и открытого вопроса с пользовательским комментарием. Необходимо для каждого ответа из 50 различных меток классов выбрать все затронутые.	В современном мире электронной коммерции обратная связь пользователей играет решающую роль в понимании потребностей клиентов, определении областей для улучшения и принятии обоснованных бизнес-решений. Однако, анализ больших объемов отзывов вручную – это трудоемкий и неэффективный процесс. Именно здесь на помощь приходит машинное обучение и обработка естественного языка (NLP)	Завершён (Создана ML-модель)	Python, pandas, numpy, skimpy, re, pymorphy2, matplotlib, sklearn, bert, Catboost, Lightgbm. XGBoost
Предсказание повторных покупок клиентов	Разработать модель машинного обучения, способную предсказывать, совершит ли клиент повторную покупку в течение ближайших 30 дней.	Проект использует данные о истории покупок клиентов из трех магазинов.	Эта модель может быть использована для оптимизации маркетинговых кампаний и повышения лояльности клиентов.	Завершён (редактирование финальных выводов)	Python, pandas, numpy, scikit-learn, PyCaret, CatBoost, LightGBM
Разработка торговой системы	Разработка собственной торговой системы для срочного рынка Московской биржи. Проект демонстрирует навыки в области анализа данных, финансового моделирования и алгоритмической торговли.	Данные о котировках активов экспортированные с finanm.ru	Результат: Успешное применение разработанной торговой системы на срочном рынке Московской биржи. Доходность системы превышает доходность основных индексов, таких как S&P 500 и IMOEX, а также доходность безрисковых инвестиций, таких как ОФЗ. Этот проект не только показывает умение применять Data Science на практике, но и значительно расширяет мои опыт в области финансового анализа и трейдинга.	Завершён и в эксплуатации - выработаная стратегия применяется с февраля 2024г. В процессе - создание публичного репозитория для открытого использования	Python, pandas, matplotlib, seaborn, pycaret, optuna, joblib, pandas_ta, yf_finance, telebot, bootstrap, math, scipy, Технический Анализ
Прогнозирование стоимости автомобилей на вторичном рынке	Разработать модель машинного обучения для прогнозирования стоимости автомобилей на основе характеристик автомобиля и рыночных данных. Исследовать зависимость стоимости автомобиля от различных характеристик и построить модель для определения стоимости автомобиля с высоким качеством предсказания.	Файлы в формате `.csv` с данными о продаваемых машинах	Получилась модель на основе Catboost с высокой точностью предсказания - метрика `MAPE` `0.13`	Завершён (Создана ML-модель)	Python, pandas, numpy, skimpy, matplotlib, seaborn, sklearn, Optuna, Catboost

Cоревнования

Название	Источник	Задача	Описание	Статус	Инструменты
Анализ и визуализация целей обучения студентов “Яндекс Практикум”	Яндекс Практикум	Создание и оформление отчёта целей обучения студентов Яндекс Практикума для презентации топ-менеджменту Яндекс Практикума	Участвовал на соревнованиях в команде из 8 человек (4 аналитика (включая меня), 3 дизайнера и 1 Project Manager), основной задачей для меня было - создание кластеризации с помощью метода kmeans, а так же формулировка гипотез и оформление выводов.	Завершён.	Python, Pandas, Numpy, kmeans, plotly

Учебные проекты

Название курса	Школа	Описание	Статус	Инструменты	Ссылка на репозиторий
Специалист по Data Science	Яндекс Практикум	15 Проектных работ, которые я сделал во время прохождения курса "Специалист по Data Science" в Яндекс.Практикум.	Завершён.	Python, ML, NLP, CV, DL, Статистический анализ, Теория вероятностей, Анализ данных	Github