/best-oil-production-region

Предсказание прибыльного региона нефтедобычи

Primary LanguageJupyter Notebook

Предсказание прибыльного региона нефтедобычи

Описание проекта

ПРОБЛЕМА:

В добывающей компании необходимо принять решение, в каком из 3-х регионов бурить новую скважину.

В каждом регионе 10 000 месторождений, где измерили качество нефти в каждой скважине и объём её запасов.

ЦЕЛЬ ПРОЕКТА:

Построить модель машинного обучения, которая поможет определить лучший регион:

  • c наибольшей прибылью от добычи нефти
  • c учетом оценки возможных рисков

В нашем распоряжении 3 датасета с пробами нефти в каждом из регионов.


ЛИЧНЫЕ ЦЕЛИ:

  • Научиться интерпретировать качество моделей с помощью метрики RMSE
  • На практике связать модели ML с бизнес-задачами
  • Применить знания по технике Bootstrap для оценки прибыли и рисков

Посмотреть проект

Новые навыки


✔️ Линейная регрессия ✔️ Интерпретация ошибок RMSE

✔️ Графики корреляций для оценки предсказаний

✔️ Bootstrapping ✔️ ML для оценки прибыли и рисков

✔️ Доверительные интервалы

Этапы исследования

  1. Провели сравнительный анализ объемов запасов нефти и других характеристик скважин для разных регионов

  2. Построили для каждого региона модель Линейной Регрессии для предсказания объемов нефти

    • сделали оценку среднего запаса сырья, который модель предсказывает в каждом регионе
    • использовали визуализацию корреляций для интерпретации работы модели и метрик RMSE
  3. Реализовали методику расчета прибыли на базе нескольких параметров:

    • бюджет на разработку скважин
    • количество месторождений при разведке региона
    • доход с 1-го барреля сырья
  4. Смоделировали риски убытков и возможную прибыль в каждом регионе:

    • выбрали 200 лучших скважин на основе предсказаний модели
    • для оценки вероятностей использовали bootstrapping

Результат проекта

Определили для Заказчика наиболее прибыльный регион для разработки скважин.

  1. Исключили регионы №1 и №3, в которых вероятность убытков меньше 2.5%:

    • доля случаев с отрицательной прибылью 3.7% и 8%
  2. Выбрали регион №2 с наибольшей средней прибылью:

    • риск убытков: 0.2%
    • вероятная средняя выручка: 580 255 тыс.руб

В выбранном регионе наша линейная модель предсказывает запасы сырья в скважинах с низким уровнем ошибок RMSE = 0.89

Средний запас предсказанного сырья в регионах: 69.750 тыс. баррелей (реальные запасы 69.751 тыс. баррелей)

Бизнес-цель успешно достигнута.

Исходные данные

Для каждого региона отдельный набор данных c характеристиками 100 000 скважин:

id f0 f1 f2 product
0 txEyH 0.705745 -0.497823 1.221170 105.280062
1 2acmU 1.334711 -0.340164 4.365080 73.037750
2 409Wp 1.022732 0.151990 1.419926 85.265647
3 iJLyR -0.032172 0.139033 2.978566 168.620776
4 Xdl7t 1.988431 0.155413 4.751769 154.036647
5 wX4Hy 0.969570 0.489775 -0.735383 64.741541
6 tL6pL 0.645075 0.530656 1.780266 49.055285
  • id — уникальный идентификатор скважины
  • f0, f1, f2 — три признака точек (их значение не разглашают, но специалисты уверяют - сами признаки значимы)
  • productобъём запасов в скважине. (!) тысяч баррелей