MLOps は、データサイエンティストやアプリ開発者が ML/AI モデルを本番環境に導入するのを支援するためのツールです。ML ライフサイクルのあらゆるアセットの追跡、バージョン管理、再利用を可能にし、このライフサイクルの管理を効率化するオーケストレーションサービスを提供します。この Hack は、Azure Machine Learning と Azure DevOps/Github Actions を使用して、AI アプリケーションの継続的インテグレーションと継続的デリバリー(CI/CD)パイプラインを構築する方法を理解するのに役立ちます。
この Hack に関わるソリューションは、Proseware 社が研究機関から取得した医療データセットで構築され、患者の糖尿病進行度を予測するものです。これは予測タスクですが、この Hack で学んだ CI/CD プロセスはあらゆる AI シナリオに簡単に適用できます。
この OpenHack では、Proseware という架空の医療・ヘルスケア関連企業をベースにしています。この企業は、ヘルスケアの改善を目的とした若い新興企業です。最近新たに Proseware の 1 つのチームが発足し、開業医が患者をより迅速に診断するのに役立つ新しい Web アプリケーションの開発に取り組むことになりました。研究によると、糖尿病は一般的な診断の 1 つであり、患者の医療データの特定のパターンが明らかな場合に簡単に検出できます。
開業医が患者の診断に役立つ新しい Web アプリを立ち上げるために、アプリで最初に展開される機能は糖尿病検出器です。この機能により、開業医は患者から医療データを収集し、アプリに入力して、その患者が糖尿病になる可能性が高いかどうかを知ることができます。開業医は、専門知識を備えたこれらの洞察を使用して、患者に次のステップに関するアドバイスを提供します。
データサイエンスチームは、匿名化されたデータに基づいて、誰かが糖尿病であるかどうかを正確に予測する回帰モデルを作成しました。モデルトレーニングは、Jupyter ノートブックで定義されています。データサイエンスチームから作業を引き受けて本番環境に移行するのは、機械学習エンジニアとしてのあなた次第です。
この Hack では、AI モデルを継続的にデプロイし、本番環境で維持するという、企業にとって共通の課題を解決します。そして真のビジネス価値を得るために、DevOps と CI/CD プロセスを中心とした標準的なエンジニアリングプラクティスを ML ライフサイクルにどのように採用できるかを見ていきます。
あなたのチームには、経験豊富なコーチが割り当てられており、あなたの作業に助言を与え、レビューすることで支援します。しかし、コーチは課題の解決策を提供することはありませんので、チームで課題を解決する必要があります。
チームメンバーは Hack セクションに記載されたタスクを行い、成功基準を満たす必要があります。タスクが完了した時点でコーチに成功基準を満たしていることを説明し、合格すれば次のチャレンジに進むことができます。
課題を解くためのヒントは学習リソース セクションの中に必ずあります。Hack がスタックしてしまったら学習リソースに立ち返ってください。
- データサイエンティスト
- ML エンジニア
- DevOps エンジニア
- データ/ビジネスアナリスト
- Challenge-00 前提条件
- Challenge-01 ローカルでモデルを作成する
- Challenge-02 クラウドでモデルを作成する
- Challenge-03 クラウドにモデルをデプロイする
- Challenge-04 トレーニングパイプラインの作成
- Challenge-05 機械学習パイプラインのトリガー
- Challenge-06 デプロイパイプラインの作成とモデル登録トリガー
- Challenge-07 再トレーニングとモデル評価
- Challenge-08 Github Actions/Azure DevOps によるオーケストレーション
この OpenHack は、すでに ETL/ELT などのデータインジェストプロセスによってデータウェアハウスに蓄積されたデータを活用するシナリオです。もし、データインジェストプロセスやデータウェアハウスソリューションの構築を体験されたい場合は「OpenHack for Modern Data Warehousing」の受講をおすすめします。Modern Data Warehousing と MLOps を経験することで、データ分析に関する End-to-End の技術を習得できます。