決算短信セグメント情報のデータ抽出ハンズオン

Source Code Check pre-commit Code style: black Code style: flake8 Imports: isort Typing: mypy

HTML 化された決算短信から、セグメント情報を抽出する方法が学べるハンズオンです。

top.jpg

HTML 化された決算短信は、適時開示情報閲覧サービスか、東証上場会社情報サービスから取得できます。データを取得し、セグメント情報を抽出する方法はハンズオン資料を参照してください。

ハンズオンコンテンツ

  1. HTML から情報を抽出する方法を学ぶ Open in SageMaker Studio Lab
    • HTML とは
    • Python による HTML からの情報抽出
    • Exercise1: 目的の HTML 要素を検索する
    • Exercise2: 目的の HTML 要素へ移動する
  2. HTML 化された決算短信からセグメント情報を抽出する方法を学ぶ Open in SageMaker Studio Lab
    • HTML 化された決算短信とは
    • Exercies1: 決算短信 HTML ファイルからセグメント情報を抽出する
    • Exercies2: セグメント情報の抽出が失敗する理由を分析する

※本ハンズオンはあらゆる企業の HTML からセグメント情報が抽出できるプログラムを提供するものではありません。抽出が失敗する理由を理解し、修正箇所を特定できる技能を身に着けることを目的としています。

ハンズオンの進め方

Amazon SageMaker Studio Lab を使用し簡単に始めることができます。ハンズオンのはじめ方は、 ハンズオンの進め方を参照してください。

ハンズオンは2部構成を想定して作られています。

  • Day1: ハンズオンコンテンツを実施し、HTMLから情報を抽出する方法を身に着ける。宿題として興味ある企業からセグメント情報の抽出を試み、HomeworkTemplateに記載する。
  • Day2: Homeworkの共有を行う。読み取り結果の統計を参照しながら、発行体に促すべき記載の方式についてディスカッションする。
    • 決算短信HTMLの読み取り可否状況レポート Open in SageMaker Studio Lab