soudai/incident_issue_template

【調査】#2 の初期調査結果

Opened this issue · 2 comments

#2

障害を認知したアラートを貼り付ける

Slackの通知で気付いたのはこの アラート
実は18:58頃からアラートは出てた。

動いている機能

確認して動いていればチェックを入れる。

Webサイト

下記を一括で確認するシナリオテスト hoge.sh を実行する。

  • 通知
  • 予約
  • 計測
  • 会員登録
    • 500が出るがDBには登録される
  • 事業者画面
  • 検索ページ
  • 会員ページ
    • ログイン
    • マイページ
    • 情報変更
    • 履歴確認
    • ポイント追加
  • 管理画面
    • hoge
    • fuga
  • レポート
    • foo
    • bar

Batch

  • ○○
  • hoge
  • fuga

影響範囲がわかればhoge手順を使って該当の箇所の確認並びに復旧を行う

今日のリリース

  • hoge

リリースしたPRのリスト

  • hoge
  • fuga

マーケティング施策などデプロイを伴わない対応

  • 「障害対応のissueの利用事例」をブログで公開した

上記で原因が見えて来ないときに確認する場所

問題は認知できたが、リリース以外に問題がありそうな時に確認する場所

監視ツールの確認結果

AWSの状況

その他に確認したこと

  • デプロイが出来るか確認したけどECSがデプロイ出来ない

hoge手順書の対象ではないので別途対応が必要

1:16 Twitterを検索するとAWSの障害で阿鼻叫喚。
日本リージョンのSQSが死んでる。