【調査】#2 の初期調査結果
Opened this issue · 2 comments
soudai commented
障害を認知したアラートを貼り付ける
Slackの通知で気付いたのはこの アラート
実は18:58頃からアラートは出てた。
動いている機能
確認して動いていればチェックを入れる。
Webサイト
下記を一括で確認するシナリオテスト hoge.sh
を実行する。
- 通知
- 予約
- 計測
- 会員登録
- 500が出るがDBには登録される
- 事業者画面
- 検索ページ
- 会員ページ
- ログイン
- マイページ
- 情報変更
- 履歴確認
- ポイント追加
- 管理画面
- hoge
- fuga
- レポート
- foo
- bar
Batch
- ○○
- hoge
- fuga
影響範囲がわかればhoge手順を使って該当の箇所の確認並びに復旧を行う
今日のリリース
- hoge
リリースしたPRのリスト
- hoge
- fuga
マーケティング施策などデプロイを伴わない対応
- 「障害対応のissueの利用事例」をブログで公開した
上記で原因が見えて来ないときに確認する場所
問題は認知できたが、リリース以外に問題がありそうな時に確認する場所
監視ツールの確認結果
- ダッシュボードの確認
- パフォーマンスで問題になっている箇所の詳細グラフ
AWSの状況
- Twitterの検索
- 他の事業部などの確認
- status.io
その他に確認したこと
- デプロイが出来るか確認したけどECSがデプロイ出来ない
soudai commented
hoge手順書の対象ではないので別途対応が必要
soudai commented
1:16 Twitterを検索するとAWSの障害で阿鼻叫喚。
日本リージョンのSQSが死んでる。