3/19 14時20分頃に発生した滑走データが正常に記録されない障害について

配信日:2023.3.21(火)

3月19日 14時20分頃に障害が起こり、ログが切れてしまう現象が発生いたしました。
GPSログデータを保存しているNFSサーバからS3へファイルを転送した後に消し込みをするプログラムを動作させておりますが、こちらが正常に動かない状態になっており、今回の障害が発生いたしました。今回このような障害が発生したことを深くお詫び申し上げます。この度はご迷惑をおかけしてしまい、申し訳ございませんでした。

障害の詳細は以下の通りです。

昨日発生したGPSログが保存されない問題についての詳細報告になります。
ご確認のほどよろしくお願いします。

■事象
2023/3/19 14:20頃からGPSログが保存されない状態になっていました。滑走データ画面を開くと14:20頃で途切れた状態で表示されました。

■原因
GPSログデータを保存しているNFSサーバのディスク容量がいっぱいになり追加の書き込みができない状態になっていました。
毎朝、NFSサーバからS3へファイルを転送した後に消し込みをするプログラムを動作させているが、こちらが正常に動かない状態になっていました。

《詳細》
DBから前日までのチェックイン情報を取得し、処理を行ったらステータスを書き換えるというプログラムを実装をしておりますが、ユーザにより削除されたチェックインに対しての更新ができていない不具合がありました。
その影響で、これまで蓄積された削除済みのデータを全件取得しようとした際にメモリ不足になり、転送プログラムが実行されないまま異常終了しており、そのため数日分のGPSログが溜まりディスク容量がいっぱいになってしまっていました。

■対処
・プログラムの問題点を修正し、NFSサーバからS3へファイル転送を行い空き容量を増やしました。
・15:50ごろからGPSログが再び記録されるようになりました。
・14:20付近で壊れたログが書き込まれたユーザーが何人かおり距離の計算にも影響していたため、3/20 8:00頃にデータの修復処理を行いました。

■影響
14:20〜15:50頃のログについては全ユーザのデータが保存できておりません。ログが飛んでしまっている期間中、サーバ側にデータが来ていないため、復旧することはできません。復旧不可能な滑走データをお持ちのユーザーの皆様には、大切な一日の滑走データを欠落させることとなってしまい、大変申し訳ありません。

■今後の対策
NFSサーバの監視を実施する想定です。

ユキヤマ
岡本圭司

ページ先頭に戻る