所蔵状況の表示がエラーになるサービス障害が発生しました(復旧済)

2022年12月22日22時30分頃から12月23日8時15分までのおよそ10時間のあいだ、カーリルの検索結果(各図書館の所蔵情報)の表示がエラーとなるサービス障害が発生しました。この障害は、現在は復旧しています。影響のあった方々にはご迷惑をおかけしました。

なお、この障害は、カーリル図書館APIで発生したため、カーリル図書館APIを利用したアプリケーションなどにおいても同様の障害が発生しました。カーリルが提供する業務用の横断検索API「Unitrad API」や、学校図書館支援プログラムへの影響はありません。

障害期間中の所蔵確認の推移(カーリルAPIアクセス状況)

時系列

  • 22日16時ごろ タスクワーカー基盤のアップデートを実施
  • 22日20時ごろから処理能力が減少(タイムアウトの増加)
  • 22日22時30分に処理が停止
  • 23日8時5分 調査を開始
  • 23日8時15分 復旧を完了
  • 障害時間は9時間45分

障害の原因と対応

カーリルでは、23日にカーリル図書館APIの処理基盤(タスクワーカー)の大幅なアップデートを予定していました。この準備作業のため、22日の夕方から新しいバージョンへのアップデートの準備を実施しました。

このとき、誤って翌日に配信される予定のプログラムの一部が配信(デプロイ)されました。このプログラムは時間差をおいて順次複数あるタスクワーカーに適用されていきました。新しいプログラムは翌日以降の設定変更を前提としたものであったためエラーが発生しました。順次タスクワーカーの処理が停止したことにより処理能力が減少し、最終的にサービス障害が発生しました。

予定していた設定変更とプログラムを配信したことにより復旧しました。なお本障害は運用上で発生したものでありセキュリティ上の問題はありません。

アラートシステムの一部では障害を検知していたものの、適切に社内に通知されていなかったため、障害時間が長くなり、大変ご迷惑をおかけいたしました。カーリルでは、より安定的なサービス提供できるよう対策を進めてまいります。

モバイルバージョンを終了