/* */

炎上寸前で客に助けられた話

今回も炎上?しかかった案件について書きたいと思います。
毎回ひどい目にあいがちな田中(゜p゜)ですが、今回はお客さんに助けられたハートウォーミングな話となります。なんか炎上の話書くと、文体が固くなるけどね。

案件内容

  • タイトル: 某外食産業 のデータセンター コアNW機器リプレイス
  • 案件規模: スポット2500万 メンバー5人 エンドユーザー2000人
  • 田中(゜p゜)のポジション: PM兼NWエンジニア

経緯

正確には、炎上というより炎上しかかった案件。拠点が1200店舗くらいある外食産業のデータセンターのNW機器更改案件。
ただの更改じゃなくて、L3SWをセキュリティ強化のためにFWに変えるというハイリスクローリターンなもの。

このお客さんは、田中(゜p゜)がITコンサルタント的に携わっていて、ITインフラ系の要件定義や、回線事業者のハンドリングをスポット的に手伝っていた。

お客さんのカウンターは、情報システム部門のリーダーで、シベルスター・スタローンを太くして老化させたような、普段はボーッとしてる定年間近の人。たぶん2020年の時点ではもう引退してる。
以下、スタローンと呼称。

失敗の内容

切替自体は2ショットで行い、L2SW等のリスクの低いものから実施。
本筋には関係ないけど、L2SW切替時に、ストレージの光配線がLANと絡まって泣きそうになった。富○通のサーバーエンジニアが適当に作業してやがったせいです。

で、本題のL3SWからFWへの切替。
念の為、アクセスリスト全通しにしたPCを一台作って、データセンター内の全サーバーに疎通確認し、切替前後で比較する予定だった。

作業は金曜日の深夜から実施。土曜日の朝までに完了の予定。
切替自体はスムーズに実施でき、店舗からの通信も問題なくて、一安心。

が。
なんと、業務系サーバーの一部に通信ができない。待機してた担当者からも通信不可との連絡あり、速攻でNWチームで切り分けにかかる。

ケーブルの繋ぎも、アクセスリストも何度確認しても問題なく、いたずらに時間ばかりが過ぎていき、切替の終了予定時間を迎えて原因は分かったものの、ジ・エンド

原因

非対称ルートのFWによるブロック。
対象のサーバーたちは、デフォルトルートの設定が他のサーバーと異なっており、非対称ルートでFWでブロックされてしまっていた。L3SWで通り、FWで通らないよくあるパターン。

もちろんこの問題は事前に認識していたが、プロジェクトのスケジュール的に、サーバ担当者にヒアリングにかけている余裕はなく、見過ごしていた形だった。

結果

田中(゜p゜)はスタローンに切り戻しを上申
システムに影響でてるし、非対称ルート設定を許可すると、インパクトが読めないため。

それに対し、スタローンは即断。

えー、切り戻しなんてヤダ。続行。他部門のサーバ担当は今からデータセンターに向かわせるね。田中(゜p゜)君は疲れただろうからとりあえず寝てて。」

まじですか!?
普段ボーッとしてる人だったので、この状況で即答できる胆力には驚いた。

あと、ホントに他部門のサーバ担当の人が(嫌そうな顔で)来て、デフォルトルートをコンソールで直して帰っていった。

ということで、切替は無事?完了

田中(゜p゜)は、スタローンの命により月曜の夕方までデータセンターで寝泊まりしましたけど、まあ失敗するよりはるかにマシ。むしろ感謝。

反省点

正直PMとして、全サーバ担当にネットワーク設定ヒアリングしとけば、客のグリップ力に頼ることは無かったと思う。

また、今思えば、スタローンとしても、全体にインパクトある作業を複数回やるのは経営、エンドユーザに対して説明が重たいので、本当に嫌だったのかもしれない。
情報システム部門リーダーとしての立ち振舞いについて、田中(゜p゜)が学んだ瞬間でした。

スタローンさんとの思い出は、次回の記事に続きます。

2020/09/13