炎上寸前で客に助けられた話

今回も炎上?しかかった案件について書きたいと思います。
毎回ひどい目にあいがちな田中(゜p゜)ですが、今回はお客さんに助けられたハートウォーミングな話となります。なんか炎上の話書くと、文体が固くなるけどね。
案件内容
- タイトル: 某外食産業 のデータセンター コアNW機器リプレイス
- 案件規模: スポット2500万 メンバー5人 エンドユーザー2000人
- 田中(゜p゜)のポジション: PM兼NWエンジニア
経緯
正確には、炎上というより炎上しかかった案件。拠点が1200店舗くらいある外食産業のデータセンターのNW機器更改案件。
ただの更改じゃなくて、L3SWをセキュリティ強化のためにFWに変えるというハイリスクローリターンなもの。
このお客さんは、田中(゜p゜)がITコンサルタント的に携わっていて、ITインフラ系の要件定義や、回線事業者のハンドリングをスポット的に手伝っていた。
お客さんのカウンターは、情報システム部門のリーダーで、シベルスター・スタローンを太くして老化させたような、普段はボーッとしてる定年間近の人。たぶん2020年の時点ではもう引退してる。
以下、スタローンと呼称。
失敗の内容
切替自体は2ショットで行い、L2SW等のリスクの低いものから実施。
本筋には関係ないけど、L2SW切替時に、ストレージの光配線がLANと絡まって泣きそうになった。富○通のサーバーエンジニアが適当に作業してやがったせいです。
で、本題のL3SWからFWへの切替。
念の為、アクセスリスト全通しにしたPCを一台作って、データセンター内の全サーバーに疎通確認し、切替前後で比較する予定だった。
作業は金曜日の深夜から実施。土曜日の朝までに完了の予定。
切替自体はスムーズに実施でき、店舗からの通信も問題なくて、一安心。
が。
なんと、業務系サーバーの一部に通信ができない。待機してた担当者からも通信不可との連絡あり、速攻でNWチームで切り分けにかかる。
ケーブルの繋ぎも、アクセスリストも何度確認しても問題なく、いたずらに時間ばかりが過ぎていき、切替の終了予定時間を迎えて原因は分かったものの、ジ・エンド。
原因
非対称ルートのFWによるブロック。
対象のサーバーたちは、デフォルトルートの設定が他のサーバーと異なっており、非対称ルートでFWでブロックされてしまっていた。L3SWで通り、FWで通らないよくあるパターン。

もちろんこの問題は事前に認識していたが、プロジェクトのスケジュール的に、サーバ担当者にヒアリングにかけている余裕はなく、見過ごしていた形だった。
結果
田中(゜p゜)はスタローンに切り戻しを上申。
システムに影響でてるし、非対称ルート設定を許可すると、インパクトが読めないため。
それに対し、スタローンは即断。
「えー、切り戻しなんてヤダ。続行。他部門のサーバ担当は今からデータセンターに向かわせるね。田中(゜p゜)君は疲れただろうからとりあえず寝てて。」
まじですか!?
普段ボーッとしてる人だったので、この状況で即答できる胆力には驚いた。
あと、ホントに他部門のサーバ担当の人が(嫌そうな顔で)来て、デフォルトルートをコンソールで直して帰っていった。
ということで、切替は無事?完了。
田中(゜p゜)は、スタローンの命により月曜の夕方までデータセンターで寝泊まりしましたけど、まあ失敗するよりはるかにマシ。むしろ感謝。
反省点
正直PMとして、全サーバ担当にネットワーク設定ヒアリングしとけば、客のグリップ力に頼ることは無かったと思う。
また、今思えば、スタローンとしても、全体にインパクトある作業を複数回やるのは経営、エンドユーザに対して説明が重たいので、本当に嫌だったのかもしれない。
情報システム部門リーダーとしての立ち振舞いについて、田中(゜p゜)が学んだ瞬間でした。
スタローンさんとの思い出は、次回の記事に続きます。
2020/09/13