Power BI を業務で使い始めて、最初はスムーズでも、利用が広がるほど効いてくるのがオンプレミスゲートウェイの安定性です。
社内の SQL Server、ファイルサーバー、基幹システムなどに接続している場合、ゲートウェイが止まると更新が止まり、数字が古くなり、意思決定が揺らぎます。
しかもゲートウェイの障害は、派手に落ちるだけではありません。
Windows Update で再起動が入った、ネットワークが一時的に詰まった、CPUが一瞬張り付いた、証明書やプロキシ設定が変わった。こうした小さな揺れが、朝の更新失敗やレポートの鮮度低下につながります。
そこで重要になるのがクラスタ構成です。クラスタ構成は、ゲートウェイを複数台で運用し、1台が止まっても更新を継続できる冗長化と、保守や監視を前提にした運用の型を作る方法です。
この記事では、クラスタ設計の考え方から、構築の流れ、運用監視、保守、よくある落とし穴まで、現場で回る形で整理します。
1. クラスタ構成が必要になる典型パターン
次のどれかに当てはまるなら、クラスタ構成を検討する価値が高いです。
-
朝の更新が止まると会議や業務が止まる
-
更新対象のデータセットが増え、更新失敗の影響範囲が広い
-
ゲートウェイが1台運用で、メンテナンスのたびに止まる
-
障害対応が属人化していて、復旧に時間がかかる
-
全社展開や重要レポートが増え、止めない前提が必要
-
更新処理が重くなり、遅延やタイムアウトが増えてきた
特に重要なのは、止まったら困るかどうかです。止まっても翌日リカバリできる用途なら単体でも良いですが、会議や締め、現場オペレーションに直結するなら、最初から冗長化した方が総コストは下がりやすいです。
2. クラスタ構成の基本:論理的に1つ、物理的に複数
クラスタ構成は、Windows のフェイルオーバークラスタのような複雑な仕組みを想像しがちですが、考え方はシンプルです。
これにより、次のメリットが得られます。
-
片系障害に強い
-
OS更新やゲートウェイ更新を片系ずつできる
-
監視対象をクラスタ単位にまとめやすい
-
負荷が偏りにくく、処理詰まりのリスクが下がる
3. 設計の最重要ポイント:同時に落ちない構成にする
2台にしたのに同時に落ちる。これが冗長化で一番多い失敗です。
冗長化の本質は台数ではなく、障害ドメインを分けることです。
3-1. まずは2台、余裕が必要なら3台
-
最小構成は2台
-
保守や障害が重なっても止めたくないなら3台
2台で運用の型を作り、負荷や運用品質を見ながら3台目を追加するのが現実的です。
3-2. 置き場所を分ける
可能な範囲で次を分けます。
同じホスト上のVM 2台は、冗長に見えて同時障害リスクが残ります。少なくともホストを分け、保守タイミングをずらす運用が必要です。
4. 構成の考え方:可用性と性能は別に設計する
クラスタ構成は冗長化だけでなく、処理の安定性にも効きます。ただし、可用性と性能は別に見て設計します。
4-1. 可用性の設計
-
1台停止でも更新が継続できる
-
保守時に止めない
-
回復手順がある
-
監視で即検知できる
4-2. 性能の設計
-
更新が遅くならない
-
タイムアウトしにくい
-
同時更新が詰まらない
-
CPUやメモリが枯渇しない
可用性だけ見て2台にしても、各ノードのスペックが足りなければ遅延は残ります。逆にスペックだけ上げても単体障害は防げません。両方を分けて設計するのがコツです。
5. 構築手順:2台クラスタを最短で安定させる流れ
ここでは画面操作の細部ではなく、失敗しないための順序を重視します。
ステップ1:前提を揃える
ステップ2:1台目をインストールして登録
ステップ3:2台目を同じクラスタに参加させる
-
2台目は新規登録ではなく、既存ゲートウェイに追加する
-
追加時に回復キーが必要になるため、保管と参照手順が重要
-
追加後、クラスタとしてオンラインであることを確認する
ステップ4:データソース設定を標準化する
クラスタ化しても、データソース資格情報が片系だけ違うと障害時に失敗します。
データソース定義、資格情報、アクセス権はクラスタ全体で揃える運用が必要です。
ステップ5:片系停止テストを必ず実施する
冗長化したつもりが一番危険です。構築直後に必ずやります。
このテストで、権限差分、ネットワーク差分、資格情報差分が早期に見つかります。
6. 運用監視のポイント:更新結果と健全性を分けて見る
クラスタ構成の価値は、監視がセットで初めて最大化します。
監視は凝りすぎると続かないので、まずは2系統に分けるのがおすすめです。
6-1. 更新結果の監視
ここは業務影響に直結します。
更新結果の監視がないと、利用者から更新されていないと言われて初めて気づく運用になります。これが一番つらい状態です。
6-2. ゲートウェイ健全性の監視
更新失敗の前に予兆が出ます。最低限見るべきは次です。
-
CPU使用率の張り付き
-
メモリ逼迫
-
ディスク不足やI/O遅延
-
ネットワーク遅延やパケットロスの兆候
-
Windowsサービスの停止や再起動履歴
予兆検知ができると、障害対応が緊急から計画保守に変わり、現場の負担が減ります。
7. 保守の現実解:ローリングで止めない
クラスタ構成の強みは、OSパッチやゲートウェイ更新を止めずに実施しやすいことです。
ローリング運用を型にすると安定します。
ローリング保守の流れの例
1 ノードAでOS更新やゲートウェイ更新を実施
2 ゲートウェイサービス再起動
3 重要データセットの手動更新テスト
4 問題がなければノードBも同様に実施
5 作業記録を残す
日時、担当、実施内容、テスト結果、影響有無
重要なのは、テストが必須というルールです。片系更新後にテストを挟むだけで、事故確率は大きく下がります。
8. よくある詰まりどころと切り分けのコツ
クラスタ化しても更新が不安定な場合、原因はだいたい次のどれかです。
8-1. 接続先が単一障害点
ゲートウェイが冗長でも、接続先のDBやファイルサーバーが落ちれば更新は失敗します。
接続先の可用性とネットワーク経路も含めて設計が必要です。
8-2. 資格情報や権限がノード間で揃っていない
片方では更新できるが、もう片方では認証エラーになる。
この状態だと、障害時に生きているノードへ切り替わった瞬間に失敗します。
対策はシンプルで、資格情報の変更手順を標準化し、両系に反映されることを必ず確認することです。
8-3. プロキシやDNSなど通信要件の差分
片方だけプロキシ経由、片方だけ別DNS。こうした差分があると挙動が不安定になります。
ノードは同一条件で揃えるのが基本です。
8-4. リソース不足による遅延とタイムアウト
ゲートウェイは更新処理の中で、データ取得、変換、圧縮などが重なります。
CPUやメモリが足りないと更新が遅くなり、結果としてタイムアウトや失敗が増えます。
対策は、データモデルの設計、更新設計、同時更新数の見直し、必要ならノード追加やクラスタ分割です。
9. スケールの考え方:ノード追加とクラスタ分割を使い分ける
利用が増えると、次の2つのスケール戦略が現実的になります。
9-1. ノードを追加する
-
同時更新が増えた
-
片系停止時でも余裕を持ちたい
-
ピーク時の詰まりを減らしたい
まずは2台、必要なら3台目を追加するのが素直です。
9-2. クラスタを分割する
全てを1つの巨大クラスタに集約すると、影響範囲が大きくなりすぎたり、設定変更が怖くなったりします。
次のように分割を検討できます。
分割は運用の手間も増えるので、台帳と命名規則、管理者体制がある程度整ってから段階的に行うのがおすすめです。
10. そのまま使えるチェックリスト
設計チェックリスト
-
クラスタは最低2台、必要なら3台目を追加できる設計
-
障害ドメインが分かれている
同一ホスト、同一メンテ同時実施を避ける
-
本番と検証は分離
-
サービス実行アカウントは個人ではない
-
回復キーの保管と参照手順がある
-
ノード間でDNS、プロキシ、ファイアウォール要件が揃っている
-
片系停止テストを実施済み
運用チェックリスト
まとめ:クラスタ構成は止めない更新と保守を実現する運用の土台
オンプレミスゲートウェイは、Power BI の信頼を支えるインフラです。
クラスタ構成にすると、1台故障で止まりにくくなり、保守も止めずに回せるようになります。さらに監視と手順が整うことで、障害対応の属人化が減り、全社展開にも耐えやすい基盤になります。
ポイントは次の通りです。
ゲートウェイの冗長化と監視を現場で回る形にしたい方へ
クラスタ構成は作るだけなら難しくありませんが、本当に差が出るのは次の部分です。
-
同時障害を避ける配置設計
-
資格情報と権限の標準化
-
更新失敗の一次対応と原因切り分け手順
-
監視項目の設計とアラート運用
-
ローリング保守の手順化と定着
-
台帳整備と棚卸しによる属人化解消
当社では、現状診断からクラスタ設計、監視設計、運用手順書の作成、保守と障害対応の型づくり、管理者向けレクチャーまで、貴社の環境と体制に合わせて一気通貫で支援できます。
更新が止まる不安をなくしたい、全社展開に向けて基盤を固めたい、運用を属人化から卒業したいという場合は、ぜひ会社としてお申し込み・ご相談ください。
コメント