Power BIでの「中央値(Median)」の扱い方

1. 名寄せとは?

1.1 名寄せの定義と重要性

名寄せ(なよせ)とは、同一人物・同一企業・同一製品などを意味する複数のレコードを、一つに統合または重複削除する作業を指します。たとえば以下のようなケースがあります。

  • 「株式会社ABC」「(株)ABC」「ABC CO., LTD.」といった異なる表記だが、同じ企業を示している。

  • 住所表記が少し違っていたり、半角全角が混ざっていて同じ住所だと認識できない。

  • 顧客データで同じ人物なのに、漢字表記とひらがな表記で二重登録されている。

名寄せを行うことで、「1つの実体につき1レコード」に整理され、売上集計や顧客分析の精度が上がるほか、余分なDM送付や重複メール送信などが防止できます。バラバラの表記を揃えたり、不要な重複を削除したりするのは地味な作業ですが、データ活用を成功させるうえでは避けては通れません。

1.2 Power BIで名寄せする利点

従来はExcelのVLOOKUPや関数を駆使して名寄せをしていた方も多いでしょう。Power BIでは以下のメリットがあります。

  • 大量データでも比較的高速

    • Excelよりも多くの行に対応しやすく、メモリ内で効率的に処理できる(Importモードなど)。

  • 「Power Query」でのETL操作がノーコードで再現可能

    • 一度設定しておけば、新しいデータを追加してもワンクリック(または自動スケジュール)で同じ処理を再適用できる。

  • ファジーマッチ(Fuzzy Matching)が使える

    • 類似文字列での結合・マージが簡単にでき、微妙に違う表記も同一として扱うことが可能。

  • 最終的にBIレポートへシームレスに連携

    • 名寄せ後のデータをそのまま可視化・分析に進める。


2. 名寄せにおけるデータ構成の基本

2.1 マスタとトランザクションの区別

名寄せの多くはマスタデータ同士を整合させたり、トランザクションデータ(販売履歴など)から顧客や製品を特定するために行われます。

  • 顧客マスタ(顧客ID、会社名、住所、電話番号など)

  • 製品マスタ(製品コード、製品名、型番など)

  • 売上明細(上記マスタへのキー参照+数量・金額 など)

同じ顧客が別IDで二重登録されている場合や、会社名の表記ゆれがある場合は、まず顧客マスタの名寄せを行います。そのうえで売上明細と正規化された顧客マスタを結びつけることで、重複のないデータモデルを構築できるようになります。

2.2 主キーの揺れ

本来はユニークなID(主キー)で同一人物や企業を判定するのが理想ですが、現場では「片方のシステムにはIDがない」とか「旧システムと新システムでID体系が違う」ということが頻繁に起こります。そのため、文字列ベースの情報(会社名・住所・電話番号など)を突き合わせて同一性を判断しなければならない場合が多いのです。こうしたケースでPower Queryのファジーマッチが役立ちます。


3. Power BIでの名寄せ手順

3.1 Power Queryエディタの起動

  1. Power BI Desktopを開き、リボンの「データの取得」から各種データソース(Excel、CSV、SQL、Accessなど)を取り込みます。

  2. 取り込み後、リボンの「変換データ」をクリックすると、「Power Queryエディタ」が起動します。

  3. このエディタ上で、テーブルの結合や列の追加、フィルタリングなどETL処理をノーコードで記録していくことができます。

3.2 テーブルのマージ(結合)による名寄せの基本

名寄せの典型的な手段は、**「テーブル同士を結合して照合する」**ことです。Power BIのPower Queryエディタには「テーブルをマージ」という機能があり、結合キーを指定して2つのテーブルを結合できます。

手順

  1. エディタ画面で「ホーム」タブ →「クエリのマージ」を選択。

  2. 結合元テーブルと結合先テーブルを指定。

  3. 「結合する列」(キー列)を選択して結合の種類(左外部結合、内部結合など)を選ぶ。

  4. 必要に応じて結合後に取り出す列を選択。

ただし、キー列が厳密一致の場合しかマージできないのが通常のマージです。同じ会社名でも表記ゆれ(全角半角、”株式会社”の省略など)があるとマッチしません。そこで活用できるのが、**ファジーマッチ(Fuzzy Matching)**です。


4. ファジーマッチ(Fuzzy Matching)を使った名寄せ

4.1 ファジーマッチの概要

Power Queryの「マージ」で、ファジーマッチを有効化すると、厳密一致ではなく、ある程度の類似度閾値を設定して文字列を照合してくれます。たとえば「(株)ABC」「株式会社 ABC」「ABC CO., LTD.」がある程度似ていると判断されればマッチする、という仕組みです。

  • 類似度は0~1の範囲で表され、1に近いほど文字列がほぼ同じ。

  • ユーザーは「類似度閾値(Similarity Threshold)」を設定し、たとえば0.8以上であればマッチと見なす、といった制御が可能。

4.2 ファジーマッチの具体的な手順

  1. 「結合の種類」で「Fuzzy matching」を有効にする

    • マージダイアログの下部にある「使用するプライマリ結合列の単純一致を少しゆるやかにする」チェックボックスをオンにする(Power BIの日本語UIでは名称が変わる可能性がありますが、概念としては「Approximate Match」とか「Fuzzy Match」など)。

  2. 類似度の設定

    • デフォルトだと0.8が閾値になる場合が多い。類似度を低く設定すると、より多くのマッチが見つかるが誤マッチも増える。

  3. 「上位マッチのみを返す (Find the best match)」設定

    • もしオフにすると、文字列が複数の候補とマッチした場合にすべて返ってきてしまう。オンにすれば最も類似度が高い1件だけをマッチとして扱う。

  4. マッチ回数の制限

    • 必要に応じて「1行あたりのマッチ最大数」を指定できる。たとえば1以上にすると、1行に対して複数候補が出る可能性がある。

4.3 ファジーマッチ結果の評価と調整

ファジーマッチを実行してマージ結果を展開すると、似ていると判断されたレコード同士が結合されますが、誤マッチや過剰マッチが起こる可能性があります。以下のようなステップで評価・調整しましょう。

  1. 類似度スコアを列として取り出す

    • ファジーマッチを使うと、似ている度合い(Similarity)が列として得られる場合があります。これを見て、あまりに低いスコアのマッチを手動で除外するなどのフィルタリングを行う。

  2. 補正用マップテーブル

    • 業界固有の略称やよくある誤表記に関しては、別途「置換マスタ(例:[“(株)” → “株式会社”])」を用意して先に置換処理をすると、ファジーマッチの精度が上がる。

  3. 手動確認のプロセス

    • 大量のデータでも、最終的には一部サンプルを目視でチェックして誤マッチ率を把握するのが現実的。あまりに誤マッチが多ければ閾値を調整するか、先にクリーニングを細かくする。


5. 名寄せ後のデータ処理

5.1 重複行の取り扱い

名寄せ後には「同一とみなしたレコードを一意のIDに統合する」処理が必要です。方法の一例は以下です。

  1. マスタテーブル側

    • ファジーマッチを使って複数レコード→1レコードに圧縮する。「主レコード」を決め、それ以外をサブレコードとして結合して「消す」あるいは「マージする」。

  2. トランザクションテーブル側

    • 新たに確定した「統合済みID」を参照する列を作成し、過去の複数IDを同一IDに置き換える。こうすることで売上や顧客行動が重複なく集計できるようになる。

5.2 一意キーの付与

ファジーマッチによって1:1対応が確定した後は、最終的に一意のキーを作成し、それをもとにテーブルをリレーションします。たとえば:

  • 「顧客マスタ統合ID」として新しいIDを発行(1、2、3…など連番)

  • 旧システムのID、類似レコードのIDもすべてこの新IDに紐づける

こうすることで、後工程(レポート、ダッシュボード)で「重複がない状態の顧客ID」を参照できるようになります。

5.3 変更履歴や更新スケジュール

名寄せしたデータを定期的に更新する場合、同じファジーマッチや置換ルールを適用して再処理することになります。Power Queryには手順がすべて記録されるので、**「再利用性が高い」**のが魅力です。
ただし、新規レコードが増えた場合に誤マッチが起きないか、ルールを変更する必要がないかなどを定期的にモニタリングするのがおすすめです。


6. 名寄せの実務的なポイント

6.1 前処理でやっておくと良いこと

  • トリム・空白除去:先頭や末尾の余分なスペース、住所に含まれる全角半角スペースの統一。

  • 大文字小文字、全角半角の変換:英字や数字が混在しているときは、Power Queryの「テキストの大文字変換」「文字の変換」などを使って事前に統一しておくとマッチ精度が上がる。

  • 置換マスタ:よくある略称や社名パターンを先に置換しておく(「(株)」を「株式会社」、「CO.,LTD」を「CO., LTD.」など)。

6.2 閾値の最適化

ファジーマッチの類似度閾値は初期状態で0.8に設定されることが多いですが、実際の文字列パターンによって適切な値は変わります。

  • 値を高くすると厳密になるが、多少の表記ブレでも結合されない(ミスマッチ)。

  • 値を低くすると誤マッチのリスクが増える。

  • データを一部サンプルし、誤マッチの例を確認しながら調整するのが大切。

6.3 ラテン文字以外のファジーマッチ

日本語や中国語などラテン文字以外の文字を含むデータの場合、ファジーマッチのアルゴリズムが英語表記に比べて精度が落ちることがあります。正式なサポート状況はバージョンにより変わる可能性がありますが、日本語の微妙な表記揺れを扱う際は、事前のクリーニングや対応表の作り込みがより重要となります。

6.4 データベース連携とモデル化

規模が大きい場合、Power BI上で全部ファジーマッチを行うのは負荷が高いこともあります。その場合は、ETL専用のツールやデータベース側で名寄せを完了し、Power BIは名寄せ後のクリーンデータを取り込むというアーキテクチャも検討してください。
一方で、PoCや少量データのクリーニングならPower BIのファジーマッチ機能は手早く使えて便利です。


7. 名寄せ後の可視化・分析例

7.1 重複削除後の売上分析

顧客リストが名寄せされたことで、売上明細を集計したときに「同一顧客が二重計上されない」状態となり、正確な顧客別売上TOPランキングなどが確認できます。また、複数システムから統合した顧客データでも、同じ会社を同一視できるようになり、分析の範囲が広がります。

7.2 ダッシュボードで重複状況をモニタリング

Power BIレポートを作り、

  • 名寄せの結果、重複が解消された件数

  • ファジーマッチで複数候補となった件数

  • 未だに未整理のレコード数
    などをKPIとして可視化し、管理部門やデータ担当者が日々の進捗を確認できるようにするのも有効です。

7.3 住所別の商圏分析

住所データの名寄せで、「丁目や番地の抜け」「全角・半角混在」などを補正しておけば、地図ビジュアル上で正確に顧客分布や売上分布をプロットできるようになります。これにより商圏分析やエリアマーケティングの精度が向上します。


8. まとめ

ここまで、Power BIを活用した名寄せの手法を中心に解説しました。ポイントを整理すると、以下のとおりです。

  1. 名寄せの重要性

    • 同じ実体を表すレコードの表記ゆれを是正し、一意のIDに統合することで分析の精度を高める。

  2. Power QueryエディタでのETL

    • 不要なスペースや文字種の統一、よくある略称の置換などの前処理が重要。

    • 「テーブルをマージ」でファジーマッチ(近似結合)を利用すると、類似表記をある程度自動で結合できる。

  3. ファジーマッチの活用

    • 類似度閾値を調整し、過剰マッチ・誤マッチを減らす。

    • 上位マッチのみ返す設定や最大マッチ数などを駆使し、適切なマージ結果を得る。

    • 最終的にSimilarityスコアなどを確認し、誤判定をフィルタリングするなどの工夫も必要。

  4. 名寄せ後のID統合

    • マスタテーブルを1つにまとめたら、新たな一意IDを生成し、それをトランザクションテーブルに紐付ける。

    • 重複のないクリーンなデータモデルで、正確な集計・分析が可能になる。

  5. 定期的なメンテナンス

    • 名寄せ作業は一回で終わりではなく、新しいデータが入るたびに再適用することが多い。

    • Power BIのクエリステップを再利用すれば、更新プロセスを自動化しやすい。

Power Queryのファジーマッチは、表記ゆれで困っている多くの現場にとってとても有用な機能です。ただし、全自動で完璧な結果が得られるわけではないため、事前処理(クリーニング)と設定調整、結果の検証(サンプルチェックなど)が欠かせません。
それでも、従来のExcelに比べればはるかに効率的で、大量データでも再利用性が高い名寄せフローを築けるのはPower BIの強みです。ぜひ今回紹介した方法を参考に、実務での名寄せ作業をスムーズに行い、より正確なBIレポートや分析を実現してみてください。


セミナーで学ぶ!DAX 関数の実践スキル

箱ひげ図をはじめ、Power BIを使いこなすうえで欠かせないのがDAX関数の知識です。DAXをしっかり学ぶことで、データの前処理から複雑な指標の算出までスムーズにこなせるようになります。そんなDAXとデータモデル設計を効率よく学習できるハンズオンセミナーを開催しています。

🔰 Power BIハンズオンセミナー初級編

  • 短時間でデータモデリングの基礎を身につける

  • 実務にすぐ活かせるレポート作成を実践形式で学ぶ

  • 少人数制なので、つまずきポイントを都度フォロー

👉 セミナー詳細を今すぐチェック

🚀 Power BIハンズオンセミナー中級編

  • DAX関数 × データモデル設計 の実践的なノウハウを習得

  • 複雑な分析要件にも対応できる応用力を身につける

  • 即戦力として業務効率アップや社内評価向上に直結

👉 詳細はこちら

関連記事

この記事へのコメントはありません。

カテゴリー

アーカイブ