1. 名寄せとは?
1.1 名寄せの定義と重要性
名寄せ(なよせ)とは、同一人物・同一企業・同一製品などを意味する複数のレコードを、一つに統合または重複削除する作業を指します。たとえば以下のようなケースがあります。
-
「株式会社ABC」「(株)ABC」「ABC CO., LTD.」といった異なる表記だが、同じ企業を示している。
-
住所表記が少し違っていたり、半角全角が混ざっていて同じ住所だと認識できない。
-
顧客データで同じ人物なのに、漢字表記とひらがな表記で二重登録されている。
名寄せを行うことで、「1つの実体につき1レコード」に整理され、売上集計や顧客分析の精度が上がるほか、余分なDM送付や重複メール送信などが防止できます。バラバラの表記を揃えたり、不要な重複を削除したりするのは地味な作業ですが、データ活用を成功させるうえでは避けては通れません。
1.2 Power BIで名寄せする利点
従来はExcelのVLOOKUPや関数を駆使して名寄せをしていた方も多いでしょう。Power BIでは以下のメリットがあります。
2. 名寄せにおけるデータ構成の基本
2.1 マスタとトランザクションの区別
名寄せの多くはマスタデータ同士を整合させたり、トランザクションデータ(販売履歴など)から顧客や製品を特定するために行われます。
同じ顧客が別IDで二重登録されている場合や、会社名の表記ゆれがある場合は、まず顧客マスタの名寄せを行います。そのうえで売上明細と正規化された顧客マスタを結びつけることで、重複のないデータモデルを構築できるようになります。
2.2 主キーの揺れ
本来はユニークなID(主キー)で同一人物や企業を判定するのが理想ですが、現場では「片方のシステムにはIDがない」とか「旧システムと新システムでID体系が違う」ということが頻繁に起こります。そのため、文字列ベースの情報(会社名・住所・電話番号など)を突き合わせて同一性を判断しなければならない場合が多いのです。こうしたケースでPower Queryのファジーマッチが役立ちます。
3. Power BIでの名寄せ手順
3.1 Power Queryエディタの起動
-
Power BI Desktopを開き、リボンの「データの取得」から各種データソース(Excel、CSV、SQL、Accessなど)を取り込みます。
-
取り込み後、リボンの「変換データ」をクリックすると、「Power Queryエディタ」が起動します。
-
このエディタ上で、テーブルの結合や列の追加、フィルタリングなどETL処理をノーコードで記録していくことができます。
3.2 テーブルのマージ(結合)による名寄せの基本
名寄せの典型的な手段は、**「テーブル同士を結合して照合する」**ことです。Power BIのPower Queryエディタには「テーブルをマージ」という機能があり、結合キーを指定して2つのテーブルを結合できます。
手順
-
エディタ画面で「ホーム」タブ →「クエリのマージ」を選択。
-
結合元テーブルと結合先テーブルを指定。
-
「結合する列」(キー列)を選択して結合の種類(左外部結合、内部結合など)を選ぶ。
-
必要に応じて結合後に取り出す列を選択。
ただし、キー列が厳密一致の場合しかマージできないのが通常のマージです。同じ会社名でも表記ゆれ(全角半角、”株式会社”の省略など)があるとマッチしません。そこで活用できるのが、**ファジーマッチ(Fuzzy Matching)**です。
4. ファジーマッチ(Fuzzy Matching)を使った名寄せ
4.1 ファジーマッチの概要
Power Queryの「マージ」で、ファジーマッチを有効化すると、厳密一致ではなく、ある程度の類似度閾値を設定して文字列を照合してくれます。たとえば「(株)ABC」「株式会社 ABC」「ABC CO., LTD.」がある程度似ていると判断されればマッチする、という仕組みです。
4.2 ファジーマッチの具体的な手順
-
「結合の種類」で「Fuzzy matching」を有効にする
-
類似度の設定
-
「上位マッチのみを返す (Find the best match)」設定
-
マッチ回数の制限
4.3 ファジーマッチ結果の評価と調整
ファジーマッチを実行してマージ結果を展開すると、似ていると判断されたレコード同士が結合されますが、誤マッチや過剰マッチが起こる可能性があります。以下のようなステップで評価・調整しましょう。
-
類似度スコアを列として取り出す
-
補正用マップテーブル
-
手動確認のプロセス
5. 名寄せ後のデータ処理
5.1 重複行の取り扱い
名寄せ後には「同一とみなしたレコードを一意のIDに統合する」処理が必要です。方法の一例は以下です。
-
マスタテーブル側
-
トランザクションテーブル側
5.2 一意キーの付与
ファジーマッチによって1:1対応が確定した後は、最終的に一意のキーを作成し、それをもとにテーブルをリレーションします。たとえば:
こうすることで、後工程(レポート、ダッシュボード)で「重複がない状態の顧客ID」を参照できるようになります。
5.3 変更履歴や更新スケジュール
名寄せしたデータを定期的に更新する場合、同じファジーマッチや置換ルールを適用して再処理することになります。Power Queryには手順がすべて記録されるので、**「再利用性が高い」**のが魅力です。
ただし、新規レコードが増えた場合に誤マッチが起きないか、ルールを変更する必要がないかなどを定期的にモニタリングするのがおすすめです。
6. 名寄せの実務的なポイント
6.1 前処理でやっておくと良いこと
-
トリム・空白除去:先頭や末尾の余分なスペース、住所に含まれる全角半角スペースの統一。
-
大文字小文字、全角半角の変換:英字や数字が混在しているときは、Power Queryの「テキストの大文字変換」「文字の変換」などを使って事前に統一しておくとマッチ精度が上がる。
-
置換マスタ:よくある略称や社名パターンを先に置換しておく(「(株)」を「株式会社」、「CO.,LTD」を「CO., LTD.」など)。
6.2 閾値の最適化
ファジーマッチの類似度閾値は初期状態で0.8に設定されることが多いですが、実際の文字列パターンによって適切な値は変わります。
6.3 ラテン文字以外のファジーマッチ
日本語や中国語などラテン文字以外の文字を含むデータの場合、ファジーマッチのアルゴリズムが英語表記に比べて精度が落ちることがあります。正式なサポート状況はバージョンにより変わる可能性がありますが、日本語の微妙な表記揺れを扱う際は、事前のクリーニングや対応表の作り込みがより重要となります。
6.4 データベース連携とモデル化
規模が大きい場合、Power BI上で全部ファジーマッチを行うのは負荷が高いこともあります。その場合は、ETL専用のツールやデータベース側で名寄せを完了し、Power BIは名寄せ後のクリーンデータを取り込むというアーキテクチャも検討してください。
一方で、PoCや少量データのクリーニングならPower BIのファジーマッチ機能は手早く使えて便利です。
7. 名寄せ後の可視化・分析例
7.1 重複削除後の売上分析
顧客リストが名寄せされたことで、売上明細を集計したときに「同一顧客が二重計上されない」状態となり、正確な顧客別売上TOPランキングなどが確認できます。また、複数システムから統合した顧客データでも、同じ会社を同一視できるようになり、分析の範囲が広がります。
7.2 ダッシュボードで重複状況をモニタリング
Power BIレポートを作り、
7.3 住所別の商圏分析
住所データの名寄せで、「丁目や番地の抜け」「全角・半角混在」などを補正しておけば、地図ビジュアル上で正確に顧客分布や売上分布をプロットできるようになります。これにより商圏分析やエリアマーケティングの精度が向上します。
8. まとめ
ここまで、Power BIを活用した名寄せの手法を中心に解説しました。ポイントを整理すると、以下のとおりです。
-
名寄せの重要性
-
Power QueryエディタでのETL
-
ファジーマッチの活用
-
類似度閾値を調整し、過剰マッチ・誤マッチを減らす。
-
上位マッチのみ返す設定や最大マッチ数などを駆使し、適切なマージ結果を得る。
-
最終的にSimilarityスコアなどを確認し、誤判定をフィルタリングするなどの工夫も必要。
-
名寄せ後のID統合
-
定期的なメンテナンス
Power Queryのファジーマッチは、表記ゆれで困っている多くの現場にとってとても有用な機能です。ただし、全自動で完璧な結果が得られるわけではないため、事前処理(クリーニング)と設定調整、結果の検証(サンプルチェックなど)が欠かせません。
それでも、従来のExcelに比べればはるかに効率的で、大量データでも再利用性が高い名寄せフローを築けるのはPower BIの強みです。ぜひ今回紹介した方法を参考に、実務での名寄せ作業をスムーズに行い、より正確なBIレポートや分析を実現してみてください。
セミナーで学ぶ!DAX 関数の実践スキル
箱ひげ図をはじめ、Power BIを使いこなすうえで欠かせないのがDAX関数の知識です。DAXをしっかり学ぶことで、データの前処理から複雑な指標の算出までスムーズにこなせるようになります。そんなDAXとデータモデル設計を効率よく学習できるハンズオンセミナーを開催しています。
🔰 Power BIハンズオンセミナー初級編
-
短時間でデータモデリングの基礎を身につける
-
実務にすぐ活かせるレポート作成を実践形式で学ぶ
-
少人数制なので、つまずきポイントを都度フォロー
👉 セミナー詳細を今すぐチェック
🚀 Power BIハンズオンセミナー中級編
👉 詳細はこちら
コメント