Salesforce 重複データ管理をマスターする：データ品質と整合性のための戦略

背景と応用シーン

現代のビジネス環境において、企業が保有するデータは最も貴重な資産の一つです。しかし、そのデータが重複している場合、思わぬコスト増や機会損失につながる可能性があります。例えば、同じ顧客に対して複数の営業担当者がアプローチしたり、マーケティングキャンペーンが不必要に繰り返し送信されたり、レポートの集計が不正確になったりするケースが考えられます。このような問題は、企業の意思決定の質を低下させ、顧客体験を損ない、最終的には収益に悪影響を及ぼします。

Salesforceの重複データ管理 (Duplicate Management) 機能は、このような重複データの課題に対処するために設計されています。これは、顧客関係管理（CRM）システムにおけるデータの品質と整合性を維持するための不可欠なツールです。Salesforceの重複データ管理は、ユーザーが新しいレコードを作成または既存のレコードを更新する際に、潜在的な重複をリアルタイムで識別し、それに対するアクションを定義できる強力な機能を提供します。

この機能の主な応用シーンは多岐にわたります。

リード（Lead）と取引先責任者（Contact）の重複排除: 営業チームが新しいリードを作成する際や、Webサイトからのフォーム入力でリードが生成される際に、既存のリードや取引先責任者との重複を防ぎます。これにより、営業担当者が既に存在する顧客に再度アプローチすることを防ぎ、効率的な営業活動を促進します。
取引先（Account）の重複防止: 複数の営業担当者が異なる名前で同じ会社を登録することを防ぎます。正確な取引先情報を維持することは、顧客の全体像を把握し、一貫したサービスを提供するために不可欠です。
データインポート時の重複チェック: 外部システムから大量のデータをSalesforceにインポートする際に、既存のデータとの重複を検出し、マージまたは排除のプロセスを支援します。
データ品質レポートの改善: 重複データが排除されることで、レポートやダッシュボードの精度が向上し、より信頼性の高いビジネスインサイトが得られます。
システム連携時のデータ整合性維持: 外部システムとのデータ連携において、Salesforce側で重複ルールを適用することで、連携先のデータとSalesforceのデータ間の整合性を確保します。

重複データ管理は、単に「重複をなくす」だけでなく、「高品質なデータを維持する文化」を組織に根付かせるための基盤となる機能と言えるでしょう。

原理説明

Salesforceの重複データ管理機能は、主に「照合ルール（Matching Rules）」と「重複ルール（Duplicate Rules）」という二つの主要なコンポーネントで構成されています。これらが連携して、重複の識別とそれに対するアクションを定義します。

照合ルール（Matching Rules）

照合ルール (Matching Rules) は、どのレコードが互いに重複していると見なされるかを定義するための基準です。これは、特定のオブジェクト（例：取引先、取引先責任者、リード、カスタムオブジェクト）に対して設定され、複数のフィールドを組み合わせて重複を識別します。照合ルールは、Salesforceのレコードに対して「比較対象のフィールドとその比較方法」を指定することで機能します。

フィールドの指定: 照合ルールは、名前、メールアドレス、電話番号、会社名、住所など、複数のフィールドを比較対象として指定できます。
照合方法（Matching Method）: 各フィールドに対して、厳密な一致（Exact Match）やあいまいな一致（Fuzzy Match）といった照合方法を選択できます。
- 厳密な一致（Exact Match）: 値が完全に一致する場合にのみ重複と見なします。（例: 「Salesforce」と「salesforce」は区別される）
- あいまいな一致（Fuzzy Match）: 類似した値も重複と見なします。スペルミス、略語、順序の違いなどを考慮できます。（例: 「株式会社Salesforce」と「Salesforce.com, Inc.」を重複と見なす可能性）
空白フィールドの処理（Blank Field Handling）: 比較対象のフィールドが空白の場合に、それを一致と見なすか、無視するかを設定できます。
標準照合ルールとカスタム照合ルール: Salesforceは、取引先、取引先責任者、リードに対していくつかの標準照合ルールを提供しています。これらはすぐに使用できますが、ビジネス要件に合わせてカスタム照合ルールを作成することも可能です。カスタム照合ルールでは、より詳細な比較ロジック（例：カスタムフィールドの比較）を定義できます。

照合ルールは、重複を識別するための「ルールブック」のようなものです。これ自体は何かアクションを実行するわけではなく、あくまで重複の可能性を特定するための基準を提供します。

重複ルール（Duplicate Rules）

重複ルール (Duplicate Rules) は、照合ルールによって重複が検出された場合にどのようなアクションを取るかを定義します。これは、重複データを管理するための「実行メカニズム」です。

照合ルールとの紐付け: 各重複ルールは、一つ以上の照合ルールと関連付けられます。これにより、特定の照合ルールが重複を検出した際に、重複ルールで定義されたアクションが実行されます。
アクション（Actions）: 重複ルールが検出された場合のアクションは主に二種類あります。
- ブロック（Block）: ユーザーが重複したレコードを作成または保存することを完全に阻止します。これにより、新規の重複発生を強力に防止できます。
- 警告（Alert）: ユーザーに重複の可能性があることを警告しますが、レコードの保存は許可します。このオプションは、ユーザーが判断して保存を続行したい場合に有用です。警告メッセージはカスタマイズ可能です。
レポート（Report）: 重複ルールは、検出された重複レコードを「重複レコードセット（Duplicate Record Sets）」として記録し、レポートとして確認できます。これにより、既存の重複データを特定し、マージなどのアクションを取るための基盤となります。
セキュリティとバイパス（Security and Bypass）: 重複ルールは、特定のユーザープロファイルや権限セットに適用されるように設定できます。また、特定のユーザー（例えば、システム管理者）は「重複ルールをバイパス（Bypass Duplicate Rules）」という権限を持つことで、重複ルールを無視してレコードを保存することができます。これは、データ移行などの特別なシナリオで役立ちます。
適用タイミング: 重複ルールは、レコードの作成時（Create）と編集時（Edit）の両方に適用するように設定できます。

これらのコンポーネントが連携することで、Salesforceはデータ入力の時点で重複を検出し、その後のデータ品質維持のためのメカニズムを提供します。

示例コード

Salesforceの重複データ管理機能は、主に宣言的な設定（照合ルールと重複ルール）を通じて機能しますが、Apexを使ってプログラム的に重複ルールを操作したり、DML操作の結果として返される重複情報を処理したりすることも可能です。ここでは、Apexにおける重複ルールの処理とバイパスの方法について、Salesforce公式ドキュメントに基づいたコード例を挙げます。

SalesforceのDML操作（insert, updateなど）は、デフォルトで重複ルールを尊重します。もし重複ルールが「ブロック」に設定されている場合、DML操作は失敗し、DmlExceptionをスローします。しかし、Database.insert()やDatabase.update()のオーバーロードメソッドやDatabase.DmlOptionsクラスを使用することで、より柔軟に重複ルールを処理できます。

1. 重複ルールに違反してもDMLを続行し、結果から重複情報を取得する

この例では、重複ルールが設定されているオブジェクトに対してレコードを挿入します。Database.insert(records, false)を使用することで、一部のレコードが失敗してもトランザクション全体がロールバックされるのを防ぎ、結果として返されるDatabase.SaveResultオブジェクトから重複情報を取得できます。

// Accountオブジェクトに対する重複ルールが有効になっていると仮定
List<Account> accountsToInsert = new List<Account>();

// 既存の重複する可能性があるレコードを作成
Account existingAcc = new Account(Name = 'Test Account for Duplicates', Phone = '123-456-7890');
insert existingAcc;

// 重複する可能性のある新しいレコードを作成
Account duplicateAcc = new Account(Name = 'Test Account for Duplicates', Phone = '123-456-7890');
accountsToInsert.add(duplicateAcc);

// 重複しない新しいレコードを作成
Account uniqueAcc = new Account(Name = 'Unique Test Account', Phone = '987-654-3210');
accountsToInsert.add(uniqueAcc);

// DML操作を実行し、部分的な成功を許容 (allOrNone = false)
// これにより、重複エラーが発生しても他のレコードの挿入が試行され、DmlExceptionはスローされない
List<Database.SaveResult> results = Database.insert(accountsToInsert, false);

for (Database.SaveResult sr : results) {
    if (sr.isSuccess()) {
        System.debug('Successfully inserted account with ID: ' + sr.getId());
    } else {
        // エラーが発生した場合
        for (Database.Error err : sr.getErrors()) {
            System.debug('Error status code: ' + err.getStatusCode());
            System.debug('Error message: ' + err.getMessage());

            // 重複エラーの場合、DuplicateResultを取得
            if (err.getStatusCode() == StatusCode.DUPLICATES_DETECTED) {
                Database.DuplicateResult dupResult = err.getDuplicateResult();
                System.debug('Duplicate result found: ' + dupResult);
                
                // 重複レコードセットの情報を取得
                if (dupResult.getDuplicateItems() != null) {
                    for (Database.DuplicateItem dupItem : dupResult.getDuplicateItems()) {
                        System.debug('  Duplicate item ID: ' + dupItem.getMatchResult().getEntityId());
                        System.debug('  Duplicate item URL: ' + dupItem.getMatchResult().getMatchUrl());
                        System.debug('  Matching Rule Name: ' + dupItem.getMatchingRule().getRuleName());
                        System.debug('  Matching Rule Label: ' + dupItem.getMatchingRule().getRuleLabel());
                        System.debug('  Matching Rule ID: ' + dupItem.getMatchingRule().getRuleId());
                    }
                }
            }
        }
    }
}

このコードは、Database.SaveResultのgetErrors()メソッドを介して、DUPLICATES_DETECTEDというステータスコードを持つエラーを特定し、そのエラーオブジェクトからDatabase.DuplicateResultを取得する方法を示しています。Database.DuplicateResultは、どのレコードが重複として識別されたか、どの照合ルールがトリガーされたかなどの詳細情報を提供します。

2. Apexから重複ルールを明示的にバイパスする

特定のビジネスロジックやデータ移行シナリオでは、一時的に重複ルールを無視してDML操作を実行する必要がある場合があります。Database.DmlOptionsクラスとそのDuplicateRuleHeaderサブクラスを使用することで、Apexからプログラム的に重複ルールをバイパスできます。

// Accountオブジェクトに対する重複ルールが有効になっていると仮定
List<Account> accountsToInsert = new List<Account>();

// 既存の重複する可能性があるレコードを作成
Account existingAcc = new Account(Name = 'Another Test Account', Phone = '111-222-3333');
insert existingAcc;

// 重複する可能性のある新しいレコードを作成
Account duplicateAccWithBypass = new Account(Name = 'Another Test Account', Phone = '111-222-3333');
accountsToInsert.add(duplicateAccWithBypass);

// DMLオプションを設定
Database.DmlOptions dmlOptions = new Database.DmlOptions();
// DuplicateRuleHeaderを設定し、重複ルールを無視して保存を許可
dmlOptions.setDuplicateRuleHeader(new Database.DuplicateRuleHeader(true)); // trueを指定すると、重複を許可

// DML操作を実行
try {
    List<Database.SaveResult> results = Database.insert(accountsToInsert, dmlOptions);

    for (Database.SaveResult sr : results) {
        if (sr.isSuccess()) {
            System.debug('Successfully inserted account with ID (bypassed duplicate rule): ' + sr.getId());
        } else {
            for (Database.Error err : sr.getErrors()) {
                System.debug('Error status code (bypassed duplicate rule): ' + err.getStatusCode());
                System.debug('Error message (bypassed duplicate rule): ' + err.getMessage());
            }
        }
    }
} catch (DmlException e) {
    System.debug('An unexpected DML exception occurred: ' + e.getMessage());
}

このコードは、Database.DuplicateRuleHeaderのコンストラクタにtrueを渡すことで、DML操作が重複ルールを無視して実行されるように設定しています。これにより、たとえ重複するレコードであっても、エラーを発生させずに保存されます。この機能は、データ移行ツールや特定のバッチ処理など、システム的な操作で重複チェックを一時的に無効にしたい場合に非常に有用です。ただし、データ品質を損なう可能性があるため、使用には十分な注意と承認が必要です。

注意事項

Salesforceの重複データ管理は強力な機能ですが、その導入と運用にはいくつかの重要な考慮事項があります。

権限（Permissions）

重複ルールを管理（Manage Duplicate Rules）: この権限は、システム管理者や指定されたデータ品質管理者などが重複ルールおよび照合ルールを作成、編集、有効化/無効化するために必要です。
重複ルールをバイパス（Bypass Duplicate Rules）: この権限を持つユーザーは、DML操作時に重複ルールを無視してレコードを保存できます。通常はシステム管理者など、限られたユーザーにのみ付与されるべきです。この権限は、大規模なデータ移行やAPI統合の際に役立ちますが、誤用するとデータ品質を損なう可能性があります。
通常のユーザー: 重複ルールが有効な場合、通常のユーザーがレコードを作成または更新しようとした際に、設定されたアクション（ブロックまたは警告）が適用されます。

API制限（API Limits）とパフォーマンス

パフォーマンスへの影響: 照合ルール、特に「あいまいな一致（Fuzzy Match）」を使用するルールは、レコードの保存時にCPU時間を消費し、パフォーマンスに影響を与える可能性があります。大量のレコードを処理するDML操作やAPI呼び出しでは、このオーバーヘッドが顕著になることがあります。
SOQLクエリの最適化: 照合ルールは内部的にSOQLクエリを使用して重複を検出します。複雑な照合ルールは、クエリの実行時間を増加させ、ガバナ制限（Governor Limits）に抵触するリスクを高める可能性があります。
一括DML操作: 大量のレコードを一括で挿入または更新する場合、重複チェックの処理時間が増大する可能性があります。Database.insert(records, false)などの部分的な成功を許容するDMLメソッドを適切に使用し、エラーハンドリングを強化することが推奨されます。

エラー処理（Error Handling）

DmlExceptionのキャッチ: 重複ルールがブロックアクションに設定されている場合、標準のDML操作（例：insert myAccount;）はDmlExceptionをスローします。Apexコードでは、これらの例外を適切にキャッチし、ユーザーフレンドリーなエラーメッセージを提供する必要があります。
Database.SaveResultの活用: Database.insert(records, false)のようなメソッドを使用する場合、Database.SaveResultオブジェクトを反復処理し、各レコードの成功または失敗を個別に確認することが重要です。特に、StatusCode.DUPLICATES_DETECTEDのエラーを特定し、Database.DuplicateResultから詳細な重複情報を抽出して、ユーザーに提示したり、ログに記録したりする処理を実装します。

カスタムオブジェクト（Custom Objects）

重複データ管理機能は、標準オブジェクトだけでなく、カスタムオブジェクトにも完全に適用できます。ビジネスロジックに合わせて、カスタムオブジェクトにも独自の照合ルールと重複ルールを設定し、データ品質を維持できます。

統合（Integration）とデータ移行（Data Migration）

外部システムとの連携: 外部システムからSalesforceへデータを連携する際、重複ルールがどのように適用されるかを考慮する必要があります。Upsert操作（外部IDを使用した挿入または更新）や、カスタムAPIを使用して重複を事前にチェックするロジックを実装することも検討してください。
データ移行時の戦略: 大規模なデータ移行を行う前には、ソースデータ内の重複をクレンジング（Cleaning）することが理想的です。移行中に重複ルールを一時的に無効化する（バイパスする）ことも可能ですが、その場合は移行後の重複を特定し、マージする計画を立てておく必要があります。

データガバナンス（Data Governance）

重複データ管理は技術的な機能だけでなく、組織全体のデータガバナンス戦略の一部として位置付けられるべきです。明確なデータ入力ガイドライン、定期的なデータクレンジングプロセス、そしてユーザーへの継続的なトレーニングを通じて、データ品質を維持する文化を醸成することが重要です。

まとめとベストプラクティス

Salesforceの重複データ管理機能は、データ品質を向上させ、ビジネスプロセスの効率を高めるための不可欠なツールです。この機能を最大限に活用し、効果的なデータガバナンスを実現するためのまとめとベストプラクティスを以下に示します。

1. データ品質への意識向上

重複データの問題は、単なる技術的な課題ではありません。組織全体のデータ品質に対する意識を向上させることが最も重要です。データの正確性がビジネスの成功にどのように貢献するかをユーザーに教育し、重複管理の重要性を理解してもらうことが不可欠です。

2. 段階的な導入と継続的な調整

シンプルに始める: 最初から複雑な照合ルールを設定するのではなく、標準の照合ルールや基本的なフィールド（名前、メール、電話番号など）に基づいたシンプルなルールから始めることをお勧めします。
反復と洗練: 重複ルールを有効にした後も、その効果を定期的に監視し、検出される重複のパターンを分析します。必要に応じて照合ルールを調整（例：あいまいな一致の調整、追加フィールドの組み込み）し、ルールを洗練させていきます。

3. ユーザーエクスペリエンスの考慮

重複ルールが「ブロック」に設定されている場合、ユーザーはレコードを保存できません。これはデータ品質には良いですが、ユーザーの作業を中断させる可能性があります。「警告」オプションを使用するか、カスタムのApexトリガーやフローでよりユーザーフレンドリーな重複解決フローを提供するなど、ユーザーの作業効率を損なわないバランスを見つけることが重要です。

4. 定期的な監視とマージ

重複ルールは新しい重複の発生を防ぐのに役立ちますが、既存の重複を自動的に解決するわけではありません。Salesforceの「重複レコードセット（Duplicate Record Sets）」レポートを定期的に監視し、発見された重複レコードをマージするプロセスを確立します。大規模な重複の場合、データローダーやサードパーティのデータクレンジングツールを利用することも検討します。

5. Apex連携の戦略的活用

標準の重複管理機能でカバーできない複雑なビジネスロジックや、特定のユーザー体験を提供したい場合は、Apexを活用します。前述のコード例のように、DML操作後のDatabase.SaveResultから重複情報を取得してカスタムのUIで表示したり、特定の条件で重複ルールをプログラム的にバイパスしたりするなどのアプローチが考えられます。ただし、Apexでの重複ルールのバイパスは、データ品質を損なうリスクがあるため、慎重に使用し、その必要性を十分に検討してください。

6. 統合とデータ移行の計画

外部システムとのデータ連携や大規模なデータ移行を行う際は、事前に重複データに対する戦略を立てておく必要があります。連携元で重複を排除するか、Salesforce側で重複ルールを適用するか、あるいはAPIを通じて重複検出ロジックを実装するかなど、状況に応じた最適な方法を選択します。

7. データガバナンス体制の確立

最終的には、重複データ管理を組織全体のデータガバナンス戦略の一部として位置づけることが成功の鍵です。データ入力のベストプラクティスの文書化、定期的なデータ監査、そしてデータ品質責任者の任命などを通じて、高品質なデータを維持するための継続的な取り組みを推進します。

これらのベストプラクティスを実践することで、Salesforceの重複データ管理機能を最大限に活用し、クリーンで信頼性の高いデータを維持し、ビジネスの成長を強力にサポートできるでしょう。

にゃんこのSalesforce日記

このブログを検索