Salesforce Einstein Discovery 徹底活用：データエンジニア視点での予測インサイト構築ガイド

背景と応用シーン

Salesforce データエンジニアとして、私たちの主な責務は、組織が保有する膨大なデータを実用的で価値のあるアセットに変換することです。従来のBIツールは「何が起こったか」を可視化することに長けていますが、ビジネスの意思決定者が本当に知りたいのは「なぜそれが起こったのか」、そして「次に何が起こるか」です。このギャップを埋めるのが、Salesforceの強力な拡張知能（Augmented Intelligence）ツール、Einstein Discovery です。

Einstein Discoveryは、統計モデリングと機械学習を自動化し、ビジネスユーザーでも高度なデータ分析を行えるように設計されています。しかし、その真価を最大限に引き出すためには、バックエンドのデータ準備、パイプライン構築、そしてモデルの運用化において、データエンジニアの専門知識が不可欠です。私たちは、モデルに供給されるデータの品質と構造を保証し、予測結果が正確かつ信頼できるものであることを担保する役割を担います。

応用シーン

データエンジニアの観点から見ると、Einstein Discoveryは以下のような多くのビジネスシナリオで強力なソリューションとなり得ます。

営業部門：
- 商談成立確率の予測： どの商談が最も成約に近いかを予測し、営業担当者がリソースを集中できるよう支援します。データエンジニアは、過去の商談データ、活動履歴、顧客属性などをクレンジングし、最適なデータセットを構築します。
- 解約リスクの特定： 顧客の利用状況やサポート問い合わせ履歴から、解約の兆候がある顧客を早期に特定します。私たちは、異なるソースからのデータを統合し、モデルが学習できる形式に整形します。
サービス部門：
- ケースエスカレーション予測： どの問い合わせケースがエスカレーションされる可能性が高いかを予測し、プロアクティブな対応を可能にします。ケースのテキストデータから特徴量を抽出（Feature Engineering）することも我々の仕事です。
- 初回コール解決率（First Call Resolution）の最大化： 解決率に影響を与える要因（担当者のスキル、問題のカテゴリ、顧客情報など）を特定し、改善策を提案します。
マーケティング部門：
- 顧客生涯価値（Customer Lifetime Value - CLV）の予測： 顧客の購買履歴や行動データに基づき、将来的な価値を予測し、マーケティング投資を最適化します。
- キャンペーンROIの最大化： どのセグメントの顧客がキャンペーンに最もよく反応するかを分析し、ターゲティングの精度を向上させます。

これらのシナリオすべてにおいて、データエンジニアの役割は、単にデータを集めるだけではありません。ビジネス課題を理解し、それを解決するためにどのようなデータが必要か、どのように加工すればモデルの精度が向上するかを設計し、実装することが求められます。

原理説明

Einstein Discoveryのワークフローは、データエンジニアにとって非常に馴染み深い、データの準備からモデルのデプロイ、そして運用までの一連のプロセスで構成されています。このプロセスを理解することは、効果的な予測ソリューションを構築する上で不可欠です。Einstein Discoveryは現在 CRM Analytics (旧称: Tableau CRM, Einstein Analytics) の一部として提供されています。

1. データの準備 (Data Preparation)

すべての分析とモデリングの基礎となる、最も重要なフェーズです。データエンジニアの主戦場と言えるでしょう。「Garbage In, Garbage Out（ゴミを入れれば、ゴミしか出てこない）」の原則がここでも当てはまります。

データソース： Salesforceオブジェクト（標準・カスタム）、外部データソース（CSV、各種データベース、データウェアハウスなど）からデータを集約します。
データ変換： CRM Analytics の レシピ (Recipe) やデータフロー (Dataflow) を使用して、データのクレンジング、変換、結合、集計を行います。レシピは、欠損値の補完、外れ値の処理、項目の正規化、新しい特徴量の作成（例：複数の項目を組み合わせて新しい指標を作るなど）といった複雑なETL (Extract, Transform, Load) 処理を、GUIベースで直感的に実行できる強力なツールです。
データセット (Dataset) の作成： 最終的に、分析用に最適化された非正規化形式のデータセットを作成します。このデータセットが、Einstein Discoveryの分析対象となります。

2. ストーリーの作成 (Story Creation)

ストーリー (Story) はEinstein Discoveryにおける分析の中核です。ビジネス上の目標（例：「商談の成立率を最大化する」）を定義すると、Einstein Discoveryが自動的にデータセットを分析し、その目標に影響を与える要因を明らかにします。

目標 (Goal) の設定： 分析の目的となる変数（Outcome Variable）と、その目標（最大化または最小化）を設定します。
自動分析： Einsteinは、記述的分析（何が起こったか）、診断的分析（なぜそれが起こったか）、予測的分析（何が起こるか）、処方的分析（どうすれば改善できるか）を網羅した包括的なインサイトを生成します。
- 一変量分析 (Univariate Analysis): 各変数が目標にどう影響するかを分析します。
- 二変量分析 (Bivariate Analysis): 変数の組み合わせが目標に与える影響を分析します。
- 多変量分析 (Multivariate Analysis): 複数の変数が相互に作用し合う複雑なパターンを発見します。

このフェーズで生成されたインサイトは、データサイエンティストでなくても理解しやすいように、自然言語とグラフで可視化されます。

3. モデルのデプロイ (Model Deployment)

ストーリーで得られたインサイトがビジネス的に有用であると判断されたら、それを予測モデルとしてデプロイします。デプロイされたモデルは、Salesforceプラットフォーム全体で利用可能になります。

モデルの評価： Einsteinは、モデルの品質を評価するための指標（R二乗値、AUCなど）を自動的に提供します。データエンジニアやアナリストは、これらの指標を見て、モデルが実用に耐えうるか判断します。
モデルマネージャー (Model Manager): デプロイされたモデルはモデルマネージャーで一元管理されます。ここでは、モデルのパフォーマンス監視、バージョニング、再トレーニングのスケジューリングなどが行えます。

4. 予測の利用と統合 (Consumption and Integration)

デプロイされたモデルは、様々な方法でビジネスプロセスに組み込むことができます。

Lightningレコードページ： レコードページにコンポーネントを配置し、個々のレコードに対するリアルタイムの予測スコアや改善提案を表示します。
Flow / Process Builder： 予測スコアをトリガーとして、自動化プロセス（例：スコアが高いリードを自動でシニア営業に割り当てる）を起動します。
Apex： Apexコード内から予測を呼び出し、カスタムロジックに組み込みます。
API経由での利用： Einstein Prediction Service API を使用して、外部システムから予測モデルを呼び出すことも可能です。これにより、Salesforce外のアプリケーションにも予測機能を統合できます。

サンプルコード

データエンジニアとして、予測モデルをプログラムから利用するケースは頻繁に発生します。例えば、一括で大量のデータに対して予測を行ったり、外部システムとの連携で予測値を取得したりする場合です。ここでは、Apexを使用してデプロイ済みのEinstein Discoveryモデルを呼び出す方法を紹介します。このコードは、Salesforceの Connect API を利用します。

ApexからEinstein Discoveryの予測を呼び出す

以下のコードは、指定した商談レコードのリストに対して、デプロイ済みの予測モデル（この例では商談成立予測モデル）を呼び出し、それぞれの予測結果を取得するものです。

// ConnectApiの名前空間を使用
// ConnectApi.EinsteinDiscovery.predict メソッドを利用して予測を取得します。
// まず、予測定義IDと予測したいレコードのリストを準備します。

// 1. 予測定義ID (モデルID) を指定します。
// これはモデルマネージャーから取得できる、デプロイ済みモデルの一意のIDです。
String predictionDefinitionId = '1ORB00000008o1ZOAQ';

// 2. 予測対象のレコードを準備します。
// ここでは2つの商談レコードをSOQLで取得しています。
// 実際のシナリオでは、トリガーの new リストや、バッチ処理の対象レコードリストなどが該当します。
List<Opportunity> opportunities = [
    SELECT Id, Name, Amount, LeadSource, Type 
    FROM Opportunity 
    WHERE IsClosed = false 
    LIMIT 2
];

// 3. ConnectApi.EinsteinDiscovery.predict メソッドに渡すためのレコードリストを作成します。
// メソッドは List<ConnectApi.EinsteinDiscoveryRecord> 型の引数を取ります。
List<ConnectApi.EinsteinDiscoveryRecord> recordsToPredict = new List<ConnectApi.EinsteinDiscoveryRecord>();
for(Opportunity opp : opportunities) {
    // レコードごとに ConnectApi.EinsteinDiscoveryRecord インスタンスを作成
    ConnectApi.EinsteinDiscoveryRecord record = new ConnectApi.EinsteinDiscoveryRecord();

    // レコードの各項目値を columns プロパティに設定します。
    // モデルが学習時に使用した項目をすべて含める必要があります。
    record.columns = new List<ConnectApi.EinsteinDiscoveryColumn>();
    record.columns.add(new ConnectApi.EinsteinDiscoveryColumn('Name', opp.Name));
    record.columns.add(new ConnectApi.EinsteinDiscoveryColumn('Amount', String.valueOf(opp.Amount))); // 数値も文字列として渡す
    record.columns.add(new ConnectApi.EinsteinDiscoveryColumn('LeadSource', opp.LeadSource));
    record.columns.add(new ConnectApi.EinsteinDiscoveryColumn('Type', opp.Type));
    
    recordsToPredict.add(record);
}

// 4. 予測を実行します。
// 第1引数にモデルID、第2引数に予測対象レコードのリストを渡します。
ConnectApi.PredictionResults predictionResults = ConnectApi.EinsteinDiscovery.predict(predictionDefinitionId, recordsToPredict);

// 5. 予測結果を処理します。
// 結果は ConnectApi.Prediction オブジェクトのリストとして返されます。
for (ConnectApi.Prediction prediction : predictionResults.predictions) {
    // 予測の合計値（例：商談成立の確率）
    Double predictedValue = prediction.total;
    System.debug('予測スコア: ' + predictedValue);

    // 予測に最も影響を与えた上位の要因（Top Predictors）
    for (ConnectApi.Predictor predictor : prediction.predictors) {
        System.debug('要因: ' + predictor.columnName + ', 影響: ' + predictor.value);
    }

    // 改善案（Top Improvements）
    if (prediction.prescriptions != null) {
        for (ConnectApi.Prescription prescription : prediction.prescriptions) {
            System.debug('改善案: ' + prescription.columnName + ' を ' + prescription.suggestedValue + ' に変更');
        }
    }
    System.debug('---');
}

⚠️ このコードは `ConnectApi.EinsteinDiscovery` クラスを利用しており、Salesforceの公式ドキュメントに基づいています。APIバージョンによっては利用可能なメソッドやクラス構造が異なる場合があるため、常に最新のドキュメントを参照してください。

注意事項

Einstein Discoveryを導入・運用するにあたり、データエンジニアとして特に注意すべき点がいくつかあります。

権限とアクセス設定

権限セット： ユーザーがEinstein Discoveryの機能を利用するためには、「CRM Analytics Plus 管理者」または「CRM Analytics Plus ユーザー」といった専用の権限セットが必要です。
データアクセス： Einstein Discoveryは、分析を実行するユーザーのデータアクセス権限に基づいて動作します。つまり、ユーザーがアクセスできないレコードや項目は、分析や予測の対象から除外されます。データセットを作成するインテグレーションユーザーの権限設定には特に注意が必要です。

API制限とガバナンス

APIコール数： Einstein Prediction Service APIの呼び出しは、Salesforce組織全体のAPIコール数制限に含まれます。大量のレコードをリアルタイムで予測するような設計を行う場合、API制限に抵触しないか慎重に評価する必要があります。
ペイロードサイズ： 1回のリクエストで送信できるレコード数やデータサイズには上限があります。公式ドキュメントで最新の制限値を確認し、必要に応じてリクエストを分割するなどの処理を実装してください。

データ品質とバイアス

データの偏り（Bias）： 学習データに偏りがあると、モデルもそのバイアスを学習してしまい、不公平な予測を生み出す可能性があります。例えば、特定の性別や地域に関するデータが極端に少ない場合、そのセグメントに対する予測精度が低下する恐れがあります。Einstein Discoveryには、データ内の潜在的なバイアスを検出する機能が組み込まれているため、積極的に活用すべきです。
データ鮮度： ビジネス環境は常に変化します。古いデータで学習したモデルは、現在の状況を正確に予測できない可能性があります。データパイプラインを定期的に実行し、データセットの鮮度を保つことが重要です。

モデルのメンテナンス

モデルの劣化（Model Drift）： 時間の経過とともに、市場環境や顧客の行動パターンが変化し、モデルの予測精度が低下することがあります。これをモデルドリフトと呼びます。
再トレーニング： モデルマネージャーを使用してモデルのパフォーマンスを定期的に監視し、精度が一定のしきい値を下回った場合には、最新のデータでモデルを再トレーニング（Retraining）する運用プロセスを確立することが不可欠です。

まとめとベストプラクティス

Einstein Discoveryは、Salesforceプラットフォームに蓄積されたデータを、単なる記録から未来を予測し、行動を促すための戦略的資産へと昇華させる強力なツールです。データエンジニアとして、私たちはその能力を最大限に引き出すための基盤を構築する重要な役割を担っています。

以下に、Einstein Discoveryプロジェクトを成功に導くためのベストプラクティスをまとめます。

明確なビジネス課題から始める：
「AIを使いたい」という技術的な動機ではなく、「顧客解約率を5%削減したい」といった具体的なビジネス課題からスタートします。これにより、分析のゴールが明確になり、必要なデータの選定やモデルの評価が容易になります。
データ準備に最大限の時間を投じる：
プロジェクト全体の成功の8割はデータ準備で決まると言っても過言ではありません。CRM Analyticsのレシピを駆使して、ノイズを除去し、欠損値を補い、ビジネスに即した新しい特徴量（Feature Engineering）を作成することで、モデルの精度は劇的に向上します。
反復的なアプローチを取る：
最初のモデルが完璧であることは稀です。まずはシンプルなモデルを作成してデプロイし、ビジネスからのフィードバックを得ます。その結果を元に、データセットに新しい項目を追加したり、ストーリーの設定を調整したりして、段階的にモデルを改善していくアプローチが効果的です。
「なぜ」を理解し、説明可能性を重視する：
Einstein Discoveryの強みは、単に予測スコアを出すだけでなく、「なぜその予測になったのか」という根拠をインサイトとして示してくれる点にあります。この説明可能性（Explainability）は、ビジネスユーザーの信頼を獲得し、予測結果に基づいた行動を促す上で非常に重要です。
運用化（Operationalization）を初期段階から計画する：
モデルを構築するだけでなく、その予測結果をどのようにビジネスプロセスに組み込むかを最初から設計します。Apexトリガーで自動化するのか、Lightningページで担当者に提示するのか、APIで外部システムと連携するのか。運用方法によって、求められるパフォーマンスや実装方法が異なります。

Einstein Discoveryを正しく活用することで、データエンジニアは組織のデータ駆動型文化への変革をリードすることができます。データの専門家として、私たちは技術とビジネスの架け橋となり、データから真の価値を引き出す責務を担っているのです。

にゃんこのSalesforce日記

このブログを検索