Databricks メタデータ コレクターを作成する
Databricks からメタデータをインポートするコレクターを作成します。
始める前に
開始する前に、以下を確認してください。
- コレクター用の MID サーバーがセットアップされます。詳細については、「メタデータコレクター用の MID サーバー」を参照してください。
- 要件ごとのタスクがすべて完了しました。詳細については、「Databricks コレクターの実行を準備する」を参照してください。
- 必要なロール:connection-admin
手順
- 移動先 すべて > ワークフローデータファブリック > Workflow Data Fabric ホーム.
-
左側のサイドバーで [コネクトハブ]
を選択します。
- 選択 作成 > メタデータコレクター.
- [システム] リストから [ Databricks] を選択します。
-
フォームで、フィールドに入力します。
表 : 1. 新しい Databricks メタデータコレクターフォーム フィールド 説明 接続名 接続の一意の識別子。接続が確立されると、このフィールドは変更できません。 簡単な説明 接続の目的と詳細。 -
Databricks 構成の詳細を入力します。
表 : 2. 構成詳細 フィールド 説明 サーバー 接続するデータベースサーバーのホスト名。 -
[ すべてのスキーマを収集 ] と [収集するスキーマを指定する] のいずれかを選択して、スキーマ収集オプションを構成します。
表 : 3. スキーマ収集オプション フィールド 説明 すべてのスキーマを収集 すべてのスキーマを収集 ユーザーがアクセスできるすべてのスキーマをカタログ化します。 スキーマを除外 除外するデータベーススキーマの名前または正規表現。 情報スキーマを含める データベースの情報スキーマをカタログコレクションに含めます。 収集するスキーマを指定 収集するスキーマを指定 指定されたスキーマのみをカタログ化します。 スキーマ カタログするデータベーススキーマの名前。 -
Databricks 構成の詳細を入力します。
表 : 4. 構成詳細 フィールド 説明 サーバーポート データベースサーバーのポート (デフォルトでない場合)。 データベース 接続するデータベースの名前。1 行に 1 つの値を追加して、複数のデータベースを指定します。 Databricks HTTP パス Databricks コンピューティングリソースの URL。詳細については 、Databricks のドキュメント を参照してください。 除外データベース [データベース] フィールドが空の場合に除外するデータベースの名前または正規表現。 注:[データベース] フィールドが指定されている場合、このパラメーターは無視されます。 -
サーバーの詳細と認証オプションを構成します。
表 : 5. サーバーと認証の詳細 フィールド 説明 サーバーの詳細 接続するデータベースサーバーのホスト名。 認証オプション 個人アクセストークンを使用した認証 Databricks 個人用アクセストークンを使用して認証するオプション。詳細については、 Databricks のドキュメントを参照してください。 Databricks サービスプリンシパルを使用した認証 Databricks サービスプリンシパルクライアント ID と Databricks サービスプリンシパルクライアントシークレットを使用して認証するオプション。 -
統計情報とサンプリングオプションを設定します。
表 : 6. 統計情報とサンプリングオプション フィールド 説明 列統計情報の収集を有効にする 列統計情報の収集 (データプロファイリング) を有効にします。 注:プロファイリングを有効にすると、コレクターがプロファイリングメタデータを生成するためにテーブルデータを読み取る必要があるため、コレクターの実行時間が長くなる可能性があります。列統計のターゲットサンプルサイズ 列の統計情報と文字列値ヒストグラムの計算のためにサンプリングされた行数。たとえば、1000 行をサンプリングするには、パラメーターを 1000 に設定します。 デフォルト:100000
リネージ収集を無効にする データベース内リネージメタデータの収集をスキップします。 拡張メタデータ収集を無効にする データベース、スキーマ、テーブル、列関数、ストアドプロシージャ、ユーザー定義型、同義語などのデータ資産タイプの拡張メタデータの収集をスキップします。これらのデータ資産タイプの基本メタデータは引き続き収集されます。 -
収集スコープと制限オプションを構成します。
表 : 7. 収集スコープと制限オプション フィールド 説明 収集ワークフローの無効化 Databricks ワークフローとそのリネージメタデータの収集をスキップします。 他のスキーマからリネージを収集 他のスキーマからリネージを収集します。 サンプル文字列値の収集を有効にする 文字列値列のサンプル値のサンプリングと保存を有効にします。 システム機能を除外 組み込みの Databricks システム関数の収集を除外します。 ノートブックコンテンツの収集を無効にする ノートブックコンテンツの収集をスキップします。 クエリを収集するためのページサイズ 収集するクエリのページサイズを指定します。 デフォルト:1000
Databricks API 応答のページサイズ Databricks API 応答のページサイズを指定します。 デフォルト:100
メトリクスビューの収集を有効にする メトリクスビューの収集を有効にします。メトリクスビュー情報は、テーブルの拡張メタデータから抽出され、拡張メタデータ収集が有効になっている場合にのみ使用できます。 -
接続と信頼性のオプションを構成します。
表 : 8. 接続と信頼性のオプション フィールド 説明 サーバー環境 サーバ名が localhost の場合に、データベースサーバが実行される環境の分かりやすい名前。他の環境との差別化に役立ちます。 データベース ID このデータベースの一意の識別子。データベース名が十分に一意でない場合にデータベース ID を生成するために使用されます。 JDBC プロパティ ドライバー接続に渡す JDBC ドライバープロパティ。 最大再試行回数 失敗した API 呼び出しを再試行する回数。 デフォルト:5
再試行の遅延 API 呼び出しの試行失敗を待機する秒数。 デフォルト:2 秒
モデル収集を無効にする 機械学習モデルの収集をスキップします。 Databricks アカウント ID Unity カタログにアクセスするための Databricks アカウント ID。 外部ワークスペース URL ワークスペース間アクセス用の外部ワークスペース URL。 SQL 解析タイムアウト リネージ収集中の SQL 解析のタイムアウト (秒)。 デフォルト:60
- [Save (保存)] を選択します。
タスクの結果
メタデータコレクターが作成され、[コネクタ] ページに [構成済み] ステータスで表示されます。これで、ソースシステムに接続してメタデータを収集する準備ができました。
次のタスク
コレクターを作成した後、次のいずれかのタスクを実行できます。
- コレクターを手動で実行して、メタデータをすぐに収集します。「メタデータコレクターを手動で実行する」を参照してください。
- 定期的なコレクターの実行をスケジュールすることで、メタデータ収集を自動化します。「メタデータコレクターの実行をスケジュール」を参照してください。
- ランタイムログを表示して、実行ステータスを監視し、問題のトラブルシューティングを行います。「コレクター実行のランタイムログの表示」を参照してください。
- データカタログで収集されたデータ資産を検出して評価します。「データカタログの管理」を参照してください。