Databricks メタデータコレクター

  • リリースバージョン: Australia
  • 更新日 2026年03月12日
  • 所要時間:5分
  • Databricks メタデータ コレクターは、外部 Databricks アカウントからのメタデータへの読み取り専用アクセスを提供します。

    コレクターは、Databricks Hive メタデータ、Unity Catalog (Delta Lake を含む)、ワークフロー、ノートブックのデータ資産からメタデータを収集します。

    カタログ化されたメタデータ

    Databricks コレクターは、次の情報をカタログ化します。

    表 : 1. 収集されたメタデータ
    オブジェクト カタログ化された情報

    名前、説明、JDBC タイプ、列タイプ、null 可能、デフォルト値、列サイズ、列インデックス

    拡張メタデータ:タグ

    注:
    廃止された列と、これらの廃止された列に関連するリネージはカタログ化されません。
    テーブル

    名前、説明、スキーマ、プライマリキー、外部鍵

    拡張メタデータ:タグ、所有者、タイプ、作成日、最終変更日、場所、プロバイダー、バージョン、サイズ、ファイル数、パーティション列、プロパティ

    モデル

    名前、所有者、説明、作成者、作成日、最終変更者、最終変更日、セキュリティ保護の種類、セキュリティ保護タイプ

    ビュー

    名前、説明、SQL 定義、タグ

    スキーマ

    名前

    拡張メタデータ:タグ

    データベース

    タイプ、名前、サーバー、ポート、環境、JDBC URL

    拡張メタデータ:タグ

    ノートブック

    ノートブック ID、パス、言語タイプ (SQL、Python、Scala、R)

    関数

    名前、説明、機能タイプ

    ジョブ

    タイトル、説明、作成者、作成日、ジョブ実行方法、形式、最大同時実行数、開始時の通知、タイムアウト (秒)、成功時の通知、スケジュール、Git ソース、失敗時の通知、タグ、タスクのリスト、クラスターのリスト

    クラスター

    名前、説明、ノードタイプ ID、ドライバーノードタイプ ID、Spark バージョン、ワーカー数、自動スケール最大ワーカー数、自動スケール最小ワーカー数、AWS 属性、タグ

    タスク

    タスクキー、タスクのタイプ (ノートブック、dbt、Spark jar、Python スクリプト、Python ホイール、パイプラインタスク、SQL)、タスクタイムアウト、再試行間隔、タスクで使用されるクラスター、最大再試行回数、依存先、ライブラリ、通知 (開始時、成功時、失敗時)、ノートブックファイルパス、ノートブックソース、ノートブックパラメーター、Spark jar メインクラス名、Spark jar パラメーター、Python スクリプトファイルパス、 Python スクリプトパラメーター、Spark 送信パラメーター、パイプライン ID、パイプラインの完全更新、Python ホイールパッケージ名、Python ホイールエントリポイント、Python ホイールパラメーター、SQL ウェアハウス、SQL クエリ ID、SQL ダッシュボード ID、SQL アラート ID、dbt プロジェクトディレクトリ、dbt プロファイルディレクトリ、dbt ウェアハウス、dbt カタログ、dbt スキーマ、dbt コマンド

    外部の場所

    名前、外部 URL、説明、データソースタイプ、作成日、作成者、所有者

    ストレージ認証情報

    名前、説明、認証情報、作成日、作成者、所有者

    ボリューム

    名前、説明、タイプ、所有者、作成者、作成日、最終変更者、最終変更日、メタストア ID

    マテリアライズドビュー

    名前、SQL 定義、作成日時、最終変更日

    メトリクスビュー

    名前、説明、YAML 定義、ソーステーブル、ソーステーブルタイプ、フィルター、作成日時、最終変更日

    オブジェクト間の関係

    収集されたメタデータには、次のデータ資産タイプのカタログページが含まれます。各カタログページには、他の関連するデータ資産タイプとの関係があります。

    表 : 2. 収集されたデータ資産ページ間の関係
    データ資産ページ リレーションシップ
    テーブル

    テーブルに含まれる列

    スキーマ
    • スキーマを含むデータベース
    • スキーマの一部であるテーブル
    データベース データベースに含まれるスキーマ
    列を含むテーブル
    ジョブ
    • ジョブのタスクによって使用されるクラスター
    • ジョブ内に含まれるタスク
    クラスター
    • ジョブに含まれるクラスター
    • クラスターを使用するタスク
    タスク
    • タスクを含むジョブ
    • タスクで使用されるクラスター
    • タスクに応じたタスク
    ノートブック
    • ノートブックを含むフォルダー
    • ノートブックからのタスク調達データ
    フォルダ
    • フォルダーに含まれるフォルダー
    • フォルダーに含まれるノートブック
    外部の場所
    • ストレージ認証情報を使用
    • データソース (S3 バケット、S3 オブジェクト、Azure コンテナ、または Azure BLOB) に接続します
    ストレージ認証情報 外部の場所で使用
    モデル
    • スキーマに登録済み
    • データ資産 (S3 バケット、S3 オブジェクト) に保存されます
    ボリューム
    • スキーマ内に含まれる
    • データ資産 (S3 バケット、S3 オブジェクト) に保存されます
    マテリアライズドビュー
    • マテリアライズドビューを含むスキーマ
    • マテリアライズドビューの一部である列
    メトリクスビュー
    • メトリクスビューを含むスキーマ
    • メトリクスビューの一部である列

    Databricks のリネージ

    次のリネージ情報は、Databricks コレクターによって収集されます。

    注:
    コレクターは、変数ステートメントを介して定義された SQL ステートメントのリネージをサポートしていません。
    表 : 3. オブジェクトリネージの可用性
    オブジェクト 利用可能なリネージ
    ビュー内の列 コレクターは、Hive メタストアと Unity Catalog の両方のアップストリーム ビューまたはテーブルで関連する列を識別します。
    • データのソース
    • ORDER BY で行をソートする
    • WHERE/HAVING で行をフィルタリングする
    • GROUP BY を介して行をアグリゲートする
    注:
    廃止された列と、これらの廃止された列に関連するリネージはカタログ化されません。
    ノートブック ノートブックを参照するタスク。(Databricks Unity Catalog が有効になっている場合のみ)。
    テーブル
    • コレクターは、上流と下流のテーブル、およびそれらの外部の場所 (S3 および ADLS Gen2 データ資産) を中間ジョブとともに識別します。
    • コレクターは、Databricks テーブルリネージを S3 オブジェクトに収集します。

    サポートされている認証

    Databricks コレクターは、個人アクセス トークン認証と OAuth サービス プリンシパル認証をサポートしています。