Databricks メタデータコレクター

オーストラリア Workflow Data Fabric

Release

australia

ft:locale

ja-JP

ft:publication_title

オーストラリア Workflow Data Fabric

ft:clusterId

crint

bundleId

crint

workflow

Creator

Databricks メタデータコレクター

リリースバージョン: Australia

更新日 2026年03月12日

所要時間：5分

Databricks メタデータコレクターは、外部 Databricks アカウントからのメタデータへの読み取り専用アクセスを提供します。

コレクターは、Databricks Hive メタデータ、Unity Catalog (Delta Lake を含む)、ワークフロー、ノートブックのデータ資産からメタデータを収集します。

カタログ化されたメタデータ

Databricks コレクターは、次の情報をカタログ化します。

表 : 1. 収集されたメタデータ
オブジェクト	カタログ化された情報
列	名前、説明、JDBC タイプ、列タイプ、null 可能、デフォルト値、列サイズ、列インデックス拡張メタデータ:タグ注: 廃止された列と、これらの廃止された列に関連するリネージはカタログ化されません。
テーブル	名前、説明、スキーマ、プライマリキー、外部鍵拡張メタデータ:タグ、所有者、タイプ、作成日、最終変更日、場所、プロバイダー、バージョン、サイズ、ファイル数、パーティション列、プロパティ
モデル	名前、所有者、説明、作成者、作成日、最終変更者、最終変更日、セキュリティ保護の種類、セキュリティ保護タイプ
ビュー	名前、説明、SQL 定義、タグ
スキーマ	名前拡張メタデータ:タグ
データベース	タイプ、名前、サーバー、ポート、環境、JDBC URL 拡張メタデータ:タグ
ノートブック	ノートブック ID、パス、言語タイプ (SQL、Python、Scala、R)
関数	名前、説明、機能タイプ
ジョブ	タイトル、説明、作成者、作成日、ジョブ実行方法、形式、最大同時実行数、開始時の通知、タイムアウト (秒)、成功時の通知、スケジュール、Git ソース、失敗時の通知、タグ、タスクのリスト、クラスターのリスト
クラスター	名前、説明、ノードタイプ ID、ドライバーノードタイプ ID、Spark バージョン、ワーカー数、自動スケール最大ワーカー数、自動スケール最小ワーカー数、AWS 属性、タグ
タスク	タスクキー、タスクのタイプ (ノートブック、dbt、Spark jar、Python スクリプト、Python ホイール、パイプラインタスク、SQL)、タスクタイムアウト、再試行間隔、タスクで使用されるクラスター、最大再試行回数、依存先、ライブラリ、通知 (開始時、成功時、失敗時)、ノートブックファイルパス、ノートブックソース、ノートブックパラメーター、Spark jar メインクラス名、Spark jar パラメーター、Python スクリプトファイルパス、 Python スクリプトパラメーター、Spark 送信パラメーター、パイプライン ID、パイプラインの完全更新、Python ホイールパッケージ名、Python ホイールエントリポイント、Python ホイールパラメーター、SQL ウェアハウス、SQL クエリ ID、SQL ダッシュボード ID、SQL アラート ID、dbt プロジェクトディレクトリ、dbt プロファイルディレクトリ、dbt ウェアハウス、dbt カタログ、dbt スキーマ、dbt コマンド
外部の場所	名前、外部 URL、説明、データソースタイプ、作成日、作成者、所有者
ストレージ認証情報	名前、説明、認証情報、作成日、作成者、所有者
ボリューム	名前、説明、タイプ、所有者、作成者、作成日、最終変更者、最終変更日、メタストア ID
マテリアライズドビュー	名前、SQL 定義、作成日時、最終変更日
メトリクスビュー	名前、説明、YAML 定義、ソーステーブル、ソーステーブルタイプ、フィルター、作成日時、最終変更日

オブジェクト間の関係

収集されたメタデータには、次のデータ資産タイプのカタログページが含まれます。各カタログページには、他の関連するデータ資産タイプとの関係があります。

表 : 2. 収集されたデータ資産ページ間の関係
データ資産ページ	リレーションシップ
テーブル	テーブルに含まれる列
スキーマ	スキーマを含むデータベーススキーマの一部であるテーブル
データベース	データベースに含まれるスキーマ
列	列を含むテーブル
ジョブ	ジョブのタスクによって使用されるクラスタージョブ内に含まれるタスク
クラスター	ジョブに含まれるクラスタークラスターを使用するタスク
タスク	タスクを含むジョブタスクで使用されるクラスタータスクに応じたタスク
ノートブック	ノートブックを含むフォルダーノートブックからのタスク調達データ
フォルダ	フォルダーに含まれるフォルダーフォルダーに含まれるノートブック
外部の場所	ストレージ認証情報を使用データソース (S3 バケット、S3 オブジェクト、Azure コンテナ、または Azure BLOB) に接続します
ストレージ認証情報	外部の場所で使用
モデル	スキーマに登録済みデータ資産 (S3 バケット、S3 オブジェクト) に保存されます
ボリューム	スキーマ内に含まれるデータ資産 (S3 バケット、S3 オブジェクト) に保存されます
マテリアライズドビュー	マテリアライズドビューを含むスキーママテリアライズドビューの一部である列
メトリクスビュー	メトリクスビューを含むスキーマメトリクスビューの一部である列

Databricks のリネージ

次のリネージ情報は、Databricks コレクターによって収集されます。

注:

コレクターは、変数ステートメントを介して定義された SQL ステートメントのリネージをサポートしていません。

表 : 3. オブジェクトリネージの可用性
オブジェクト	利用可能なリネージ
ビュー内の列	コレクターは、Hive メタストアと Unity Catalog の両方のアップストリームビューまたはテーブルで関連する列を識別します。データのソース ORDER BY で行をソートする WHERE/HAVING で行をフィルタリングする GROUP BY を介して行をアグリゲートする注: 廃止された列と、これらの廃止された列に関連するリネージはカタログ化されません。
ノートブック	ノートブックを参照するタスク。(Databricks Unity Catalog が有効になっている場合のみ)。
テーブル	コレクターは、上流と下流のテーブル、およびそれらの外部の場所 (S3 および ADLS Gen2 データ資産) を中間ジョブとともに識別します。コレクターは、Databricks テーブルリネージを S3 オブジェクトに収集します。

サポートされている認証

Databricks コレクターは、個人アクセストークン認証と OAuth サービスプリンシパル認証をサポートしています。