Databricks メタデータコレクター
Databricks メタデータ コレクターは、外部 Databricks アカウントからのメタデータへの読み取り専用アクセスを提供します。
コレクターは、Databricks Hive メタデータ、Unity Catalog (Delta Lake を含む)、ワークフロー、ノートブックのデータ資産からメタデータを収集します。
カタログ化されたメタデータ
Databricks コレクターは、次の情報をカタログ化します。
| オブジェクト | カタログ化された情報 |
|---|---|
| 列 |
名前、説明、JDBC タイプ、列タイプ、null 可能、デフォルト値、列サイズ、列インデックス 拡張メタデータ:タグ 注:
廃止された列と、これらの廃止された列に関連するリネージはカタログ化されません。 |
| テーブル |
名前、説明、スキーマ、プライマリキー、外部鍵 拡張メタデータ:タグ、所有者、タイプ、作成日、最終変更日、場所、プロバイダー、バージョン、サイズ、ファイル数、パーティション列、プロパティ |
| モデル |
名前、所有者、説明、作成者、作成日、最終変更者、最終変更日、セキュリティ保護の種類、セキュリティ保護タイプ |
| ビュー |
名前、説明、SQL 定義、タグ |
| スキーマ |
名前 拡張メタデータ:タグ |
| データベース |
タイプ、名前、サーバー、ポート、環境、JDBC URL 拡張メタデータ:タグ |
| ノートブック |
ノートブック ID、パス、言語タイプ (SQL、Python、Scala、R) |
| 関数 |
名前、説明、機能タイプ |
| ジョブ |
タイトル、説明、作成者、作成日、ジョブ実行方法、形式、最大同時実行数、開始時の通知、タイムアウト (秒)、成功時の通知、スケジュール、Git ソース、失敗時の通知、タグ、タスクのリスト、クラスターのリスト |
| クラスター |
名前、説明、ノードタイプ ID、ドライバーノードタイプ ID、Spark バージョン、ワーカー数、自動スケール最大ワーカー数、自動スケール最小ワーカー数、AWS 属性、タグ |
| タスク |
タスクキー、タスクのタイプ (ノートブック、dbt、Spark jar、Python スクリプト、Python ホイール、パイプラインタスク、SQL)、タスクタイムアウト、再試行間隔、タスクで使用されるクラスター、最大再試行回数、依存先、ライブラリ、通知 (開始時、成功時、失敗時)、ノートブックファイルパス、ノートブックソース、ノートブックパラメーター、Spark jar メインクラス名、Spark jar パラメーター、Python スクリプトファイルパス、 Python スクリプトパラメーター、Spark 送信パラメーター、パイプライン ID、パイプラインの完全更新、Python ホイールパッケージ名、Python ホイールエントリポイント、Python ホイールパラメーター、SQL ウェアハウス、SQL クエリ ID、SQL ダッシュボード ID、SQL アラート ID、dbt プロジェクトディレクトリ、dbt プロファイルディレクトリ、dbt ウェアハウス、dbt カタログ、dbt スキーマ、dbt コマンド |
| 外部の場所 |
名前、外部 URL、説明、データソースタイプ、作成日、作成者、所有者 |
| ストレージ認証情報 |
名前、説明、認証情報、作成日、作成者、所有者 |
| ボリューム |
名前、説明、タイプ、所有者、作成者、作成日、最終変更者、最終変更日、メタストア ID |
| マテリアライズドビュー |
名前、SQL 定義、作成日時、最終変更日 |
| メトリクスビュー |
名前、説明、YAML 定義、ソーステーブル、ソーステーブルタイプ、フィルター、作成日時、最終変更日 |
オブジェクト間の関係
収集されたメタデータには、次のデータ資産タイプのカタログページが含まれます。各カタログページには、他の関連するデータ資産タイプとの関係があります。
| データ資産ページ | リレーションシップ |
|---|---|
| テーブル |
テーブルに含まれる列 |
| スキーマ |
|
| データベース | データベースに含まれるスキーマ |
| 列 | 列を含むテーブル |
| ジョブ |
|
| クラスター |
|
| タスク |
|
| ノートブック |
|
| フォルダ |
|
| 外部の場所 |
|
| ストレージ認証情報 | 外部の場所で使用 |
| モデル |
|
| ボリューム |
|
| マテリアライズドビュー |
|
| メトリクスビュー |
|
Databricks のリネージ
次のリネージ情報は、Databricks コレクターによって収集されます。
| オブジェクト | 利用可能なリネージ |
|---|---|
| ビュー内の列 | コレクターは、Hive メタストアと Unity Catalog の両方のアップストリーム ビューまたはテーブルで関連する列を識別します。
注: 廃止された列と、これらの廃止された列に関連するリネージはカタログ化されません。 |
| ノートブック | ノートブックを参照するタスク。(Databricks Unity Catalog が有効になっている場合のみ)。 |
| テーブル |
|
サポートされている認証
Databricks コレクターは、個人アクセス トークン認証と OAuth サービス プリンシパル認証をサポートしています。