Atsushi2022の日記

データエンジニアリングに関連する記事を投稿してます

管理すべきメタデータ、データ品質テスト

管理すべきメタデータ

メタデータはビジネスメタデータ、テクニカルメタデータ、オペレーションメタデータの3種類に分けられる。

具体的には次のようなデータがある。

  • ビジネスメタデータ

    • テーブルのオーナー
    • テーブルのパーティションに使用されるカラム
    • カラムのデータ型
    • カラムのデータに重複を含むか(IDが重複しているか)
  • テクニカルメタデータ

    • データの抽出条件
    • 元となったテーブルやファイル
    • テーブルのロケーション
    • テーブルの更新予定時間
  • オペレーショナルメタデータ

    • テーブルのステータス
      • テーブルの生成処理が正常に完了しているか
    • テーブルの更新日時
    • メタデータの更新日時

データ品質のテスト

  • ゼロコントロール
    • 全社の売上合計から各事業部の売上合計を引いたものが0になる
  • 割合コントロール
    • 各事業部の売上比率が一定の割合以内に収まっているか
      • 例:A事業部の月間売上金額は、前年比の95%~105%の範囲に収まっているか
  • レンジチェック
    • 事業部の売上金額が一定の数値範囲内に収まっているか
      • 例:A事業部の四半期の売上金額は、15億~17億

参考

エンジニアのためのデータ分析基盤入門