Atsushi2022の日記

データエンジニアリングに関連する記事を投稿してます

2024-03-01から1ヶ月間の記事一覧

BigQueryのFORループでデータセットの全テーブルに対してクエリを投げる

複数のテーブルのレコード件数を表にまとめたいことがたまにある。 そういう時はFORループを使用して、count(*)した結果を一時テーブルに入れて確認したりする。 DECLARE dataset STRING DEFAULT "test_dataset"; CREATE OR REPLACE TEMP TABLE record_count…

BigQuery INFORMATION_SCHEMAのアクセス権限

INFORMATION_SCHEMAのビューを使用して、テーブルやカラムの情報を取得して、テーブル作成などに使用することが多いけれど、INFORMATION_SCHEMAビューにアクセスするのに権限が必要なことは知らなかった。 権限を持っていないと、SELECTしても次のようなエラ…

PythonでのEnum

標準ライブラリにあるEnumクラスにより、Enumを使用することができる。 列挙型は定数を表すために使われるため、Enumのメンバの名前は大文字にすることが推奨される。 次のコードで挙動を確認することができる。詳細については列挙型 HOWTOにわかりやすくま…

管理すべきメタデータ、データ品質テスト

管理すべきメタデータ メタデータはビジネスメタデータ、テクニカルメタデータ、オペレーションメタデータの3種類に分けられる。 具体的には次のようなデータがある。 ビジネスメタデータ テーブルのオーナー テーブルのパーティションに使用されるカラム カ…