BigQueryのワイルドカードテーブルで「スキーマ推論」によりNULLが発生するメカニズム

ウォンテッドリーでデータサイエンティストをしている右手です。

BigQueryにおいて、ログデータを log_20250101 のような日付別テーブル（シャーディング）で管理するケースは多く見られます。こうしたテーブル群を扱う際に必須となるのが「ワイルドカードテーブル」と「擬似列」です。

本記事では、これらの基本的な機能をおさらいしつつ、その仕様の裏側にある「スキーマ推論」の挙動と、実務で発生しやすいトラブルについて解説します。

CREATE TABLE tmp.log_20250101 (
  id STRING,
  column_a STRING
);

CREATE TABLE tmp.log_20250101_b (
  id STRING,
  column_b STRING
);

INSERT INTO tmp.log_20250101 (id, column_a)
VALUES
  ('100', 'val_a_100'),
  ('200', 'val_a_200'),
  ('300', 'val_a_300');

INSERT INTO tmp.log_20250101_b (id, column_b)
VALUES
  ('100', 'val_b_100'),
  ('200', 'val_b_200'),
  ('400', 'val_b_400');

この状態で、log_20250101のみを取得する様にクエリを記述します。

select
  *
from
  `tmp.log_*`
where
  _table_suffix = "20250101"

一見、このクエリでは log_20250101 のデータ（カラムA）を取得できると思われます。しかし、実際にはカラムAではなくカラムBが出力され、すべてNULLになっています。

id,  column_b
100, null
200, null
300, null

これはなぜでしょうか？

原因：BigQueryのクエリ処理順序

この挙動は、BigQueryがクエリを解釈する順序に起因します。

スキーマ推論（Schema Inference）
まず、log_* にマッチする全テーブルを確認し、クエリ全体で使用するスキーマを決定します。この際、「最も作成日時が新しいテーブル」のスキーマが採用されます。（上記の例では、最新の _b テーブルのスキーマ）
フィルタリング
その後に、WHERE _table_suffix = ... の絞り込みが適用されます。

結果として、正規テーブルを読み込んでいるにも関わらず、適用されるスキーマがイレギュラーなもの（カラム B のみ）となり、実データとの不一致部分が NULL で埋められてしまいます。 「フィルタリングする前にスキーマが決まってしまう」という点が非常に重要です。

なお、この仕様は、公式ドキュメントにも記載されています

解決策とベストプラクティス

この問題を回避するための推奨策は以下の通りです。

パーティション分割テーブルへの移行
日付ごとにテーブルを分割する運用（シャーディング）は、現在では推奨されません。単一テーブル内でのパーティション管理に移行することで、スキーマが統一され、本質的な解決となります。
命名規則の変更（プレフィックスを変える）
テストデータや再処理データを作成する場合、サフィックス（末尾）ではなくプレフィックス（先頭）を変更します。

NG: log_20250101_retry （log_* に巻き込まれる）
OK: retry_log_20250101 （log_* の対象外）

ワイルドカードテーブルを利用する際は、暗黙的なスキーマ推論の仕様を考慮した設計が必要です。