EmbulkでMySQLからBigQueryへデータを転送するときの注意点

Embulk を使って MySQL から BigQuery へデータを転送するときにはまった部分を忘れないように記録として残しておく

github.com

DBの設定などで一度に大量のデータを取得することが難しい場合などに fetch_rows で1度に処理するデータ量を調整することが必要になることがありそうです。

in:
  type: mysql
  fetch_rows: 1000

改行が含まれるデータを BigQuery へ転送する場合は allow_quoted_newlines: 1 が必要になります。

out:
  type: bigquery
  allow_quoted_newlines: 1

参考

embulkでBigqueryにテキストデータ流し込めなかった話 - 無気力生活 (ノ ´ω`)ノ ~゜

TB越えのMySQL 巨大テーブルを 1日で BigQueryへLOADする - Mercari Engineering Blog