電通デジタルでバックエンド開発をしている松田です。弊社ではデータパイプラインの構築や管理のために主にApache Airflowを利用しています[1, 2]。 本記事では、AirflowのOperatorを使ってタスク実行環境を分離する方法についてご紹介します。 タスク実行環境を ...
外部からデータを収集しHadoopクラスタのHDFSへインポートするETLツールとしてAirflowを選択した。今回はAirflowの最小構成であるスタンドアロンでのセットアップとKerberos認証のかかったHDFSへの接続のための認証設定を行った。(認証自体の動作確認はまだして ...