SparkやDatabricksで大規模データを処理する際、処理の効率を大きく左右するのが「パーティション数」です。データは複数のパーティションに分割され並列処理されますが、分割数が多すぎるとオーバーヘッドが増え、少なすぎると並列度が下がり処理が遅く ...
今回も以下のように、前回と同じSQLのチューニングを行います。 select l_orderkey, sum(l_extendedprice * (1 - l_discount)) as revenue, o_orderdate, o_shippriority from customer, orders, lineitem where c_mktsegment = 'BUILDING' and c ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する