SparkやDatabricksで大規模データを処理する際、処理の効率を大きく左右するのが「パーティション数」です。データは複数のパーティションに分割され並列処理されますが、分割数が多すぎるとオーバーヘッドが増え、少なすぎると並列度が下がり処理が遅く ...
今回も以下のように、前回と同じSQLのチューニングを行います。 select l_orderkey, sum(l_extendedprice * (1 - l_discount)) as revenue, o_orderdate, o_shippriority from customer, orders, lineitem where c_mktsegment = 'BUILDING' and c ...