Databricksの開発現場では、Notebook単位の実験的なコードが多くなりがちです。 その中で欠かせないのがpytest。これはPythonのテストフレームワークで、複雑なデータ変換ロジックを小さく検証し、誤差や副作用を早期に検出するための強力なツールです。
Databricksでは、Spark DataFrame上でPythonのPandas関数を並列実行できる Pandas UDF(User Defined Function) が強力なツールとして利用されます。 通常のUDFが1行ずつ処理するのに対し、Pandas UDFは 列(Series)単位で高速処理 する点が特徴です。Sparkの分散処理性能を保ち ...
Databricksで新たにワークフローを作成する際には、以下の手順を踏む必要があります。 1. ジョブの作成: Databricksのワークス ...
Databricksは、カルフォルニア州立大学バークレー校において、CEO兼共同設立者のアリ・ゴディシ(Ali Ghodsi)氏をはじめ、データとAIなどを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。
冒頭、ゴディシ氏は企業が直面する課題として、データとAIインフラの複雑さを挙げた。「過去10〜15年間で最も学んだことは、複雑なアーキテクチャが組織の動きを遅らせ、高コストとベンダーロックインを引き起こしていることだ」と指摘。 Databricksは ...
2020年9月11日(日本): 世界で唯一のデータ & AIカンパニーであるDatabricks社(本社:米国カリフォルニア州サンフランシスコ、以下Databricks)は本日、日本市場における本格的なサービス提供のため、日本支社 (データブリックス・ジャパン株式会社)の設立を発表 ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する