近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。
DeepSWE is changing how AI coding models are tested after exposing benchmark loopholes used by Claude Opus. Here’s why ...
With over 100 million active users and $450 million in annual recurring revenue, Perplexity’s scale and engagement are hard to ignore. We tested everything from deep research to content creation to ...