Input Audio (.wav) │ Mel-Spectrogram (128 mel bins × ~1292 frames) │ ┌─────────────────────────────┐ │ CNN Block × 3 │ Conv2d → BatchNorm → ReLU → MaxPool │ Channels: [1→32→64→128] │ Extracts local ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する