ディープラーニングや機械学習では、データ量が少ないと学習が困難となる。
そこでData Augmentationを行ってデータの水増しを行うと、認識精度が向上することが報告されている。
これについて詳しくは
Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification - IEEE Journals & Magazine
https://ieeexplore.ieee.org/abstract/document/8169983
https://ieeexplore.ieee.org/abstract/document/8635051
などなど。 画像に比べて音声は発展途上である印象
この記事では元音声に対し①ホワイトノイズ②ピッチを変える③音声のスタート位置を変更(時間t軸にずらす)④速度を変えるコードを載せる。
言語はpythonで、音声処理にはlibrosaというパッケージを使っている。numpyなどとの相性も良く非常に使いやすい。
⓪元音声
①ホワイトノイズ
②ピッチ変更
③時間軸tについてずらす
④速度を変更
所感
データの前処理としてData Augmentationを行ってどれくらい認識精度が上がるのだろうか?
近いうちに自分でもやってみたい。whitenoiseのfactorなどをrandにして、大量のデータを生み出す感じになると思う。
ただそのまえに論文の先行例をみてみたいところ