Misakichi’s ログblog

好きなものを紹介したり備忘録のため

涼宮ハルヒでData Augmentation (Python, librosa)

ディープラーニング機械学習では、データ量が少ないと学習が困難となる。
そこでData Augmentationを行ってデータの水増しを行うと、認識精度が向上することが報告されている。
これについて詳しくは
Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification - IEEE Journals & Magazine
https://ieeexplore.ieee.org/abstract/document/8169983
https://ieeexplore.ieee.org/abstract/document/8635051
などなど。 画像に比べて音声は発展途上である印象

この記事では元音声に対し①ホワイトノイズ②ピッチを変える③音声のスタート位置を変更(時間t軸にずらす)④速度を変えるコードを載せる。
言語はpythonで、音声処理にはlibrosaというパッケージを使っている。numpyなどとの相性も良く非常に使いやすい。

⓪元音声

soundcloud.com

①ホワイトノイズ

gist.github.com
soundcloud.com

②ピッチ変更

gist.github.com
soundcloud.com

③時間軸tについてずらす

gist.github.com
soundcloud.com

④速度を変更

gist.github.com
soundcloud.com

所感

データの前処理としてData Augmentationを行ってどれくらい認識精度が上がるのだろうか?
近いうちに自分でもやってみたい。whitenoiseのfactorなどをrandにして、大量のデータを生み出す感じになると思う。
ただそのまえに論文の先行例をみてみたいところ