Machine_learning_nursery_rhymes’s diary

仕事の種を模索するため、今まで逃げていた統計・データを勉強していく

Neural Network Console Challenge~Audiostockの音声(BGM)データを解析~ 3日目

1日目はこちら
2日目はこちら

データセット作成

初めてのデータセット作成ということでかなり苦戦しました。
Neural Network Consoleのデスクトップ版には画像分類データセット作成ツールがありますが、他のデータセットの作成の仕方が分かりませんでした。

f:id:Machine_learning_nursery_rhymes:20200920171031p:plain
*画像ではフォルダがごとに振り分けしていたら自動でtrain、testを作成してもらえます。メッチャ、便利そうです。今回は使えません。

クラウド版ではデータセットアップロードツールを使用します。このあたりが初見者殺しだと思います。私の脳みそが足りないだけかもしれませんが、
ここからデータセットを作成するところが苦戦しました。

データセットアップロードツールの使い方 – Docs - Neural Network Console

添付したリンクのツールを使い、同一ファルダに音声データ、xに音声データ名、yに種類分けした1~7を記したcsvを格納しアップロードします。その際に、train、valで分けてアップロードしないとダメなようです。データセットクラウド内で分割とかできないと不便です。今回、再度分割してアップロードする気が失せてしまったので全てで学習させることにします。

音声データ編

f:id:Machine_learning_nursery_rhymes:20200920171915p:plain

今回、初めて音声データを扱うためNNCの使い方の上記ページを参考にします。必要な情報は音声データの時間、サンプリングレート、モノラルかステレオかの3つの情報です。
音声データは24秒とすぐわかりました。サンプリングレートはiTunesで8.000kHzと分かりましたので24×8000=192000のモノラルということが
分かりました。
↓このあたりを読んで納得しました。
サンプリングレート・サンプリング周波数|Web会議・テレビ会議システムならLiveOn(ライブオン)

学習推論編

f:id:Machine_learning_nursery_rhymes:20200920172703p:plain

まずはサンプル構成でトライしてみました。cpuで10エポック回してみます。







30分で1/10エポックの50%しか学習が進まない。一旦やめて、gpuを申請することにします。