Neural Network Console Challenge~Audiostockの音声（BGM）データを解析~　3日目

データセット作成

初めてのデータセット作成ということでかなり苦戦しました。
Neural Network Consoleのデスクトップ版には画像分類データセット作成ツールがありますが、他のデータセットの作成の仕方が分かりませんでした。

f:id:Machine_learning_nursery_rhymes:20200920171031p:plain
＊画像ではフォルダがごとに振り分けしていたら自動でtrain、testを作成してもらえます。メッチャ、便利そうです。今回は使えません。

クラウド版ではデータセットアップロードツールを使用します。このあたりが初見者殺しだと思います。私の脳みそが足りないだけかもしれませんが、
ここからデータセットを作成するところが苦戦しました。

データセットアップロードツールの使い方 – Docs - Neural Network Console

添付したリンクのツールを使い、同一ファルダに音声データ、xに音声データ名、yに種類分けした1～7を記したcsvを格納しアップロードします。その際に、train、valで分けてアップロードしないとダメなようです。データセットをクラウド内で分割とかできないと不便です。今回、再度分割してアップロードする気が失せてしまったので全てで学習させることにします。

音声データ編

f:id:Machine_learning_nursery_rhymes:20200920171915p:plain

今回、初めて音声データを扱うためNNCの使い方の上記ページを参考にします。必要な情報は音声データの時間、サンプリングレート、モノラルかステレオかの3つの情報です。
音声データは24秒とすぐわかりました。サンプリングレートはiTunesで8.000kHzと分かりましたので24×8000＝192000のモノラルということが
分かりました。
↓このあたりを読んで納得しました。
サンプリングレート・サンプリング周波数｜Web会議・テレビ会議システムならLiveOn（ライブオン）