Neural Network Console Challenge~Audiostockの音声(BGM)データを解析~ 3日目
データセット作成
初めてのデータセット作成ということでかなり苦戦しました。
Neural Network Consoleのデスクトップ版には画像分類データセット作成ツールがありますが、他のデータセットの作成の仕方が分かりませんでした。
*画像ではフォルダがごとに振り分けしていたら自動でtrain、testを作成してもらえます。メッチャ、便利そうです。今回は使えません。
クラウド版ではデータセットアップロードツールを使用します。このあたりが初見者殺しだと思います。私の脳みそが足りないだけかもしれませんが、
ここからデータセットを作成するところが苦戦しました。
データセットアップロードツールの使い方 – Docs - Neural Network Console
添付したリンクのツールを使い、同一ファルダに音声データ、xに音声データ名、yに種類分けした1~7を記したcsvを格納しアップロードします。その際に、train、valで分けてアップロードしないとダメなようです。データセットをクラウド内で分割とかできないと不便です。今回、再度分割してアップロードする気が失せてしまったので全てで学習させることにします。
音声データ編
今回、初めて音声データを扱うためNNCの使い方の上記ページを参考にします。必要な情報は音声データの時間、サンプリングレート、モノラルかステレオかの3つの情報です。
音声データは24秒とすぐわかりました。サンプリングレートはiTunesで8.000kHzと分かりましたので24×8000=192000のモノラルということが
分かりました。
↓このあたりを読んで納得しました。
サンプリングレート・サンプリング周波数|Web会議・テレビ会議システムならLiveOn(ライブオン)
学習推論編
まずはサンプル構成でトライしてみました。cpuで10エポック回してみます。
・
・
・
・
・
・
30分で1/10エポックの50%しか学習が進まない。一旦やめて、gpuを申請することにします。