Machine_learning_nursery_rhymes’s diary

仕事の種を模索するため、今まで逃げていた統計・データを勉強していく

Neural Network Console Challenge~Audiostockの音声(BGM)データを解析~ 6日目

1日目はこちら
2日目はこちら
3日目はこちら
4日目はこちら
5日目はこちら

データセットの見直し

改めて、ドキュメントのデータセットを見直しました。
①データセットCSV ファイルは、ヘッダを表す 1 行目と、データを表す 2 行目以降で構成されます。
②通常入力データには x、出力データには y を割り当てます。入出力が複数ある場合はそれぞれ x1、x2…、y1、y2…のように、x、y の後に数字を付加して区
別します。
③次元インデックスは、ベクトルの形をした変数である場合に、CSV の各列がベクトルの何次元目であるかを示します。次元インデックスは、変数名に続けて__(ダブルアンダースコア)と数字で表します。インデックスは 0 から始まり、例えば 10 次元のベクトルであれば 0~9 の値を取ります。

音声データの扱い

変数が波形データである場合は、各セルに波形データのファイル名を入力します。ファイル名には絶対パス、もしくはデータセット CSV ファイルからの相対パスを利用することができます。現在 Neural Network Console は拡張子が.wav であり、非圧縮(PCM)フォーマット、かつ 8bit もしくは 16bit の波形ファイルに対応しています。コアライブラリ内部において波形は各次元の要素数が(時間長,チャンネル数)である行列として扱われます。Neural Network Console において波形の振幅は、8bit 波形の場合は 1/128 倍、16bit 波形の場合は 1/32768 倍し、-1.0~1.0 の値として扱われます。
support.dl.sony.com

圧倒的にドキュメントが少ない感じがします。

ラベルを振りなおして再学習

f:id:Machine_learning_nursery_rhymes:20200925205507p:plain
f:id:Machine_learning_nursery_rhymes:20200925205513p:plain

yのラベルを0から振りなおして再学習すると、いつもの見慣れた混同行列になります。5日目で実行した1,2から0,1にしたんですがこのあたり、上記ドキュメントにも載っていないのでイマイチ分からない。混同行列で正解率が0.5を切っているので間違っている方が多いいことに。この方法はダメそうなので、新しいアノテーション方法を考えるか。

新しいラベル付け

Python, Janomeで日本語の形態素解析を使用してタグの頻度を算出してみました。テクノ、クラシックとか曲のジャンルで分けるか、ピアノ、シンセサイザー、ギターとか楽器で分けるのかどうしよう。何で分けても面白くはないな~

'ポップ': 3556, 'ジングル': 1480, '軽快': 1244, '映像': 1138, 'ロック': 1035, '楽しい': 960, 'CM': 925, '都会': 890, '的': 852, 'ゲーム': 847, 'フュージョン': 816, 'ギター': 814, '感': 788, 'バラード': 783, 'イベント': 755, 'さわやか': 744, '元気': 740, '明るい': 739, 'ピアノ': 726, 'シンセサイザー': 716, '情報': 715, 'ゆったり': 662, '優しい': 655, 'ドキュメント': 639, 'さ': 625, 'わくわく': 624, '映画': 619, '淡々': 605, 'ほのぼの': 595, 'テクノ': 582, '穏やか': 573, '希望': 553, 'ポップス': 549, 'おしゃれ': 549, 'ドラマ': 539, '爽やか': 536, '夜': 533, '哀愁': 530, 'クラシック': 526, 'アニメ': 519, '充実': 518, '店舗': 502, 'コミカル': 495, 'いきいき': 481, '環境': 465, 'ワールド': 460, '自然': 457, '思い出': 442, '上品': 440, '切ない': 439, 'エレキ': 439, '前進': 435, 'しっとり': 435, '感動': 433, '店内': 431, 'オープニング': 429, '挑戦': 429, 'リゾート': 407,
*一部抜粋


マンガでわかる! 音楽理論