Machine_learning_nursery_rhymes’s diary

仕事の種を模索するため、今まで逃げていた統計・データを勉強していく

音声検知モデル学習にあたっての備忘録メモ

import librosa

load関数は音声データ(1次元のNumPy浮動小数点配列)とサンプリングレートという2つの値を返します。サンプリングレートはオーディオの秒当たりのサンプルの数です。デフォルトでは、すべてのオーディオはモノラルにミキシングされ、ロード時に22050Hzにリサンプリングされます。
Tutorial — librosa 0.8.0 documentation

秒数 = データ数/サンプリングレート

描写の仕方

import matplotlib.pyplot as plt
y, sr = librosa.load('ファイル')
plt.plot(y)
plt.show()

音声の特徴

音声データの振幅は正の値と負の値をとり、平均値を計算すると0なる。音声データでは、振幅を2乗した値の平均値の平方根を平均振幅とする。

librosa.zero_crossings(y、threshold = 1e-10、ref_magnitude = None、pad = True、zero_pos = True、axis = -1)

librosa.zero_crossings — librosa 0.8.0 documentation
yが多次元の場合、指定されaxisに沿ってゼロクロス数(正負の交差点)が計算される。

下記の本を読んでみたいけど、高い。NO MONEY

検索用キーワード

パワースペクトル
音のグラフの縦軸を「音圧レベル」に、横軸を「周波数」に取り直すことをさします。
パワースペクトル - 「音」とはそもそも何だろうか!? - Cute.Guides at 九州大学 Kyushu University

・メルスペクトログラム
librosa.feature.melspectrogram(X)

・メルスペクトログラムからデシベル(dB)
librosa.amplitude_to_db(X)


異常検知と変化検知 (機械学習プロフェッショナルシリーズ)