最初のステップは、近似モデルの情報源であるデータセットの準備です。
データセットは以下で構成されています。
この例では、変数(列)の数は6、インスタンス(行)の数は1503となっています。
変数は以下の6つです。
入力
- 周波数[Hz]
- 迎角[deg]
- 翼弦長[m]
- 自由流速度[m/s]
- 吸引側変位厚さ[m]
ターゲット
このデータセットをランダムに分割して、それぞれ60%、20%、20%のインスタンスを含む、訓練、検証、テストのサブセットを作成します。
具体的には、訓練用に753個、検証用に375個、テスト用に375個のインスタンスを使用しています。
すべてのデータセットの設定が完了したら、データの品質を確認するためにいくつかの分析を行います。
例えば、データの分布を計算することができます。次の図は、対象となる変数のヒストグラムを示しています。
上図のように、音圧レベルは正規分布に従っています。
次の図は、入力とターゲットの相関関係を表しています。
これにより、入力が音圧レベルに与える影響を確認することができます。
見ての通り、"frequency: 周波数"が音圧レベルに最も大きな影響を与えています。
また、音圧レベルと周波数を比較した散布図を描くこともできます。
一般的に、周波数が高いほど音圧レベルは小さくなります。
ただし、音圧レベルは全ての入力に同時に依存します。