自分がちゃんと人に教えられなかったので、言語化しておくことにする。
モデルを平均二乗誤差で評価することを考えるとき、1つの学習データセットで評価するのは実は危険。。
なぜなら、その学習データセットはノイズが含まれているかもしれないから。
モデルがすごい複雑になればなるほど、学習データを近似する能力は高まる(バイアス小さい)けども、個々の学習データだけに含まれるノイズに過剰に反応してしまう可能性が出てくる。 ⇒その結果、学習データを変えて学習したモデル群の間の出力結果のばらつき(バリアンス)はとても高くなってしまう...!
一方、モデルが単純だと、そもそも学習データを近似出来る能力が低いため、大切なパターン・信号成分を近似することが出来ない。(バイアス大きい) ただし、単純なモデルはノイズにも反応しないため、学習データを変えて学習したモデル群の出力のばらつきは小さくなる(バリアンス小さい)
モデルを複雑にしていくに従って、バイアスは改善されていくが、バリアンスが大きくなっていく。
あちらを立てればこちらが立たず。。
バイアス・バリアンスは、モデルの複雑度に対してトレードオフの関係がある、ということである。