モデルの良さを調べなくてよいのか - 情報科学と人工知能のノート

相変わらず統計学を勉強中です。
間違ってたら突っ込んでください。

世の中には統計手法や機械学習に関する入門書・記事が山ほどありますが、ニューラルネットワークやサポートベクトルマシンなどといったそれぞれのモデルに対して、「モデルのパラメータはこのように定めましょう」ということは書いてあっても、「定めたパラメータはどのくらい良いのでしょうか」という疑問には全く答えてくれません*1。
もちろん、たいていの手法では、学習データに対して何らかの利得関数や損失関数（誤差自乗和など）を定め、それを最適化することによってパラメータを得ているため、逆に言えば得られたパラメータは学習データに対しては明らかに最適です*2。
しかし単に今までに得られているデータに対して何らかのモデルが欲しいだけであれば最適でウレシイで済ませて良いのですが、この類いの学習モデルは普通は将来の予測のために使うものです。
ところが、学習データと目的関数のペアに対して最適化して得られたモデルは、将来の予測のためにどれだけ良いものなのかは自明ではないため、なんらかの評価が必要になるわけです。
しかし、あくまでも入門書レベルの話ではありますが、色々な書籍や記事を眺めてみても評価に関する記述が全然ない。
そして何故無いのか全く理解できない。
モデルを採用するかどうかを判定するための基準として絶対に必要だと思うのですが。

ただし。
確率分布同士の遠さを測るものとしてカルバック・ライブラー情報量というものがあるのですが、データを生み出した真の分布とのカルバック・ライブラー情報量を最小化するようなモデルの探索問題は、近似的に、モデルパラメータの最尤推定量を求める問題になる場合があることを示すことができるらしいです（ならない場合も多々あってそれを解決するために AIC などといったものが出てくるらしい。まだよくわかってないです）。
なので最尤推定で得られたモデルを盲目的に採用してよいわけです。
更に、特定の条件下では、最小二乗法の解によって作られたモデルが最尤になったりもしますね。
すなわち、使う場合にはあまり細かいことを考えなくても良い場合があるわけです。
あるわけですが、それならそうとちゃんと書こうよ、と声を大にして言いたい。

ちなみに別の方法として、回帰分析の場合には、誤差やパラメータの検定を行うこともできます。
僕は始め、それぞれの手法のパラメータの検定方法を探していたのですが、そういう解析は無さそうです。
例えばニューラルネットワークとか、実際にはどうやって評価するものなのでしょうね？

*1:テストデータに対する予測性能を計算機実験で見せてくれるものくらいはありますが、果たしてそれだけでよいのか

*2:もちろん大域最適かどうかはケースバイケース