情報科学と人工知能のノート

初等的な知識から最新論文の解説まで色々集めていきます.備忘録兼用.

標本の要素は確率変数

統計学の基礎に関する本を何冊か読みました。
統計に限った話ではないかもしれませんが、いい本と悪い本の差が激しいです。
今日はいい本を二冊紹介します。

 

まずはこの一冊から 意味がわかる統計解析(涌井貞美 著)

読んだ中で入門書として一番お勧めなのはこの本です。
全体的に良書ですが、特に良かったのは、標本の要素というものは確率変数なのである、ときちんと述べていることです。
元々そう思っている人にとってみればそれ以外なんだというのだと言いたくなるくらい当たり前なのですが、私は今までこれに気づいていませんでしたし、これを明言しない授業や書籍やWEBサイトは結構多いですし、また、統計の授業を受けたことはあるけど気づいていなかったという人もかなり多いのではないかと思います。
標本の要素が確率変数なので、標本平均等の統計量も確率変数を合成して作った確率変数となり、中心極限定理などが適用できるようになり、各種検定や推定が使えるようになり、……と全部繋がっていく最初のステップがこれなのです。
逆に、どの授業でも書籍でもこれが欠けてるから統計学が科学から意味不明な暗記科目に成り下がってしまうわけです。
標本平均が何らかの確率分布に従うことくらいは書いてあることが多いですが、いきなりそう言われても、理由は何故だかはわからず、鵜呑みにするしかありません。
今日現在の Wikipedia の「標本 (統計学)」のページなどにも標本の要素が確率変数であることは書いてありますので、この本が唯一というわけではありませんが、この本は私が上にチラッと書いた流れを順を追って詳細に説明してくれるので、統計に対する理解がとても深まると思います。

 

統計学が最強の学問である(西内啓 著)

最近売れてる有名な本ですね。
通販サイトのレビューを見ると、売れてる本の例に漏れず賛否両論ありますが、僕は割と良い本だと思います。
統計に限らず数学は、数学それ自体が好きなごく少数の人間以外にとっては良くも悪くもただの道具なので、これを使いこなすためには

  • どうやって使うのか
  • なんのために使うのか

の二つを知る必要があります。
ところが、数学の教師というのは数学それ自体が好きな人間である場合が多いので、ご存知の通り、授業でも書籍でも、数学をどうやって使うのかしか教えてくれないんですね。
単になんのために使うのか教えないだけではなく、自分が教えている数学は実はなんのために使うのか全く知らない教師も山ほどいるのではないかと思います。
一方この本では、歴史上統計が活躍した出来事について語りつつ、また著者がこれまでの仕事や研究で培ってきた経験を交えながら、統計学がどういう場面でなんのために使われているのかが詳細に説明されています。
統計とは何か、を知るためにはかなりお勧めです。
ただし、統計の背後にある数式や定理はばっさりカットされているため、反対に統計をどうやって使うのかに関しては入門書にすらなりませんのでご注意ください。


今は、入門 統計学(栗原伸一 著)を読んでいます。
Amazon でかなり高評価なのと内容のカバー範囲が広いことが特徴でしょうか。
統計学を学んだ人の多くが統計に対してとらえがたい印象を持っているのは標本分布の概念を理解できていないためだ」ということを書いている点には上記のことから同意できますが、その割に標本の要素を飛ばしていきなり標本平均の分布が出てきているのがあれなのですが、それ以外は今のところ良い本です。

人工知能と離散と連続と統計

アクセス数の推移からして定期的にこのブログを購読されている方はいらっしゃらないとは思いますが(虚空に向かって)お久しぶりです。
一週間前くらいまでは凄く忙しくて、それから今日まではプレGWとしてだらだらしてました。
記事書くのは82日ぶりだそうです。
はてなブログってしばらくログインしなくても一番上に広告出ないんですかね?

最近、統計学の勉強をしています。
一つの見方として、人工知能分野は機械学習やパターン認識などといった連続のAI研究と論理や推論などといった離散のAI研究に分けることができると思います。
しかし、これまでの各記事のテーマから明らかなように僕の専門は離散のAIで、一方の連続のAIについてこれまで全く勉強してこなかったのでいい加減そろそろやろうかなと。
そこで連続のAIの核である統計学を一からやり直しております。
周りを見ていても極少数の本当に凄い人以外は離散と連続のうち片方しか知らないようなので、両方修めることで凄い人々の仲間入りができればなと淡い期待を抱いています。

タブロー法の謎の木

本日は大学の修論研究発表会でした.

何故タブロー法は変な木を生成するだけで充足可能性判定ができるんだろうかとずっと疑問に思っていたのですが、あの木は(与えられた論理式が充足可能なときは)論理式を充足するあるモデルそのものなんだそうです.様相論理版のタブロー法が生成した木を見てみるとそれがよく分かりました.

Minty 1960 の定理 3.1

Korte と Vygen の「組み合わせ最適化」を読んでいたら、突然以下のような補題が出てきました(以下は第二版 23 ページからの引用).

補題 2.6 (Minty [1960]) G を有向グラフとし,e \in E(G) とする.e は黒で彩色され,残りの各辺は赤,黒あるいは緑のいずれかで彩色されているとする.このとき,以下の (a) あるいは (b) のいずれかが成立し,両方同時に成立することはない.
(a) e を含み,赤と黒の辺だけからなる無向閉路で,黒い辺は全て同一の向きを持つようなものが存在する.
(b) e を含み,緑と黒の辺からなる無向カットで,黒い辺はすべて同一の向きを持つようなものが存在する.

元論文では定理 3.1 に該当するものです.

正しいことは正しいのですが、果たしてこの命題にどれほどの意義があるのか、一見しただけではわかりませんでした.気になって元論文を調べてみたところ、単にその後の定理のために必要というのもありますが、なにやら電気回路中の電流の向きと関係があるようです.

こんなこといちいち調べてるから時間がなくなって忙しいんだなぁと思いました.