知識、情報、そして文脈(3)

3選択と確率・統計
 情報は知識と違って科学的な探求、そして日常生活に不可欠な概念ということになっている。情報は知識より使い勝手がよい概念と思われ、20世紀中葉には様々な場面で使われ、寵児となった。一般的に情報概念が優れているのは、「情報量」という量的な尺度概念が定義でき、コミュニケーションについて客観的に、そして何より工学的に取り扱うことができるという点にあると考えられてきた。
 情報といえば確率・統計がいつも纏わりついていて、二つは切り離すことができない。確率や統計という概念は最初社会科学で使われ出したが、マクスウエルやボルツマンによって気体分子の運動を記述するのに応用され、統計熱力学という新しい分野を生み出した。確率論は後に測度論として数学化される。熱力学の中核にあるのがエントロピー概念で、これによって熱力学のエッセンスが表現されてきた。そして、その概念が確率的に定義されることによって統計力学が誕生する。ボルツマンのエントロピーの定義がそのまま情報に関しても使われ、シャノンの「平均情報量」という概念が生まれることになる。
 その辺の詳しい話は情報科学の教科書に任せることにしても、情報概念と密接に結びついた確率概念に言及しない訳にはいかない。そのためには、確率論の仕組みから考えなければならない。
 確率についての数学的な定義をまとめると次のようになる。まず、命題や集合を考えよう。論理の規則や集合の演算に関して閉じた命題や集合の集まりに測度P( )を定義できる。この関数は命題や集合を実数に写像する。そして、任意の命題や集合ABに対して、次の条件を満たすときP( )は確率測度と呼ばれる。

0≦P(A)≦1
もしAが真の命題か全体集合なら、P(A) = 1
もしABが両立不可能(排反的)なら、P(A or B) = P(A) + P(B)

これらがコルモゴロフ(Andrey N. Kolmogorov, 1903-1987)の確率の公理系である。実に簡単な公理系。確率は通常特定の背景知識をもとにして、確率モデルを組んでその中で確率測度を与える仕方で使われる。例えば、サイコロ振りを考えてみよう。私たちはサイコロが1から6までの数字の目をもつ立方体であることを知っている。さらに、サイコロが公平であるとすると、通常考えられるモデルは「1の目が出る」、「2の目が出る」、...、「6の目が出る」の各命題に対して1/6の確率測度を与える。さらに、この測度はP(「1の目が出るか3の目が出るかである」) = P(「1の目が出る」) + P(「3の目が出る」)を満たしている。これがサイコロ振りの確率モデルである。
 この数学的な確率概念の特徴は確率を尺度、物差しとして考えるところにある。この他にも確率の定義はあるが、上のような形式的な定義と並んで、そのような形式的な定義をもつ確率とはそもそも何かという解釈の問題が議論されてきた。それらのうちから主要なものを考えてみよう。
 命題や集合は出来事を表現しており、その出来事の集団における「実際の頻度(actual frequency)」が確率の解釈の一つである。コインを100回投げ、そのうち実際に39回表が出たとする。この出来事をHという命題で表せば、P(H)は100回のコイン投げでの実際の頻度と解釈できる。この解釈は上の公理をすべて満たしている。実際の頻度を使った解釈は客観的な解釈であり、ある出来事が集団内でどの程度の頻度で実際に生じたかによって確率を解釈している。
 主観的(subjective)に確率を解釈することもできる。私たちは与えられた命題が真であることにどのくらい信頼性を置くべきかについて語ることができる。この概念は心理的であるだけではなく、規範的でもある。それは私たちの信念の度合が何であるべきかを述べているからである。そして、この信念の度合はやはり上の公理を満たしている。
 三番目の解釈は出来事の確率はその仮説的な相対頻度であるというものである。公平なコインはそれが有限回投げられたとき、正確に同じ回数で裏と表が出なくてもよい。しかし、何度も投げていけば最終的には0.5に収束する。xの確率値はxに等しい実際の頻度を帰結する必要はないが、無限に続く仮説的なコイン投げでの頻度はxの値に収束することを帰結する。実際の頻度も信念の度合の解釈も、いずれも確率を何か別のものを使って解釈するものであるが、この三番目の解釈はそうではない。この解釈は実は循環しているのである。
その理由を知るために、無限の回数の公平なコイン投げが0.5の相対頻度に収束しないとしてみよう。そこで何か特定の系列を思い浮かべてみる。HTHTHT.....という交互に表裏が出る系列の場合、コイン投げの回数が増えれば、そのような系列の出る確率は0に近づいていく。無限の回数の試行では、どのような特定の系列もそれが達成される確率は0になる。しかし、どれか特定の系列が実際に起こる。したがって、確率0と「決して起こらない、不可能」を同じとみなすことはできない。同じように、確率1を「必ず起こる、必然」とみなすこともできない。それゆえ、公平なコインが50%の相対頻度で表が出ることに必然的に収束するわけではない。もし表の相対頻度がそのコインの表の出る真の確率に収束する必要がないのであれば、どのように二つの概念は関係しているのか。大数の法則(law of large numbers)がその解答を与えてくれる。

P(表が出る|コインが投げられる) = 0.5

P(表の頻度=0.5±e |コインがn回投げられる)がnが無限に近づくと1に近づく
(ここでeは任意の小さな数である。)
(ここで(P(A | B)は条件付き確率である。)

試行の回数が増えると、0.5±e内になる確率は高くなっていく。ここで⇔の両側に現れる確率概念に注目してほしい。仮説的な相対頻度解釈は解釈ではない。というのも、⇔の両側にP( )が登場し、確率概念が両方で使われているからである。つまり、仮説的な相対頻度という解釈は循環しているのである。
 最後の確率解釈は、傾向性解釈(propensity interpretation)である。傾向性は確率的な性向(probabilistic disposition)である。では、この確率的な性向とはどのようなものか。性向は「...できる」という言い方をもつ言葉で表現されている。例えば、可溶性は性向の一つである。それは次のように定義できる。

Xが可溶である ⇔ Xが通常の条件で浸されるなら、Xは溶解する

この定義は、ある「…ならば、…である(If..., then....)」という形の文が真であれば、その時に可溶であることを述べている。これはXが一度も浸されなくとも構わないことを示している。さらに、通常の条件も重要である。また、この定義は決定論的な表現になっている。可溶な物質は浸されるなら溶けなければならない。
 確率の傾向性解釈は「…ならば、...である」という文に類似の説明をする。コインが投げられると、その表の出る確率は0.5であるとしてみよう。もしこれが正しいなら、何がこの正しさを生んでいるのか。コインが特別の性向である傾向性をもっているからであるというのがこの解釈の答えである。もしコインの表の出る確率が0.5なら、それは投げられたとき表の出る強さ50%の傾向性をもっている。それはちょうど砂糖の塊が水に入れられると溶けるというのと同じである。
 傾向性解釈は決定論的性向と確率的な傾向性の間の類比を強調する。ある対象が可溶であるかどうか見つけるには二つの方法がある。もっとも明らかな方法はそれを水に浸し、それが溶けるかどうか見ることである。二番目の方法は、その対象が可溶な物理的構成になっているかどうか調べることである。つまり、性向はそれに伴う振舞いと物理的な基盤をもっている。そのいずれかを使うことによって対象が当の性向をもっているかどうか見出すことができる。これは確率的な性向についても正しい。コインが公平かどうかを二つのいずれかの方法によって見出すことができる。実際に何回か投げてみる、あるいはコインの物理構造を調べることのいずれかによって公平かどうかわかる。確率的な性向もその振舞いあるいは物理的構造から見出すことができる。ここには明白な類比が見られる。
 それでもなお、この傾向性解釈には疑いの余地がある。まず、説明が十分一般的でない点である。傾向性解釈での原因と結果の関係は「…ならば、…である」で表されている。しかし、「…ならば、…である」という関係はいつも因果関係を表すわけではない。両親の遺伝子型は子孫の遺伝子型の原因であるが、それと逆のことも「…ならば、…である」という形式で問題にできる。条件付き確率はいつでも因果関係を表すのではない。(ここにも「ならば」が登場している。)
 より基本的な問題は「傾向性」という言葉が「確率」という言葉の別の名前にすぎないのではないかという点である。「傾向性」と「確率」のいずれが明白な意味をもっているだろうか。もし「傾向性」が確率概念を使ってしかわからないのであれば、この解釈は一層事態を複雑にするだけである。
 さて、ここまで確率の解釈について考えてきた。私たちには「確からしさ」を知覚することも、感知することもできない。それゆえ、確からしさを表現する確率論に頼ってことを進めるしかない。確率概念とその解釈について少々丁寧に話してきた理由は、情報概念が情報量の定義に集約され、その定義が確率概念に全面的に依存しているからである。出来事Eの確率値P(E)のとき、Eの情報量は-logP(E)となり、起こりにくい出来事の情報量が大きいことがわかる。情報量の定義は確率の定義を使っており、私たちが完全に知っているとは言えない確率概念がそのまま情報概念にも持ち込まれている点に大いに注目しなければならない。「起こりにくい」とはどのようなことなのかわからないと、情報量が大きいこともわからなく、情報が何かが結局はわからなくなってしまう。
 ここで、(1)で述べた知識についての二つの特徴づけを思い出してみよう。

 信頼可能性理論では、Sp を知るとは次のことである。
(1) Spを信じる。
(2) p は真である。
 Sがいる環境において、Spを信じるなら、pは真でなければならない。
 それゆえ、pである。
一方、デカルトでは、Sp を知るとは次のことである。
(1)Spを信じる。
(2)Spについての信念は明晰にして判明である。
  明晰にして判明な観念は真である。
  それゆえ、pである。
 デカルトと信頼可能性理論との知識の特徴付けの違いは内在主義と外在主義(externalism) の違いである。「真」なる知識の保証はデカルトでは精神に内在的なものによって与えられるが、信頼可能性理論では環境によって外在的に与えられる。
 このような区別を信じるなら、デカルト風の内在主義が伝統的な知識像に対応していて、外在主義的な立場が情報概念の根本にあると推察できそうである。内在的な知識の外在化が情報という訳である。知識を経験的な装置や方法によって保証しようという考えは情報を考える基本枠組だと捉えることができる。とてもわかりやすく、最初に述べた知識と情報の不思議で微妙な違いが見事に説明でき、それだけでも納得できそうに思える。

 外在主義的な「知る」ことの定義は不可避的に環境や文脈の中で定義されるが、確率概念を使った情報量の定義は、環境や文脈から独立に「現実離れ」して行われている。「現実離れ」は「文脈離れ」と言った方が適切だろう。(私たち人間の人間らしい点は現実に埋もれるだけでなく、現実から離れて判断できる点にある。)外在主義的に知ったものが情報であり、その情報の量を適切に測定するための情報量の定義とが2段階に組み合わされていると考えればよいだろう。
 もう一つ大切なことは情報の定義が外在主義的でも、情報量の定義は文脈や環境とは無関係の確率概念を使っていて、確率という解釈が複数あるように、それだけで具体的で操作可能な概念にはなっていない。情報は実証的な対象として定義でき、そしてそれを可能にするのが情報量であるが、その情報量自体は実証的でない、数学的な確率概念によって定義されているのである。
 さて、肝心な話に近づいてきた。私たちの日常世界は決定論的な世界だと想定されている。そうでないと法律もビジネスもすべてが狂ってしまう。世界が決定論的な仕方で変化しているという形而上学的な前提は私たちの感覚に基づく日常生活にしっかり合致するためか、疑われることなく自明な常識となってきた。
 知識の物語化には情報化が不可欠で、そのために情報概念が脚光を浴びた訳だが、そのためには確率空間という反因果的な数学的仕組みが必要だった。物語と確率は相反するように見えながら、相補的な仕方でうまく利用されている。内在主義的な知識の特徴づけが外在主義的な知識の特徴づけに先行し、知識と情報の区別は内在的、外在的の区別だと考えてきた。信頼可能性理論は知識より情報についてのものだという理解が優勢だった。だが、これまでの考察から、知識と情報を根本的に区別するものはなく、これまでの歴史的経緯の違いが二つの違いらしきものを生み出してきたに過ぎない。
 確率を使った情報量は、確率空間を必要とする。確率空間は数学的モデルであり、内在主義的に理解するのが自然である。これは主観的な確率解釈と呼ばれてきたものに通じている。私たちが住む古典的な世界は決定論的な変化を仮定していて、確率的なのは主観の世界だけであると信じられてきた。私たちは自分たちが住む世界が確率的だと思うのだが、それは未来に対してだけで、過去や現在は確率的ではないと確信している。この態度は許されるのだろうか。世界は時間の経過によって確率的だったものがそうでないものになるといった芸当をするのだろうか。
 この皮肉な結果が意味するのは、情報量概念は主観的なものに過ぎず、経験的、実証的ではないということである。だが、実際には情報量概念は有効に使われ、情報科学の基本概念として役立っている。情報量概念は内在的でも情報は外在的であり、そこに不都合は何もない。これは、体重の値は実数で表現されても、体重は実数ではなく、実際の重さであることに何ら不都合がないのと同じことである。
 文脈は知識の使用者には究極的に所与。知識や情報がいつも文脈に対して相対的であることは、文脈を離れて考えることができる理論と根本的に違っている。日常世界で使われる知識や情報が認識論や情報理論に登場するそれらとは違うという印象を与えるのは、これが理由である。「使われる」知識や情報は、文脈離れした知識や情報の定義とは違うのである。