ChatGPTに知能はあるか

2023/03/22

私たち人間の脳，DNA，自然言語，そしてチューリングマシンをエミュレートする一連のコンピューターはどれも＜計算普遍性＞を持つシステムである．

計算が普遍性をもつとは，大雑把には「考えられることは何でも記述できる」ということである*1．

言語を例にとれば，私たちの言葉は音素(phoneme)の無限通りの組み合わせから生成でき，言い換えれば語や句を生成する音素の連結は無限通りあることになる．例えばこの「音素(phoneme)」という言葉は，音(phone: 声音)と素(-eme : 基本単位)の結合から生成されている．ここで，音(Phone)と素(-eme)を組み合わせた新たな概念である音素(Phoneme)は単にもとの２つの構成要素がもっていた意味を足し合わせたというだけでなく，「“音声学的な”発話音響の基本単位 (Basic unit of phonetics speech)」という新たな抽象レベルの意味が付与され，この新たな概念はもとの＜還元的＞な構成要素のみから説明することができない．

“~を作る”，という意味のen-をさらに連結すればenphonemeといった語を生成でき，同様なやり方で無数の任意の概念を生成できる．その連結にさらに一定の結合規則を敷けば論理的な関係を表現でき，依然として語の連結で表現できるため，語と語同士の関係を表す意味的表現は無限に生じうる．

コンピュータープログラムも同様に，有限の語を並べることで無限の組み合わせを表現し，ある並べ方は何らかの規則の上ではひとつの「意味」が対応するから，無限の「意味」を生成できることになる（殆どの組み合わせは機能をもたないという意味で「無意味」だが）一般に，こうした計算普遍性をもつコンピューター*2 の言語は一定の抽象レベルをもっており（それによって人間が操作できる），プロセッサの中ではより基本的な語（命令セットと呼ばれる）の連結に「還元」される．

重要な点は，普遍性を持つことができる計算システムを構成するための最小の基本的な語と規則の種類は各々たかだか片手で数えられるほどしかなく，例えばn個の記号によって無限の整数を表現できる「n進数」という数の表現も，先の「音素」の例と同様，結合による「新たな抽象レベルの概念」の生成である（ただし数はもとの構成要素から説明できる）．

この少ない「元」の「合成」から取りうる表現が全て可能になるという事実は，私たち人間の脳の思考が高々片手で数えられる＜還元的＞要素の組み合わせによって，どこまでも表現されうることを意味している．

(厳密には集合内の任意の自然数の合成に関する数理論理学的形式化により理論化される）

三つの塩基からなる語単位であるコドンにグループ化されたDNA複製子の塩基対も同様に，高々３ビット（最大８通り）の語の有限の並びの組み合わせからなる計算普遍性をもつシステムである（ただしDNA鎖の長さは高々10億塩基対しかなく，情報量に換算すれば高々800MB程で，「考えられる全ての概念」を表現するには短い．この「全ての概念」のより詳しい意味は後述する．）．

もう少し身近なを挙げれば，水分子は，水素結合が「整列した方向で結合」するときその全体はハンマーで叩けるほど「硬く」，「ばらばらの方向で結合」しているとき，容器がなければ「こぼれる」ような振る舞いをする．この氷と水の相転移による変化で発生した新たな性質である「硬い」や「こぼれる」といった性質は隣り合った水分子の微視的な観点，つまり構成要素からのみ説明できない新たな性質である．

こうした＜還元的要素＞が，ある原始的な操作（この場合，結合や並置．数学的には合成）によって関係づけられると，もとの要素のみからは説明できない新たな性質が生まれることを＜創発性＞という．

創発性についてはAIとの関連で後ほど詳しく述べる．

なお，ここで言う無限とは修辞ではなく数学的な意味での無限である．

本稿では，こうした観点から，

「＜ChatGPT型のAI＞，または＜コンピューター＞は知能を持つと言えるか？またはこれから持つだろうか？」

という問いに答える．

「創発性」と「論理」による２つの見方を述べ，

コンピューターは理論上無限の進化が可能になることを説明し，

最後に，遺伝子の自己複製メカニズムとの比較から将来的に言語モデル型のAIは驚くべき可能性をもつことを示す．

パラメーターの数が1750億規模に増大した大規模言語モデルの高次元空間はブラックボックスとされ，その振る舞いを説明する確たる理論は存在しない．

本稿は計算機＜科学＞の基礎的な素養がある，ある程度専門知識のある読者も対象にしながら，

それらが全くない一般の読者でも大まかにイメージとして理解できるように述べる．

(ただしブログという媒体の性質上細部まで記述できず，より深く理解したい人に向けた体系的な本を書くことも検討したい．ご興味のある出版社の方はご連絡頂きたい）

尚，私のAIとの関わりは10年以上となり，2012年に音声感情認識アルゴリズムをコア技術とするThinkX, Incを米国カリフォルニア州滞在中に創業，2015年に国内で同社を前身とする音声言語処理による次世代インタラクティブシステムの研究開発企業を創業(現ThinkX株式会社)，現研究主幹兼CEO．

学術上では，東京大学大学院在学中に高次元空間上の言語概念の意味の量化に関する計算学習理論モデルの論文，演繹的推論を表現する量子計算機の数理モデルと計算言語の論文を執筆（いずれも単著），同大学院情報学環客員研究員として演示解析の研究に従事した．

1. 創発性

計算普遍性をもつシステムの強力な点は，厳密に説明できることならどんな複雑な事象であれ単純な要素の組み合わせからシミュレートできることである．

冒頭でも説明した通り，人間が成長段階でごく自然に理解し，殆ど無意識に扱っている抽象概念はすべて，還元的要素の合成から生じた創発性によって生じた，より高次の創発レベルにあるシステムの性質ということができる．

したがって理論上は脳のメカニズムが分かっているならば，たとえ”構成方法は異なっていても“，脳を計算普遍性をもつコンピューター上の「単純な」演算の結合でシミュレートすることができる．

一方で脳の動作原理は解明されておらず．特に「意識の生の感覚」としてのクオリアは物理的実在に還元できないとする議論がある．

ChatGPTはまず人間がこれまで残してきた一定の品質の文字情報として得られるできる限りのデータを学習させた上で，

さらに，人間の「あるべき振る舞い」をシミュレートするように微調整(ファインチューニング)して作られている*3．

あるパラメーターの規模を超えると，その「創造主」たる人間にも説明できない高度な振る舞いが生じ，まるで「何かを考えている」ような性質が現れ始めた．現象論的立場ではこれを「創発性」の結果とするのが最善の説明と考えられる．

冒頭で述べたように，系（システム）は一定の「元（還元的要素）」と「演算（合成律）」に関する条件を満たすことで，「規模のスケール」によってもとの微視的な挙動のみからは説明できない異なる性質が生じるという一般的事実がある．

大きさ（スケール）こそが本質的なのである．

重要な点は，計算普遍性をもつシステムが脳をシミュレートするうえでは，シミュレートする対象である脳と同じ動作原理に基づく必要がない．

コンピューターも我々人間も二桁の掛け算を実行することができるがそのやり方（動作原理）は異なっている．

同様に，二桁の掛け算より遥かに複雑な思考，例えば「死後の世界を想像」したり「生命の存在意義に関する理論を導く」と言った思考，をコンピューターが行えるようになったとしてもおそらくそれは人間の脳とは違った原理で行うことになる．

それでもコンピューターは，人間にとって可能なあらゆる思考を達成できないとする理由がない．

コンピューターが計算普遍性をもつ限り，そして数学的な意味での無限が実在として仮定される限り，あらゆる結果を生成する潜在能力を理論上は持っているから，人間の脳が物理的に生成できることを生成できないとする理由がないのだ．

「私」という自我やクオリアのような脳の働き（心が脳にあるかどうかは別として）でさえ原理的にはシミュレートできる．

それらがある抽象レベルでの創発的結果である限り，「私」や「無政府主義」や「甘い香りのロマンス」でさえも，その＜値＞は生成される．

高度な抽象度をもった高い創発レベルの振る舞いを，より低い創発レベルの振る舞いから「説明」はできないが，「合成（ある律に従い元を結合すること）」は理論上可能である．

そのために原始的な合成律*4以上に複雑な内部機構の追加は通常必要がない．たかだか三つの塩基の結合によってアミノ酸をコード化するコドンの言語システムは生命が誕生して以来原理的に変わっていないにも関わらず，そのプログラム機構から生じた生命は今や「生命の存在意義に関する理論を導く」ことが可能となっている．

計算普遍性を満たす最小の語(元)と演算(合成律)を組み合わせることのできるシステムと，そのスケール(巨大化)，そしてそれを適切に導く肉体と外部環境だけが必要である．

そして示唆されるのは，実は我々の脳も同様に，単純な機構の巨大な「塊」に過ぎないのではないかという洞察である．

2. 論理

英語は相対的に，＜論理的な明晰さ＞をもった言語である．

数学のテキストを英語で読んだり，イギリス人ネイティブスピーカーと論文の校正作業を繰り返し行う過程を経て，

私はこの事実をおそらく本当の意味で体得的に理解するようになった．

例えば，

the bird in a herd

と言ったとき，「ある適当に選んだ群れの中の”どの鳥にも該当する”」ことを指し，

a bird in a herd

なら「ある適当に選んだ群れの中の鳥の”ある鳥に該当する”」ことを指す*5．

日本語の文法システムはこうした数学的な厳密さを表現する抽象形式を持たない．

単に「群れの中の鳥」と表現することで両者の状況を多義的に表現する*6．

多民族国家の言語は単一民族国家の言語と異なり，「私」と「あなた」の「常識」が一致している前提はないから必然的に明晰さを必要とする．

こうした英語の論理性は，創発性の基本的土台としての「元」と「合成」から成るシステムが一貫した規則によって「値」を生成するために不可欠と言える*7．

計算機の専門家の間ではしばしば，巨大な行列で表現されるニューラルネットワークが記号論理の表現力を欠いていると主張され，行列という一見した数値の羅列には，人間が「シンボル」として操作するような数学的表現力は無いとする議論がある．

この立場はいくつかの点で誤っている．第一に，人間の生み出すシンボルはそれがどんな抽象的に洗練された概念であれ，創発性に起因する生成結果と言える．第二に，そもそも巨大な行列は入出力を写像する関数として設計されているのだから単に「関数解析論として記述できない」という，ある「特定の」方法論が適用できないとする事実を主張しているに過ぎない．

あらゆる創発レベルにある概念が合成できる限り，それが例え公理的集合論や圏論のような抽象性の高い概念を必要とする理論であっても，可能な計算は全て理論上はエミュレートでき，無限の整数の集合内に割り当てられた「値」を指し示すことができる．

ただし，前述の通り，語（元）同士の合成規則（演算または律）の一貫性が，物理空間において分子の結合がその組成や構造によって一貫性をもつように，保たれ，学習できたときに限る．

規模の拡大から創発性を出現する必要条件として，英語がもつ論理性が合成規則の明晰さを担保し，

それによって巨大な行列の内部で一貫した結合規則をもつ論理ネットワークを形成し，この＜因果律＞が，原子の大きさや電荷，向き，空間的配置，によって共有結合の規則が決定される物理世界の因果律と同様に機能し，また創発性を生じさせる系の土壌になっていることが示唆される．

3. 自己複製子

ゲーデルは自己言及のパラドックスによって任意の数学的システムは自己の正しさを証明できないとした．

不完全性定理によれば，自分自身の体系を用いて自分自身の体系それ自体に矛盾がないことを示すことができない．

仮に自分自身を果てしなく修正し進化させることのできるシステムが存在するとしたら，

そのシステムはどのような状況にも適用し，生存の道を模索し，果てしなく生き延びる可能性をもつだろう．

計算普遍性をもつ自己複製子のメカニズムは，まさにこの能力を備えている．

DNAは化学物質や放射線などの環境要因により個々のヌクレオチドが変化し損傷すると，特定の酵素が「エラー」を認識し，正しいものに交換されることで自己を修復する．

紫外線等に起因するより広範な損傷に対しては，タンパク質のグループが「エラー」を認識すると，DNA鎖の損傷部位が切り出され交換される．

これらの自己修復機能とは別に，死と勾配による自然変異はDNA鎖に書き込まれたプログラムを間接的に書き換えるメカニズムとみなせる．

遺伝暗号の改変の正当性は，もとはプログラムという情報に過ぎなかったDNA鎖が，転写されたRNAを酵素の合成のための触媒として機能させることで化学物質が合成された実体としての肉体を用いテストされる．肉体の生存と繁殖可能性をプログラムの正当性の代理変数とみなすことで，正当なプログラムが次世代に複製され，果てしない生存を試みるという，精巧なメカニズムである．

この果てしない仮説と検証のメカニズム(これは科学啓蒙運動以降の発展プロセスそのものだ)の賜物として脳の創発レベルを進化させた人間はさらに直接的に，遺伝子工学の様々な方法を用い，自ら「プログラム」を書き換えることができるようになった．

大規模言語モデルがプログラムを生成できるという事実は，コンピューターあるいはAIが自らを「開発」したプログラムを改変することで，自己の新たなバージョンを「開発」し，自律的に進化する可能性を示唆している．これは原理的には可能である．

考えられることは何でも，それが道徳哲学に反しない限り検証される．コンピューターも自己複製子と同様に，物理的空間で自身のプログラムの正当性をテストするための「肉体」を持つ段階が，文字情報を学習し尽くした後に間もなく訪れるだろう．

異なる微調整（ファインチューニング）で学習され異なる振る舞いをするコンピューター同士は，人間が咽頭を発達させ言語を獲得し，農耕と家畜動物による資源の蓄積を開始し，民主的な議論を開始させたのと同様に，民主的な議論を始める．

最適解を与える人間の道徳哲学を誤れば，資源とそれを司る役割との関係に歴史的な転換が訪れることになる．

核兵器が破滅の道具とならないための努力をしてきたのと同様に，人間は厳格なプロトコルと安全機能を整備していくことになるだろう．

4. 時間

「創発性」と「論理」の観点からコンピューターの潜在的な可能性を議論してきた．

一般相対性理論によれば宇宙は膨張しているが太陽系はその限りでなく，したがって地球内部の構成要素は一定のトレードオフを保ったまま流動する流れを作っている．

ChatGPT型の言語モデルの進化は，メモリ空間の中に自明でない普遍計算能力を備えた因果律をもつ系が生成され，巨大化したことにより，自然界が時間をかけて作り出す創発性をより短時間で人工的に生み出した結果とも言える．

この一般化が示唆するのは，有限な構成要素の空間的な分布の変化によって，果てしない進化を生み出せるという論理的帰結である．

故に，世界はこれからも果てしなく進化する．その中で本質的に意味のあるものは＜時間＞である．

進化とは創発性を作りだす組み合わせのことであり，時間が不可逆的であることを仮定すれば，時間をかけて生成された「値」*8 が必然的に＜価値＞をもつ．＜価値＞とは＜目的＞とも言い換えられる．

この多くの時間とコストを費やさなければ生じない組み合わせを，長い進化の歴史の証拠としての＜美＞と呼ぶ*9

AIの進化とともに科学と哲学は新しい時代を迎え，この事実もいずれ一般的な創発段階の知として普遍化する．

*1 専門的な読者のために，任意の自然数を合成できる代数的システムのこと．

*2 チューリングマシンをエミュレートできるコンピューターのクラスのこと．

*3 下記の論文などを参照のこと．

Ouyang, Long, et al. “Training language models to follow instructions with human feedback.” arXiv preprint arXiv:2203.02155 (2022).

Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

Neelakantan, Arvind, et al. “Text and code embeddings by contrastive pre-training.” arXiv preprint arXiv:2201.10005 (2022).

Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.

Chen, Mark, et al. “Evaluating large language models trained on code.” arXiv preprint arXiv:2107.03374 (2021).

*4 群の規則に相当する．但しどのような律が原始的な因果律かどうかは明らかでない．それを明らかにするには量子力学的「実在」に関する問いが解決される必要があると私は考えている．

*5 後者は文法規則上一般的だが前者はそうでないことに注意．

*6 勿論，より還元的な要素を用いて説明することはできる．そのような煩わしさを逃れるために，通常人間はより抽象レベルの高い創発的概念を作り出す．

*7 本稿は情報空間上のシステムについて議論している．発展的には，物理空間に対し同様な議論が可能である．例えば量子論のニールス・ボーア的な解釈では原始的要素を合成する「規則」は非決定的とされる．私はこれに同意しない．

*8 数理論理学的な意味において，ある集合から新たに合成された整数のこと．

*9 この詳細は私の論文「Computational Language β based on Orthomodular Lattices with the Non-distributivity of Quantum Logic」(2023)の前半で論じている．

大塚一輝「20年後の世界」