自然言語のカオス解析


これまで主に非線形物理学・非平衡統計力学の観点からカオス力学系やグラフ・ネットワーク上の酔歩に関する大偏差統計解析を行ってきました。ランダムまたはカオス的に変動する量について、その局所平均の分布の、中心極限定理に従った正規分布への収束の速さを測る量をレート関数と呼びます。

時系列の揺らぎの特徴はレート関数などを用いる大偏差統計解析によって捉えられます。一つの研究テーマはこのような大偏差統計解析の手法を更に深化させるとともに、その手法により自然言語に潜む揺らぎを捉えることです。1つの方針は、文章を単語の時系列とみなし大偏差統計解析を適用することです。


今日の文章の数量解析では、文の長さ・各品詞の使用率など種々の静的な統計量を調べることにより、文学作品の作者の真贋判定などが研究されています。英語の単語を構成するアルファベット数、言い換えば単語の長さを例にとりましょう。

ある文章の中で単語の長さの頻度分布や平均・最頻値を見るのが従来の研究ですが、文章をその初めから終わりまでの単語の出現順を時間とみなした各単語の長さという、観測量のランダムな時系列だと捉え、有限の時間幅での局所平均の分布を中心にした大偏差統計解析を考えましょう。

この方が、文章の前後関係を無視した静的な統計量に比べ文章の流れをある程度含むことができると考えており、文章に潜むこのような揺らぎに作者の個性や文章の自然さが反映されるものと期待しています。

もう1つの方針は、単語間の関係から構成されるネットワークを解析することです。文章の普遍的な統計則として、単語の出現頻度が逆冪則となるジップ則が知られています。言語の習得過程にスケールフリーネットワークの生成原理である優先的選択が潜み、単語の繋がりをネットワークとみなしたときにスケールフリー的となっているのかといった複雑ネットワークの視点からの自然言語の解析も考えられます。

また、例えば地震の統計則にはジップ則的なマグニチュードと頻度の関係と、1/f スペクトル的な余震の発生間隔の分布の冪則が対となって現れますが、自然言語については1/f スペクトル的な解析が少ないように思われます。また、予備的な研究によれば、旧約聖書のある単語の出現間隔は品詞や格によって指数関数分布になったり、冪分布になったりして単純ではありません。

単語間のネットワークにおいて、単語の出現間隔はあるノードへの再帰時間と解釈できます。その統計特性を中心に自然言語の1/fスペクトル的な捉え方も考えられます。


私は産業カウンセラーという資格を持っていますが、カウンセリングというのはクライエントとカウンセラーとの間で主として言葉のやり取りを通したクライエントに対する心理的な援助活動です。最近、幾つかの医療機関で行われている先進医療「光トポグラフィー検査を用いたうつ症状の鑑別診断補助」では、診断を受ける人に、例えば、「あ」で始める名詞を思いつく限り発音してもらい、そのときの脳の血流量を測定します。

このように、言葉は医療やカウンセリングで重要な役割を果たしていますが、このような言葉の側面がカオスとしての言葉とどのような関係があるのか探るのも面白いかもしれません。

 

講師 宮崎 修次

ページtopへ▲

京都大学 情報学研究科 先端数理科学専攻 非線形物理学講座