2020/12/29

[053]「回文21面相」と回文のバイグラム

ゾッとしたわけ!
三歳児に爺さん、酒渡しとっぞ!

[ぞっとしたわけ
さんさいじにじいさんさけわたしとっぞ]

前回,回文に出てくる文字の頻度と,ふつうの文書に出てくる文字の頻度を比較しました.それらはおおむね似通っているものの,回文だと出てきやすくなる文字(たとえば「よ」「ね」「ぬ」)や,逆に出てきにくくなる文字(たとえば「ゃ」「っ」「を」「う」「て」)がある,という話でした.

より顕著に回文の特徴が表れるのが,隣り合う2文字,いわゆる「バイグラム」の頻度です.たとえば「たけやぶやけた」には,「たけ」「けや」「やぶ」「ぶや」「やけ」「けた」という6つのバイグラムが含まれます.今回も,回文投稿サイト「回文21面相」の回文(2021年11月21日までに投稿された回文45462個)のうち,緩和規則を使わない回文(いわゆる完全回文)36714個を分析し、回文のバイグラム頻度がどのようになっているかを見てみます。

回文のバイグラム頻度

バイグラムは,「ぁぁ」「ぁあ」「ぁぃ」……「ーー」ととてもたくさんあって,頻度をすべて並べたグラフは巨大になりすぎるため示せないのですが,回文で頻度の高いバイグラムを上位から20だけ示すと以下のとおりです.(なお,回文では,「逆から読んでも同じ」という制約によって,バイグラム「AB」と「BA」の頻度が正確に一致するので,ここでは「AB」と「BA」のうち,あいうえお順で早いほうだけを示しています.)

いか,かん,いた,だん,いな,さん,なん,した,しん,いさ,かな,いい,よる,いま,かた,いし,いだ,かし,たわ,うと

回文をやっている人なら,身に覚えのある(?)リストだと思います.回文でしょっちゅうイカが出てくるのも納得できます.(ちなみに,逆に頻度が低いほうを見ると,当然かもしれませんが,頻度ゼロであるようなバイグラムがたくさんあります.そのひとつ「ぞっ」をあえて使って作ってみたのが冒頭の回文でした.)

これは,当然ながら,ふつうの文書のバイグラムの傾向とはまったく違います.このサイト にあるデータ「N-gram_2gram.txt」を使わせていただき,頻度の高い順に20だけ示すと,以下のとおりです.

ょう,てい,しょ,って,ゅう,して,ない,かい,よう,こう,った,かん,うし,した,こと,せい,たい,じょ,する,から

もとにしたテキストの種類によって順位は変わってくるとは思いますが,たしかにこれらはふつうの文書でよく出てきそうな文字の組合せと感じられます.

回文のバイグラム頻度と,ふつうの文書のバイグラム頻度を比較したのが次のグラフです(バイグラム全体の個数を100000個としたときの頻度).

点の個数が多すぎて文字がほぼ読めませんが,傾向はわかると思います.なんとなく相関はあって,ふつうの文書で多いものは回文でもおおむね多く,少ないものはおおむね少なくなっています.が,1文字の頻度に比べてばらつきが大きく,回文の特徴がより強く表れているといえます.

斜め45度の線から大きく外れている項目が今回も興味深く,下側に大きく外れているもの(回文だと出てきにくくなるもの)としては,「てい」「って」「しょ」「うを」などが目に入ります.逆に,上側に大きく外れているもの(回文だと出てきやすくなるもの)には,「よる」「たわ」「じい」「よめ」などがあり,これらは回文をやっている人には身に覚えがあるものどもかと思います.

なぜこうなるか

回文のバイグラムに特殊な傾向が出てくるひとつの理由として,ある回文に「AB」というバイグラムが出てくれば必然的に「BA」も出てくる,ということが考えられます.たとえば,「しょ」が出てくると必然的に「ょし」も出てこないといけません.通常文書のバイグラム100000個のうち,「しょ」は599.7個出てくるのに対して,「ょし」は23.9個ととても少なく,この「ょし」の出てきにくさに引きずられて,回文では「しょ」も出てきにくくなっている,と考えられます.(回文では,バイグラム100000個のうち,「しょ」「ょし」は20.6個です.)

これを裏付けるために,回文におけるバイグラム「AB」の頻度を,ふつうの文書での「AB」と「BA」の頻度のうちの「小さいほう」と比較したグラフを作ると,次のようになります.

見てわかるとおり,ばらつきが小さくなっており(数値的にもそれが示せます),たしかに回文のバイグラム頻度は「AB」「BA」のうちの出てきにくいほうに引きずられているらしいと推測されます.

ただそれでもやはり両者の頻度の違いは大きく,その違いを個別のバイグラムに即して考えるのは面白いと思います.たとえば回文で「よる」や「たわ」の頻度が高くなるのは,回文で難しい文頭・文末の処理でこれらが頻用されることが一因だと考えられます.回文で「いて」「うを」などの頻度が低いのは,おそらくですが,これらを使った典型的な「歩いて……」「学校を……」といったフレーズは,文章全体の形に制約を加えるので(「歩いて」ならそのあとに動詞が来るはず,「学校を」もそれを目的語にする動詞が必要なはず,など),回文では使いにくいのだと思われます.このあたりはもう少し緻密に考えてみたいところです.

バイグラムの頻度から1文字の頻度へ

前回調べた,回文の文字頻度(バイグラムではなく1文字ごとの頻度)の特徴も,上記の手法である程度分析できそうです.たとえば,回文だと通常文書に比べて「ゃ」が出てきにくいのは,その後ろに来られる文字に制約がかかるから,別の言い方をすると,バイグラム「ゃA」の頻度がたいていの場合「Aゃ」に引きずられて低くなるために,それらの頻度の総和(本当はちょっとずれますが)である「ゃ」の頻度も低くなるから,と考えられます.

これも調べてみたので,グラフを載せておきます.まず,前回も載せた,回文での文字頻度と通常文書での文字頻度の比較のグラフです.横軸の範囲をすこし変えてありますが内容は同じです.

いっぽう,回文での文字「A」の頻度と対応する,通常文書の文字「A」の頻度のほうを,次のように変えてみます.すなわち,通常文書のバイグラム「AB」と「BA」のうち少ないほうの頻度をとって,それらを,「B」のほうをいろいろに変えて足し合わせます.(たとえばAが「ゃ」なら,「あゃ」と「ゃあ」の少ないほう,「いゃ」と「ゃい」の少ないほう,……の頻度をすべて足します.)そうして対照したグラフがつぎのとおりです.

ややわかりにくいですが,たしかにばらつきが小さくなっています(数値的にも確かめられます).とくに,もとのグラフで下側に外れていた「ゃ」「う」などが中央に寄っているのがわかると思います.隣り合う文字とのペアの出てきにくさが,これらの文字の出てきにくさに関係しているのであろうと推測されます.

このような処理を施してもまだ外れている文字があって,やはり面白いです.「を」が下側に外れているのは,上に書いたように,文章全体の構造の制約が一因と思います.目立って上に外れている「ぬ」はとくに興味深く,これは,否定の助動詞として使われることが多いためだと思われます.2文字の助動詞「ない」よりも使い勝手がよい場面もあり,通常は使われにくい助動詞「ぬ」に需要があるのでしょう.


文字の頻度をこうして眺めるだけで,回文を作る際の工夫や困難がなんとなく見えてくるのが楽しいです.次回ももうすこし文字頻度で遊んでみます.

0 件のコメント:

コメントを投稿