SF游歩道

語ろう、感電するほどのSFを!

円城塔『通信記録保管所』および『花とスキャナー』の文字頻度解析

円城塔による短篇小説集『通信記録保管所』および『花とスキャナー』の本文テキストに含まれる各文字の出現頻度を調べた。

 

結果は下図の通り。なお、縦軸が各文字の出現数、横軸が各文字の出現数の順位を表している。

図1 円城塔『通信記録保管所』の文字の出現頻度

図2 円城塔『花とスキャナー』の文字の出現頻度

“任意の自然言語における単語の出現順位分布は冪乗則に従う”ということが経験的に知られている。これをZipf則といい、単語だけでなく、文字においても同様の結果が得られることが知られている。今回は円城塔がCC BY-NC 4.0で全文を公開している短篇小説集『通信記録保管所』および『花とスキャナー』に対して文字レベルの頻度解析を行った。

図1, 2を見ると、汚いものの確かにZipf則が見えそうな気配がする。『通信記録保管所』が 2000×100 = 10万字、『花とスキャナー』が 10000×4 = 4万字と母集団の大きさが異なるが、母集団が小さい『花とスキャナー』の方がより綺麗にZipf則が見えたのが興味深い。また、どちらも出現する文字の種類は高々10^3のオーダーでしかないことにも注目したい。

なお、出現頻度の順位を30位まで列挙するとそれぞれ以下の通り。

『通信記録保管所』

のいとなるはたてにしでがかうをっもれこらありだそくすまわきん

『花とスキャナー』

いのとなてはるにたしがかをでうっもられこだりそくあんすけまき

28位に出現する“わ”と“け”がそれぞれ交代しているだけで、それ以外の文字は全てかなり近い順位に出現することは非常に興味深い。

2000字のフラッシュフィクションと10000字の短篇では、当然作品の構成が異なることが期待されるが、今回の例においてはその構成の差異を文字の出現頻度という量的な指標から読み取ることは困難であろうと予想される。

円城塔作品だけに対する解析だけでなく、パブリックドメインとなっている夏目漱石芥川龍之介太宰治などの作品における文字頻度解析を行なって日本語の文学作品におけるZipf則の存在の有無や出現頻度順を比較すること、また私自身の文章についても解析を行うことを今後の課題としたい。

 

参考文献

[1] 円城塔, 通信記録保管所, https://github.com/EnJoeToh/stories_2000, 2023

[2] 円城塔, 花とスキャナー, https://github.com/EnJoeToh/stories_10000, 2023

[3] ホイト・ロング, 数の値打ち : グローバル情報化時代に日本文学を読む, フィルムアート社, 2023

[4] 石井大地, 現代のテクスト分析 : その理論と実装, れにくさ : 現代文芸論研究室論集, 5, 1, 44-61, 2014