前回の円城塔『通信記録保管所』および『花とスキャナー』の文字頻度解析から引き続き、夏目漱石による小説『こころ』の本文テキストに含まれる各文字の出現頻度を調べた。
定本として国立国会図書館でデジタル化された『こころ』(岩波書店、1916)を用いた。この本文画像データから国立国会図書館が公開しているOCRソフトNDLOCR ver.2.1を用いて本文テキストデータを作成し、前書き・奥付け・章題など本文でないことが明白な箇所を人力で補正した。
結果は下図の通り。
『こころ』についても、Zipf則は見えると言っていいのではないか。
なお、出現頻度の順位を30位まで列挙すると以下の通り。
のたしにはてなつでいをかと私るもがらますれうんりさあゐだくへ
円城塔の出現頻度、
『通信記録保管所』
のいとなるはたてにしでがかうをっもれこらありだそくすまわきん
『花とスキャナー』
いのとなてはるにたしがかをでうっもられこだりそくあんすけまき
と比較して“い”の順位が低くなったのは、”い”と“ゐ”に割れてしまったからだろう。
ちなみに“k”は388回登場し、60位だった。
なお、本研究で用いたテキストデータには記号類の一部(“『”など)や読み取り不可能文字が多数存在するほか、NDLOCR由来の不定性があり、精度に課題が残っていることに注意したい。
今後も引き続き、パブリックドメインとなっている日本語文学作品との比較を行なっていきたい。
参考文献・ツール
[1] 夏目漱石, こころ, 岩波書店, 1916, 国立国会図書館デジタルコレクション,
https://dl.ndl.go.jp/pid/906330
[2] 中村覚, Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存),
https://zenn.dev/nakamura196/articles/a8227f4524570c, 2022
[3] 中村覚, NDLOCR_v2の実行例.ipynb,