作文スタイル毎の文末形式の違いの分析

今読んでいる悪文という本の中で「文末形式の単調さ」を論じている章があった.その中で,夏目漱石吾輩は猫である」の冒頭を書き出しについて述べていた.

吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。

ここで「見当がつかない」ではなく「見当がつかぬ」としたのはなぜだろうか.
「まだない => つかない」よりも,「まだない => つかぬ」という文末が単調になりやすい性質を避けようとした工夫ではないか,というのが悪文の著者の解釈である.
そういわれてみると,この書き出しは隣り合った文末が全て異なる.

これは非常に興味深い.文末形式なんて気にも留めなかった.小説のリズムを生み出すのに,かなり重要なポジションを占めていそうだ.いわれてみると,村上春樹の作品は「だ」「た」という表現が多い気がする.


村上春樹作品を調べたいのはやまやまだけれど,電子データがないので,青空文庫で手に入る本の文末表現の形式について調べることにした.単純に文末文字の頻度だけではなく,前後の変化を見るため,文末文字のbigram,trigramも調べてみた.

そうです.私が変なお兄さんです.知っていましたか.

上記の例において,文末文字の頻度 (unigram) は,す=2,か=1とカウントされる.bigramとは,ふたつの連続する文の末尾文字の連結を見たもので,上記の文の場合「すす」と「すか」がカウントされる.trigramでは,「すすか」がカウントされる.


分析に用いた小説は以下の3つ.句点「。」の直前の文字を文末文字とする.

# いずれも,それぞれ文末文字数で正規化する.

結果

unigram
# ginga.uni
た:0.47143
す:0.10179
よ:0.07054
う:0.05446
か:0.04732
い:0.04643
だ:0.04107
え:0.02946
ん:0.01964
ら:0.01518

# kokoro.uni
た:0.63601
す:0.20799
ん:0.03287
う:0.02492
い:0.01483
だ:0.01397
る:0.01268
か:0.01117
よ:0.01096
ね:0.00967

# maihime.uni
り:0.23876
き:0.10674
ぬ:0.10674
し:0.07303
つ:0.07303
ん:0.05618
ず:0.04775
む:0.02809
じ:0.02247
を:0.02247
bigram
# ginga.bi
たた:0.27500
たす:0.05625
すた:0.04286
うた:0.02679
よた:0.02232
すす:0.02232
たう:0.02143
たか:0.02143
たよ:0.01875
かた:0.01786

# kokoro.bi
たた:0.46798
すた:0.09669
たす:0.09626
すす:0.08144
んす:0.01504
すん:0.01461
たん:0.01311
んた:0.01182
だた:0.01139
たう:0.01074

# maihime.bi
りり:0.05618
きり:0.04494
りぬ:0.03652
りき:0.03652
ぬり:0.02528
つり:0.02528
ぬき:0.02247
りし:0.01685
つぬ:0.01685
きつ:0.01685
trigram
# ginga.tri
たたた:0.17321
たたす:0.03393
すたた:0.02857
たすた:0.02857
うたた:0.01429
よたた:0.01339
たたか:0.01339
たたう:0.01071
たうた:0.01071
たすす:0.00982

# kokoro.tri
たたた:0.35797
すたた:0.05694
たたす:0.05544
たすた:0.05049
すすす:0.03524
すすた:0.03459
たすす:0.03395
すたす:0.03030
だたた:0.01010
ただた:0.00902

# maihime.tri
ぬきり:0.01685
りぬり:0.01404
きりき:0.01404
りりり:0.01404
きりぬ:0.01124
つりり:0.01124
りきつ:0.00843
りりず:0.00843
きりり:0.00843
りきき:0.00843

まとめ

やってみてはいいものの結果をどのように眺めたら良いのか深く考えていなかった.眠いのでカーズは考えるのをやめた.もうひとひねりしたら,面白い結果が出そうな気がするけれど,この結果だとあまり面白くない.

  • 作家毎にやってみたら面白いかも
  • 文末文字でなくて,文末2文字とか文末3文字とかで見ると,より特徴が取れるかも.
  • 音で考えられるといいなぁ
わかったこと
  • 銀河鉄道の夜では「よ」で終わる文が多いことが気になる
  • こころでは「ん」で終わる文が意外と多い
  • 舞姫は他のふたつと大きく異なる文末表現をしている
  • 銀河鉄道の夜,こころには「たた」「たたた」が頻出する.直感的にわかる