作文スタイル毎の文末形式の違いの分析
今読んでいる悪文という本の中で「文末形式の単調さ」を論じている章があった.その中で,夏目漱石「吾輩は猫である」の冒頭を書き出しについて述べていた.
吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。
ここで「見当がつかない」ではなく「見当がつかぬ」としたのはなぜだろうか.
「まだない => つかない」よりも,「まだない => つかぬ」という文末が単調になりやすい性質を避けようとした工夫ではないか,というのが悪文の著者の解釈である.
そういわれてみると,この書き出しは隣り合った文末が全て異なる.
これは非常に興味深い.文末形式なんて気にも留めなかった.小説のリズムを生み出すのに,かなり重要なポジションを占めていそうだ.いわれてみると,村上春樹の作品は「だ」「た」という表現が多い気がする.
村上春樹作品を調べたいのはやまやまだけれど,電子データがないので,青空文庫で手に入る本の文末表現の形式について調べることにした.単純に文末文字の頻度だけではなく,前後の変化を見るため,文末文字のbigram,trigramも調べてみた.
そうです.私が変なお兄さんです.知っていましたか.
上記の例において,文末文字の頻度 (unigram) は,す=2,か=1とカウントされる.bigramとは,ふたつの連続する文の末尾文字の連結を見たもので,上記の文の場合「すす」と「すか」がカウントされる.trigramでは,「すすか」がカウントされる.
分析に用いた小説は以下の3つ.句点「。」の直前の文字を文末文字とする.
# いずれも,それぞれ文末文字数で正規化する.
結果
unigram
# ginga.uni た:0.47143 す:0.10179 よ:0.07054 う:0.05446 か:0.04732 い:0.04643 だ:0.04107 え:0.02946 ん:0.01964 ら:0.01518 # kokoro.uni た:0.63601 す:0.20799 ん:0.03287 う:0.02492 い:0.01483 だ:0.01397 る:0.01268 か:0.01117 よ:0.01096 ね:0.00967 # maihime.uni り:0.23876 き:0.10674 ぬ:0.10674 し:0.07303 つ:0.07303 ん:0.05618 ず:0.04775 む:0.02809 じ:0.02247 を:0.02247
bigram
# ginga.bi たた:0.27500 たす:0.05625 すた:0.04286 うた:0.02679 よた:0.02232 すす:0.02232 たう:0.02143 たか:0.02143 たよ:0.01875 かた:0.01786 # kokoro.bi たた:0.46798 すた:0.09669 たす:0.09626 すす:0.08144 んす:0.01504 すん:0.01461 たん:0.01311 んた:0.01182 だた:0.01139 たう:0.01074 # maihime.bi りり:0.05618 きり:0.04494 りぬ:0.03652 りき:0.03652 ぬり:0.02528 つり:0.02528 ぬき:0.02247 りし:0.01685 つぬ:0.01685 きつ:0.01685
trigram
# ginga.tri たたた:0.17321 たたす:0.03393 すたた:0.02857 たすた:0.02857 うたた:0.01429 よたた:0.01339 たたか:0.01339 たたう:0.01071 たうた:0.01071 たすす:0.00982 # kokoro.tri たたた:0.35797 すたた:0.05694 たたす:0.05544 たすた:0.05049 すすす:0.03524 すすた:0.03459 たすす:0.03395 すたす:0.03030 だたた:0.01010 ただた:0.00902 # maihime.tri ぬきり:0.01685 りぬり:0.01404 きりき:0.01404 りりり:0.01404 きりぬ:0.01124 つりり:0.01124 りきつ:0.00843 りりず:0.00843 きりり:0.00843 りきき:0.00843