Whining Express [2010-08-15]

<< 2010-08-15 >>

夏バテの日々。

更新情報

「『源氏物語の世界』校訂本文差分」というページを公開。くるってるとでもなんとでも言ってくれ、もうやっちゃったんだから。まじめに作業に集中すればおそらく三か月くらいで終わっただろうけど、だらだらと他のことの合間の合間くらいのペースでやってたので一年半かかってしまった。

源氏物語の本文というデータをウェブで自由に利用できる形で公開してるというのはとても価値のあることだと思う。それが少しでも正確でより良いものとなるのに協力できるのなら悪いことではないでしょう。

それにしても、「源氏物語の世界」のテキストを利用している人のうち、間違いに気づいたらちゃんと報告してる人はどれだけいるのかね!?　そういうことも、インターネット時代のリテラシーのひとつだと思うのだけど。

以下この作業にまつわる雑談。

校正といっても、白状しますと本文を読んで目視校正したわけではない。ここで洗い出された疑問点は、基本的には渋谷氏が公開されているデータ自身から見つけ出されたものなのです。

どういうことかというと、「源氏物語の世界」では本文のローマ字版テキストも公開されている。そこで、ローマ字テキストを仮名に機械的に変換し、それをまたプログラムにより本文テキストと付き合わせて整合性を見る（もちろんそれもプログラムでやる）ことで、入力間違いをほぼ自動的に洗い出せる、と。

ローマ字版テキスト:	naki	tamahu
	↓	↓
仮名に変換:	なき	たまふ
結果:	一致	不一致　 ※ ここで本文に入力間違いがあることがわかる。
正規表現に変換:	*き	たふ
	↑	↑
本文テキスト:	泣き	たふ

細かいことを省くとこんな感じ。とはいえ、実際には当然ながらローマ字側にも入力間違いがあるので、まずそちらを校正しなければならなかった。また、誤りの個所がわかっても、正しくはどういう語が入るのかについては結局人間が判断して決めなければならない。微妙な例ならほかの全集の源氏物語の本文を引かなければならないものだってある。というわけで、そんなに楽な作業ではないことも確かだったのですよ。しかし結果としてはやってよかったと思う。

もともと僕にはある計画があって、それは自由に利用できる源氏物語の語彙データベースを作るというものです。各単語が分かち書きされているローマ字版テキストの存在は、そのデータベース作成にすごく役に立つ。もとの本文だと単語の区切り目がわからないから。で、ローマ字版と本文との突き合わせ処理をする必要があった。その作業の過程で生まれた副産物が「メカ紫」だったり、今回公開した「校訂本文差分」なわけです。ここ二年くらい僕のやってることは、駄目なのも多いけど、一応ぜんぶつながっているのだ。

Whining Express

バックナンバー

<< 2010-08-15 >>

更新情報