blechmusikの日記

いろいろなことを書いています。

「青空文庫 全」をトレントから入手してみました

青空文庫の6500作品をBitTorrentで配信 - ITmedia Newsにて紹介されていました。これを早速入手しました。

sha-256 の値を調べてみました。
0b84999c09d35c358320a2a60ba77498871aeea1a1f8d5107221397383907770 *aozorabunko_ze
n.iso

収録されているテキストファイルの総計は 200 MB 強ですか。なるほど。


これらからコーパスをワンクリックで作り出すツールがあればいいのに。

こういうソフトウェアもありますが、コーパスをワンクリックで作り出すツールとは呼べないでしょう。

f = File.read(ARGV[0])

f.gsub!(/(\-{55}).+?\1/m, "").gsub!(/底本:.+/m, "")
f.gsub!(/[.+?]/, "")

print f

これを出発点として、歴史的仮名遣い、旧字体、送り字などの変換を盛り込めばよいのでしょうか。読みのためのルビが振ってあるものは、そのルビを抜き出せばよさそうです。