blechmusikの日記

いろいろなことを書いています。

青空文庫の html を txt に変換する その 1

テキストファイルのルビの削除が面倒なので、 html を処理することにします。

#! ruby -Ks

f = File.read(ARGV[0])

# ルビの読みを取り出す
f.gsub!(/<ruby><rb>.+?<\/rb><rp>.<\/rp><rt>(.+?)<\/rt><rp>.<\/rp><\/ruby>/i, "\\1")
# [#改ページ]などを削除する
f.gsub!(/[.+?]/, "")
# 「底本:」以下を削除する
f.gsub!(/底本:.+/m, "")
# title 要素を削除する
f.gsub!(/<title>.+?<\/title>/i, "")
# html のタグを削除する
f.gsub!(/<.+?>/i, "")
# 英数字を削除する
f.gsub!(/[a-z0-9]/i, "")



print f