読者です 読者をやめる 読者になる 読者になる

blechmusikの日記

キー・カスタマイズ・ソフトウェア "DvorakJ" の覚え書きをはじめとして様々なことを書いています。

2012年03月14日からNHKに導入された字幕放送処理システムが興味深い

雑記

音声処理をベースにし、人の手で適宜修正を施すようだ。携わる人の行動に着目すると、字幕が出来上がるまでにつぎのような手順を踏むということだろう。

  1. アナウンサーが発言する
  2. 校正担当者が校正する

音声処理の段階を含めるとこうなる。

  1. アナウンサーが発言する
  2. コンピューターが音声を認識して音に分解する
  3. コンピューターが音を単語に変換しながらことばの組み立て方を推測して、文章を生成する
  4. 校正担当者が校正する

昨日言及したスピードワープロを用いた字幕作成の処理は以下のようなものだと思う。

  1. アナウンサーが発言する
  2. 文字を入力する人(ステノキャプショナー)が音声を認識して文字に分解する
  3. その人がことばの組み立て方を理解して、かな漢字変換を行う
  4. 校正担当者が校正する

これらのことから分かるのは、NHKにおいては、従来人が担ってきた音声認識処理とかな漢字変換処理が、今やコンピューターの処理に大部分委ねられようとしていることである。最終的な校正の段階では人の判断が必要になるとはいえ、これは非常に画期的なことだろう。
NHKの新しい字幕放送処理システムがあらゆる番組の字幕作成に使われることはあるのだろうか。もしもそうならば、それはいつごろになるのだろうか。NHKのこの技術が十分に発展したときに、民生向けにどのような寄与がなされるのか。興味は尽きない。

*1:NHK技研 R&D No.131 2012年。なお、この号は「音声処理 特集号」とのことである。