YouTubeの「文字起こし」機能の精度を比較してみた

20141105_04

動画を始めから最後まで視聴するには時間がかかるので、テキストで内容をさっと目を通したい。動画中の発言やナレーションを手軽に文字に起こしたい。そんなことを考えたことはありませんか?

Web上にある無料動画や音声を書き起こして記事化するサービス「logmi」というサービスがありますが、著作者に無断でテキスト化させている見地からしばしば問題視されています。

実はYouTubeの機能の一つとして「文字起こし」という機能が実装されています。再生画面の「その他」の項目をクリックすると現れます。

20141104

 「文字起こし」をクリックすると、動画の音声から自動的に言葉を抽出し、数単語づつ、時系列に表示されます。

20141105_02

この機能、実はけっこう古くから準備されており、日本語版は2011年7月から実装されていました。耳に障害のあるエンジニアが、webに増える動画にアクセスするために開発されたものなのだそうです。

本機能は、実は耳の不自由なエンジニアが開発に携わっています。彼にとって、以前のテキストだけだったウェブでは、ほとんどの情報にアクセスすることができましたが、ウェブがリッチになるにつれて、動画や音楽など、彼にとって”アクセスできない” コンテンツが増えていきました。技術の力でこの問題を解決したいと考えて生まれたのが、「自動キャプション機能」です。(2011.7.15 YouTube 自動キャプション機能が日本語に対応。音声認識技術を使って日本語の動画に自動で字幕を表示開始

耳が不自由な人にも、web動画を楽しんでもらう一助になることが目的の一つである機能といえるでしょう。

では、どの程度の精度で文字起こしが可能なのでしょうか。NHKのキャスターによるニュース番組の一コーナーの冒頭50秒を試しに自動で文字起こしを行ってみました。(以下、上段が自動翻訳、下段が私が聞き取って書き起こした文章になります。)

0:03
続いては8分
さあ、続いてはこちら

0:05
ddです
AEDです。

0:07
心臓が止まった時に電気 ショックを与えもとに戻す
心臓が止まった時に電気ショックを与え、元に戻す

0:10
医療機器ですが
医療機器ですが、

0:12
今月のおはよう日本では 使い方をわかっていない人
先月のおはよう日本では使い方をわかっていない人

0:15
が多いという課題を使い ました
が多いという課題を伝えました。

0:19
救急通報
今朝は救急通報

0:20
ホテル内自治体の側がpdを うまく活用できていないの
を受ける自治体の側が、AEDをうまく活用できていないの

0:24
ではないかという問題です
ではないかという問題です。

0:27
今回nhkでは全国20の 政令指定都市の消防極東
今回、NHKでは全国20の政令指定都市の消防局と

0:31
東京消防庁に
東京消防庁に

0:33
aedの設置場所を把握している かどうか取材しました
AEDの設置場所を把握しているかどうか取材しました。

0:39
14%がまったく把握していない
すると、14%が全く把握していない、

0:44
4割近くが
また4割近くが

0:45
設置場所はある程度把握 しているが救急通報があった
設置場所はある程度把握しているが、救急通報があった

0:50
ときにその場所をつたえて いないとお答えました
ときにその場所を伝えていないと答えました。

こちらの動画の例ですと、想像以上に精度よく文字起こしがされているように見えますが、一般的には精度が低い動画の方が多いように感じます。ナレーションの背後にBGMが入っていたり、バラエティー番組のような複数人同時に喋るようなトーク、滑舌のはっきりしない一般の素人の声では、正直使い物にならない程度の精度と言わざるを得ない状況です。逆に、この精度の低さを”空耳”的に楽しんでいる状況です。(YouTubeに「文字起こし」機能が追加されているので試してみた【これ、ヤベェ】YouTubeの自動書き起し機能がめちゃめちゃな件

20141105_03

現状では精度は低いとはいえ、恐らく今後、精度が高くなり、正確な文字起こしが可能になるのではないでしょうか。そうなった時、動画内の単語も検索できるようになるのかもしれません。また、耳が不自由な人も、動画を自由に楽しめる時代が来るのかもしれません。

Photo by Esther Vargas