willist

ヤクの毛刈り祭り --yak shaving festival--

英語"で"学ぶ人のためのチートの方法~動画を音声認識で文字起こしする~

英語の動画やビデオで話している人の英語を聞き取れない場合に、音声認識による文字起こしを利用して理解の助けにする方法について。

英語のポッドキャストで勉強したいことがあるとか、ツールの使い方の動画が英語しかないだとか、リモートで行われる授業が英語だとかで、英語を聞き取りたい、でも聞き取れない、そんなときに字幕があればかなり理解しやすくなる。しかし字幕などない…そんな時に、音声認識でなんとかする方法を書いた。けっこう有用なので、似たような人がいたらぜひ活用してほしい。

今受けている授業が英語で苦労しており、「英語は別に勉強したくないけどやってることに英語がいるんだよそのために英語だって勉強し始めたけれどもそんなすぐにできるようにならんし、読んだり書いたりはGoogle翻訳とかでできないなりにやれるけど動画とか!ビデオ会議とか!どうしたらいいのしゃべる前にまず何言ってるかわからないよ!」という気持ちが爆発したのでやった。

それと、文字化しておくと検索できるのであとで「あれどうだっけ」って時にも便利。

「動画ダウンロードできる&時間がある場合」と「ダウンロードできない or リアルタイムの場合」のふたつの方法を使っている。ダウンロードできる場合にはYoutubeで字幕をつける、ダウンロードできない場合には動画の音声をループさせてGoogleDocsで音声認識させて吐き出す、という方法をとった。

動画ダウンロードできる&時間がある場合

一言で言うとYouTubeを使おうだ。 YouTubeは自動で字幕を出してくれる&翻訳をしてくれる。

ただ動画の公開にYoutubeを使っていない場合もある。私の場合、FabAcademy の動画はviemoで見るか直接ダウンロード。残念ながらYoutbeではない。 なので、プライベート設定でYouTubeにアップロードし、字幕をつけて見たり、スクリプトをまとめて読んだりする。

YouTubeにアップロードする

右上の↑からアップロード画面へいき、アップロードする動画を選択。この時、「非公開」を選ぶ。*1 f:id:interestor:20170221155239p:plain

アップロードされるまで待つ。アップロードが終わっても字幕のための処理には時間がかかり、公開直後は字幕がつけられない場合があるので、時間を置く。 f:id:interestor:20170221155253p:plain

字幕を使う

自分がアップロードした動画の一覧を開く。非公開動画は初めの場面では表示されていないので注意。「アップロード動画」と書かれているところをクリック。 f:id:interestor:20170221155308p:plain 非公開動画についても鍵付きで表示されるので、動画をクリック。 f:id:interestor:20170221155317p:plain 動画の右下に出る字幕のボタンをおすと動画に合わせて字幕が表示される f:id:interestor:20170221155340p:plain 設定を変えて翻訳することもできる。 f:id:interestor:20170221155326p:plain

その他→文字起こしを選ぶと字幕が全て表示させるので、コピーして保存するなども可能。

f:id:interestor:20170221155345p:plain

リアルタイム or ダウンロードできない場合

動画をダウンロードできない場合や、リアルタイムでの授業やビデオ会議などでは、GoogleDocs で音声認識させてその場でテキスト化する。音声をパソコン内でループさせるので、音声が外に出てこない。私は音声認識しているのとは別のPCで同時に接続し、会話はそちらでするようにしている。それができない場合はループさせずに内蔵スピーカーから音を出してマイクで音を拾うこともできるが、認識精度が落ちそうな気がしてやっていない。*2

音声をループさせる

PCで再生している音声をPCに入力できるように設定する。すべてMacでの手順。 フリーソフトsoundflowerをダウンロードする。 f:id:interestor:20170221181402p:plain 私はここの下の方のリンクからdmgをダウンロードした。 インストラーの案内に従ってインストールする。

インストールしたらMacのメニューバーのスピーカーをクリックすると、soundflowerというのが現れているはず。そこからサウンド環境設定を開く。 f:id:interestor:20170221182007p:plain

出力タブで、soudflowe2chに設定 f:id:interestor:20170221182335p:plain

同様に入力タブをsoudflowe2chに設定。 f:id:interestor:20170221182522p:plain

これで準備完了。

Google Docs音声認識させる

Google Docsを"Chromeで"開く。*3 tool > 音声認識(voice typing)を選ぶ f:id:interestor:20170221183332p:plain

ビデオを再生し、マイクのボタンを押すと音声認識が開始される。 f:id:interestor:20170221183313p:plain

弱点として、しばらくしゃべらない時間が続くと切れてしまう。長時間の動画を文字起こしする場合などは注意が必要。

使えるか?精度など

DoogleDocs とYouTube 音声認識結果比較

それぞれの方法での精度はどうなのか?今回同じ音源*4(Docはリアルタイムではなくていでお音声を利用)を文字起こししたものを比較してみた。GoogleDocs もYouTubeもきっと同じエンジン使ってるだろうしほぼ一緒だろうと思いながら比較して見たところ、結構違いがあった。

f:id:interestor:20170222120917p:plain

見た感じYoutubeの方が正しく単語を認識していることが多い(逆にDocsであっているがYotubeで違っているところもある)。Youtube の方は文法などから補完をしているような節も感じる。また、動画と同時に見たり、テキスト検索からそれが動画の何分何秒で話されているかもたどれるのが便利なので、Youtubeを使う方が好きだ。

GoogleDocs の音声認識も、内容の理解の助けにするには十分だと思う。それに、リアルタイムでできるというのはやはり強みがあるのでこちらはこちらで使っている。

おまけ Docs で日本語に翻訳

Google Docsには翻訳ツールもついているので文字起こしをした後の文章をまるまま翻訳することもできる。 ツール>翻訳。でてきた翻訳ウィンドウで日本語を選ぶ。 f:id:interestor:20170222123014p:plain

こんなかんじ。 f:id:interestor:20170222123021p:plain

元が話し言葉で文の切れ目がわかりにくい&音声認識ミス&機械翻訳、となるとさすがにスムーズに読める文にはならない。英語のまま読んだ方が理解しやすい。英語の訓練にもなるし英語で読むよ。

*1:非公開でも自分が権利を持っていない動画の場合著作権の侵害となる。権利を持っている動画を使うor許可をとる必要がある

*2:検証はしていない

*3:ちなみに私はメインで使っているのがfirefoxなのであれ?ってなった

*4:この動画の授業では教授はわかりやすくゆっくりしゃべってくれていてくれている。