NoBlog -I'm Hearing Impaired-

NoBlog -I'm Hearing Impaired-

感音性難聴(右:105dB 左:91.25dB)/ 音声認識と情報保障に関する研究をしてました

【Mail】 kuwanobu0アットgmail.com 【Twitter】 gobou2007

『聴覚障害者のための字幕付与技術』シンポジウム 2014

 3月1日(土)に京都大学で『聴覚障害者のための字幕付与技術』シンポジウム(http://www.ar.media.kyoto-u.ac.jp/jimaku/)が開催されました。ご来場頂いた皆様、本当に有難うございました。今回は120名以上の方々に参加していただき、収容定員オーバーのため一ヶ月前に参加申込が締切りました。参加できなかった方々、大変申し訳ございませんでした。

 今回のシンポジウムでは要約筆記・ノートテイク・音声認識研究の第一人者による講演が行われました。音声認識を用いたノートテイクについて研究室の教授が講演しました。私の研究内容の一部を教授が報告し、教授の発表後に少しスピーチの時間をいただきました。情報保障は、PCテイクではなく当研究室の音声認識による字幕提示を行いました。これはJuliusという音声認識ソフトを用い、事前に講演の原稿を用いてモデルをカスタマイズを行っています。体感的に教授の認識精度は90%以上で、難聴なまりの私の場合では60~70%程度でした。実際に会場に提示した字幕は、提示する前に人手で音声認識結果を確認修正を行っています。認識精度が低いと確認修正作業量が増えるために、リアルタイムに字幕を提示できなくなります。教授の発表時と比較して、私の時は確認修正作業が大変だったそうです。この修正作業を行った研究室の先輩が、過去に字幕シンポジウムについて投稿していますので、興味のある方は是非。

音声認識による字幕付与 - あしたからがんばる ―椀屋本舗

 シンポジウムの交流会で、5年前にも参加した方から音声認識字幕の精度が良くなっているとの声をいただきました。今回のシンポジウムではディープニューラルネットワーク(DNN)というモデルを用いて音声認識を行いました。音声認識では、20年間、HMMが主流として使われていました。DNNモデルはHMMモデルよりも3%程度の精度が向上すると報告されています。DNNについて詳しく知りたい方は、下記の論文をご覧下さい。

http://www.ar.media.kyoto-u.ac.jp/members/kawahara/paper/KAW-slp14-1.pdf

  私は4年前に開催された字幕シンポジウムに参加し、ここで初めて音声認識字幕に出会いました。ここで見た音声認識字幕に感動し、修士課程の2年間、リアルタイム字幕付与システムの研究開発を進めていきました。もっと詳しく知りたい方は、ワークショップの原稿(http://www.cl.ics.tut.ac.jp/~sdpwg/sdpws2014_proceedings/SDPWS2014-02.pdf)がアップされていますのでご覧下さい。学生最後に、この字幕シンポジウムで自身の研究報告できて光栄でした。ありがとうございました!

f:id:gobou2007:20140305162722j:plain

                          図:2010年〜2014年のシンポジウムの冊子