文字起こしをAIが自動的に行う「AI音声認識ソフトを活用した文字起こし」サービス。昨年来のコロナ禍によって急増したオンライン会議サービスと連携することで、議事録作成のニーズを解決できることから需要が高まり、利用者が拡大してきている。近年飛躍的に進化を遂げる「AI文字起こし」の現在について、推進協議会代表やソフトウェアの開発者に話を伺ったほか、実際にサービスを展開している事業もあわせて紹介する。
文字起こしの担い手にAI(人工知能)が参入
これまで人力で行っていた文字起こし作業をAI技術の活用で自動化した「AI文字起こし」は、依然として精度は人間に劣るものの、近年加速度的に成長していると文字起こし活用推進協議会代表理事の宮田志保氏は話す。同協議会は、文字起こし事業者や音声認識サービスの会社が集まって設立した一般社団法人で、文字起こし技術の浸透や経済的な発展を支える活動を行なっている。
もともとAI文字起こしの技術はあったが、特にここ数年で技術が進歩し、さらに法人向けから個人にまで広く知られるようになってきたのは、スマートフォンの普及が背景にあるという。スマートフォンに搭載された音声入力機能で、AI音声認識の技術が一般化したことによって、近年の利用者や事業者の増加につながった。
コロナ禍が普及の一因に
また、昨年来のコロナ禍によりオンライン会議の機会が増えたことが、AI文字起こしの認知、導入率の向上に一役買ったという。Zoomなどのオンライン会議ソフトとAI文字起こしソフトを連携することで、リアルタイムでのテキスト化や、後の議事録作成時のベースとして使うことができる。そのほか、YouTubeなどの字幕作成や、コールセンターの記録などAI文字起こしの活用シーンは多岐にわたる。
取材でも活躍するが利用には注意も必要
記者やライターが取材し、記事を制作する際に必要な作業である文字起こしにも、AI文字起こしは活用されている。素早くテキスト化できるため、速報性を求められる際にも対応可能な点や、長時間の録音素材も全て文字起こし可能な点が重宝され、利用者は業務効率化の恩恵を享受している。
一方で、入力する音声データの内容には気をつけなければいけないと宮田氏は注意を促す。無料のAI文字起こしサービスは、費用がかからない代わりに入力した音声データをそのAIの学習データに使用することがある。そのため、特に記者などが扱うコンフィデンシャルな取材内容は、サービス規約を確認し、データの二次利用を行わない有料サービスなどを選んで、セキュリティ面などにも十分に注意して使う必要がある。
文字起こし精度は人間が上
正式な記録として保存するための文章に求められる精度には達していないものの、現在のAI文字起こし技術はメモ書きとして十分に使えると宮田氏は話す。また、各サービスで実装されている単語登録機能を用いて、よく使う固有名詞を登録して自分用にカスタマイズすることや、必要箇所のみもう一度はっきりと復唱することでAIが認識しやすくする「リスピーク」などを行うことで、出力されるテキストの精度を高めていくことが可能だ。AIだけでなく、人力でのリスピークやテキスト修正を行なっている事業者もいる。
本来の仕事に集中できる時間を作る
株式会社アドバンスト・メディアは、音声認識エンジン「AmiVoice」の開発や、それを元にしたAI文字起こしサービスを提供している。2004年に地方議会へ議事録作成用のAI文字起こしソフトをはじめて導入するなど国内でもいち早くAI文字起こしサービスを開発、運営し、地方自治体や企業に向けて、それぞれの分野にカスタマイズしたソフトの導入を行なってきた。
同社VoXT事業部部長の志村亮一氏は、「議事録作成は新入社員が担当することが多いが、取締役会など部下に任せられない内容などで、役員が他にも重要案件を抱えているなかで文字起こし作業しなければならない状況で活用されてきた」と指摘。そのうえで「議事録を残すことは大事だが、それは本業ではない。AIの進化によって任せられるようになったところは任せることで、本来の仕事に集中できるようになる」と話す。
音声とテキスト連動=検索性
スマートフォンアプリ「UDトーク」の開発、運営を行なっているShamrock Records株式会社代表取締役の青木秀仁氏は、アドバンスト・メディアのサービス開発にも長年携わっている開発者だ。ユニバーサル・デザインの略称であるUDトークは、8年前に青木氏が聴覚障害者の知り合いとの接点から、聴覚障害を持つ人とコミュニケーションを行うためのリアルタイムのAI文字起こしツールとして開発された。以来、コミュニケーション支援以外にも、動画の字幕作成や、語学学習、取材時の文字起こしなど様々な場面で活用されているという。
青木氏は「音声ファイルとテキストが連動したタイムスタンプが記録されたCSVファイルを出力できるので、ただの音声ファイルにテキストでの検索性が生まれた。データは検索できることではじめて価値が生まれる」と語る。また、便利なものは活用するべきとし、「常に最新の情報を調べて、色々と使ってみるのがおすすめ」と利用を呼びかける。
最終的には人の編集力
自身もライターとして働いてきた経験のある宮田氏は「文字起こしは記者やライターにとって、記事制作業務の中の一部分でしかない。その割にはかなりの手間と時間がかかってしまうが、AI文字起こしによって簡単にできるようになった。そのおかげでできた時間で、前後の取材や下調べ、編集作業に注力することが重要だ」と強調する。
AI音声認識のさらなる進化に期待を寄せつつ「声を可視化するのが文字起こし。テキスト化してデータを残すのは大事だが、最終的にどう使いこなすかは『人』の編集力にかかっている」とし、ぜひ一度試してみてはと語る。