NEXTSCAPE blog

株式会社ネクストスケープの社員による会社公式ブログです。ネスケラボでは、社員が日頃どのようなことに興味をもっているのか、仕事を通してどのような面白いことに取り組んでいるのかなど、会社や技術に関する情報をマイペースに紹介しています。

MENU

Speech Studioの「リアルタイム音声テキスト変換」を試してみる

Speech Studioについて

株式会社ネクストスケープ、ソリューションビジネス部所属の小野塚です。

今回はAzureAI Speech Studioの記事となります。

このSpeech Studio、「アプリケーションで Azure AI 音声サービスの機能を構築および統合するための UI ベースのツールのセット」ということで音声周りのサービスの設定、テスト、確認がWeb上で簡単に行えます。
実際にアプリケーションにこれらのサービスを組み込むにはコードの記述が必要になりますが、そのとっかかりとなるであろうサンプルコードもSpeech Studioが提供してくれます。

では早速Speech Studioにアクセスしてみましょう。

speech.microsoft.com

以下がTOPページになります。

上の画面はTOPページの一部ですが、下までスクロールするとSpeech Studioの機能が一通り表示されています。
大項目に該当するであろう機能は以下になります。

  • シナリオ別の音声機能
  • 音声テキスト変換
  • テキスト読み上げ
  • 音声アシスタント

Speech Studioの各機能にフルアクセスするには自身のAzureサブスクリプション上にSpeech ServicesやCognitive Servicesをデプロイする必要がある場合があるのですが、今回試す内容については必要ありません。

リアルタイム音声テキスト変換を試す

今回は上の4つの機能のうち、「音声テキスト変換」の「リアルタイム音声テキスト変換」を試してみたいと思います。
TOPページをスクロールし、以下の画面の赤枠部分、「リアルタイム音声テキスト変換」をクリックします。

すると以下の画面に遷移します。

まずは変換したい音声の言語を選択する必要があるため、「言語を選択する」プルダウンで日本語を選びます。

更にその下の「オーディオファイルを選択する」であらかじめ録音したオーディオファイル、mp3ファイルをアップロードします。

ちなみにWindowsのボイスレコーダー機能で録音及びファイル出力は可能なのですが、ファイル形式がm4aなので更にmp3への変換が必要になりますのでご注意ください。iTunesでも変換可能です。
また、上の画像にあるように「マイクで音声を録音する」こともできるのですが、同じソースで何度も変換結果を試したい場合はファイルに出力しておいた方が良いです。
ここでは割愛しますが、「マイクで音声を録音する」と、まさに機能名通りリアルタイムで文字起こししてくれますし、画面にも記載されている通り1分以内であれば無料なので、試してみてもらえればと思います。

今回試した文言は当社の企業理念である以下の赤枠部分を私が夜中に一人でつぶやき、録音したものになります。

企業情報 | 株式会社ネクストスケープ

結果確認とチューニング

そしてその録音したファイルをアップすると即変換が行われまして、結果は以下のようになります。
いかがでしょうか?少々文字が小さいかもしれませんのでその場合は少々拡大してご覧ください。

この結果をどうとらえるかは人によるかもしれませんが、低く見積もっても大体7~8割は文字起こしできているような気がします。
ただ、私の活舌の悪さもありまして、「事業」が「授業」、「IT技術を駆使して」が「IT技術を作成して」となってしまっているのはちょっと残念な感じです。

そこで再度録音することなく、なんとか出力結果を改善できないか調べてみたところ、以下のような「語句リスト」という設定に気づきました。

ヘルプによると語句のリストを指定することで音声認識の精度を向上させることができるようです。

ということで、今回正しく変換できなかった「事業」と「駆使して」を登録してみます。

語句リストを登録後、再度文字起こしを試した結果が以下になります。
見事に「事業」「駆使して」が正しく変換されていました。

間違えた場所を指定したわけでもないので本当だろうかと思い、再度語句リストを無効にして試してみるとやはり間違った出力結果になっていましたので、どうやら語句リストの内容が有効となり、出力結果に反映されているようです。なかなか良い結果が得られました。

恐らく皆さんが携わっている事業・業務の専門用語であったりはこういった変換間違いが起きやすいと思いますので、あらかじめこのように語句リストに登録しておくと正しく変換される可能性が高まると思います。

最後に

皆さんもご経験があるかもしれませんが、少し前まではこういった文字起こしについては英語はかなり精度が高いものの、日本語はまだまだこれからという印象がありました(サービスにもよりますが)。
例えばYoutubeの字幕機能を思い出してもらうと「ああ。。」と皆さんも思い当たることがあると思います。

しかしながらここ最近、当社ではMicrosoft Teamsでオンライン会議を行い、その内容を録画・文字起こししており、更にそれらを元にサマリーを作成するようにしているのですが、やはりこれもかなり精度が上がってきております。
上で挙げたように専門用語や特定の会社の社名(特に会社の略称)等については「ん?」と思わせる出力結果にはなるものの、それを除いては実際に録音された内容を見聞きせずとも会議の内容がかなり把握できるレベルになっています。

今回はまだ本当に「試してみた」レベルですが、最初にTOP画面でお見せした通り、非常に興味深く、役立つ機能が色々とSpeech Studioでは揃えられています。
機会があれば他の機能についてもこのブログでご紹介できればと思います。
また、今回紹介したテキスト変換、文字起こし機能については過去に当社XRチームの道下がXR、Quest3と組み合わせる形で実際にアプリに組み込み使用していますので以下の記事も併せてご覧ください。

blog.nextscape.net

当社はWebサイト、スマホアプリ、Hololensアプリの開発だけでなく、こういったAIを利用したサービス開発等にも既に色々と取り組んでおります。
興味のある方は是非お気軽にお問い合わせください。

nextscape.net

(以下当社お問合せフォーム)

Microsoft Forms