• ブログ
  • 文字の自動書き起こしができるソ...
文字の自動書き起こしができるソースネクストのAIボイスレコーダー「AutoMemo」の精度を徹底検証

文字の自動書き起こしができるソースネクストのAIボイスレコーダー「AutoMemo」の精度を徹底検証

■連載/石野純也のガチレビュー

 スマホよりコンパクトな翻訳機の「POCKETALK(ポケトーク)」を大ヒットさせたソースネクストから、新たなIoTデバイスが登場した。それが、AIボイスレコーダーの「AutoMemo」だ。一見すると、少々大ぶりなボイスレコーダーだが、この製品の特長は、クラウドとの連携による文字の自動書き起こしにある。

 AutoMemoは、Wi-Fi接続時に自動でクラウド上に音声ファイルを上げ、それをテキスト化。後から検索で必要な音声ファイルを探したり、聞き直したい箇所だけを再生したりといった操作が容易になる。Wi-Fi接続時に自動で音声ファイルがアップロードされ、アプリからそれを参照するだけで、従来型のボイスレコーダーと違い、ファイルをPCなどに移す手間も省ける。

 サブスクリプション型のビジネスモデルを採用しているため、容量の残りを心配する必要もない。料金は、月30時間まで録音データをテキスト化できる「プレミアプラン」が月額980円。追加で980円払えば、10時間単位でテキスト化する時間を追加することも可能だ。無料の場合、月1時間までテキスト化機能を利用できる。では、実際の使い勝手や文字起こしの精度はどうか。実機で実力を検証した。

AIボイスレコーダーと銘打ったソースネクストのAutoMemo

ディスプレイすら排除した超シンプルな操作性

 AutoMemoは、ほかのボイスレコーダーと比べ、見た目が非常にシンプルだ。一般的に搭載されているディスプレイはなく、ボタンも正面に2つとシンプル。再生機能も備わっていないため、音量調整ボタンなども存在しない。底面にある端子は、イヤホンではなく、マイクをつなげるためのもの。あくまで録音だけに割り切ったデバイスのため、デザインもそれを反映している。

外観は非常にシンプルで、前面にはボタンが2つついているだけだ

底面にはイヤホンジャックのような穴があるが、これはマイク用

側面には電源キーを備える

 操作はあっけないほど簡単。初期設定でWi-Fiにさえ接続してしまえば、あとは電源を入れて、録音開始のボタンを押すだけ。録音を止めるときには、もう一度同じボタンを押すだけだ。録音中はLEDが点灯し、それがわかる仕様になっている。上記のとおり、ディスプレイがないため、今、どの状態なのかが少々わかりづらいのは難点だが、ボタンが増えて複雑になるのとトレードオフといえそうだ。

 初期設定には、スマホが必要になるが、これも難しい操作は不要。AutoMemoを充電ケーブルにつないで、スマホのアプリを起動すると、自動的にAutoMemoが検出される。この状態で、接続したいWi-FiのSSIDを選び、キーを入力すればいい。使用時には常時Wi-Fiにつながっている必要はなく、録音したあと、Wi-Fiエリア内に入ると、自動的に音声データがアップロードされる。アップロード後、テキスト化が終わると、設定したメールアドレスとスマホに通知が届く仕組みだ。1時間程度の記者会見を録音してみたが、それほど待たされることなく、テキスト化が終わった。

充電時にスマホアプリから接続して初期設定を行う

 録音ボタンの下にある少し小さなボタンは、ブックマークをつけるためのもの。録音時に、小まめに押しておくようにすれば、そこでしっかり改行され、後から発言の区切りがわかりやすくなる。逆に、ブックマークなしだと、テキストがすべてひと続きになってしまい、後から解読するのが難しくなってしまう。少々手間だが、テキスト化の機能を有効活用するには、ブックマーク機能をきちんと使った方がいいだろう。

文字の自動書き起こしができるソースネクストのAIボイスレコーダー「AutoMemo」の精度を徹底検証

テキスト化の精度は環境によって大きく異なる、口語は苦手か?

 では、肝心のテキスト化の精度はどうか。以下のスクリーンショットは、楽天の決算会見の冒頭をテキスト化したもの。オンライン会見だったため、スピーカーの近くにAutoMemoを置いている。音響に関しては、リアルな記者会見よりよく、AIにとっては“テキスト化しやすい”環境といえる。ご覧の通り、比較的正確だが、ところどころ認識が甘い箇所がある。

オンライン会見をテキスト化してみた。精度はまずまずだが、ところどころに間違いがある

 それ以上に、句読点がつけられないため、どこで発言が区切れているのかがわかりづらく、可読性を落としている点が気になった。確かに、読点をつけるのは発言者本人でも難しいところだが、句点については、ある程度間が空いたときに自動で打つといった方法を取ることができる。テキスト化した音声の可読性については、再考の余地があると感じた。

 また、原稿を読み上げた文章のように、文語として成立している音声についてはテキスト化も比較的正確な一方で、話し言葉になると、精度が落ちてしまうのは気になった。例えば、同じ会見でも、質疑応答のように、あらかじめ文章化した回答がないようなシーンのテキストを見ると、精度が落ちている。認識がうまくできなかったのか、途中がバサッと抜け落ちてしまっているところも多々あり、どの箇所をテキスト化したのかが一目ではわかりづらい。

口語で、アドリブの多いやり取りをしていると、意味不明なテキストになってしまうことが多い

 実際、いったん文章になった原稿を読み上げながら、段落ごとにブックマークをつけていくと、かなり正確な文字になっている。結果を見ると、文語には強いが、口語にはイマイチといったところだろう。ただし、この状態でも、キーワードで音声ファイルの中身を検索することができるのは便利だ。筆者の場合、「5G」や「料金プラン」などのキーワードや、企業名の固有名詞で検索すると、対象となる音声が一発で表示されるため、後から聞き直したいときに、中身を開いて確認する必要がなくなる。

原稿を読み上げながら、ブックマークをつけてみると、比較的精度が上がった

 キレイな文章になってくれることを期待した向きには残念な結果かもしれないが、日本語は特にテキスト化が難しいと言われている。口語と文語の差も大きく、主語が省略されたり、文法を大きく無視した会話をするケースも多いため、英語などの言語以上にハードルが高そうだ。過度な期待はせず、後から録音したデータを検索しやすくなるといった程度の用途を想定しておいた方がいいだろう。

機能面では物足りない部分も、精度向上に期待

 シンプルで操作に迷うことがないAutoMemoだが、使い勝手の面では改善の余地がある。Wi-Fiの対応周波数はその1つ。コストダウンのためもあってか、2.4GHz帯しか利用できないが、より高速で干渉しづらい5GHz帯に非対応なのは残念だ。筆者は、電波干渉や通信速度などを考慮し、基本的には事務所のWi-Fiは5GHz帯のみにしている。そのため、2.4GHz帯のAutoMemoをネットに接続するには、スマホのテザリングを利用する必要があった。

Wi-Fiの対応周波数は2.4GHz帯のみ。モバイルデータ通信にも非対応だ

 欲を言えば、ソースネクストのPOCKETALKのように、モバイルデータ通信にも対応していてほしかった。テザリングで利用すれば、それに近いことはできる一方で、やはり機能をオンにするひと手間がかかる。モバイルデータ通信があれば、外出先で音声を録音して、その場ですぐにアップロード&テキスト化したデータを、自宅や事務所などのWi-Fiがある場所に戻る前に確認できる。既存のボイスレコーダーは、その場でサッと確認できたため、それに近いことをしようとすると、やはりモバイルデータ通信が必要だ。

 また、アプリだけでなく、PCからもAutoMemoのサイトにアクセスできるようにしてほしい。録音した音声やテキストをチェックするのは、どちらかといえば、デスクの前に座って腰を据えて原稿などを書く時だからだ。アプリで移動中などに確認できるのは便利だが、デスクワーク中にスマホをいちいちチェックしなければならないのは、少々面倒。可能であれば、アプリだけでなく、Webからも参照できるようにしてほしい。

録音した音声やテキストの確認には、アプリが必須になる

 まだまだ粗削りなところがある印象を受けたAutoMemoだが、音声をテキスト化できるボイスレコーダーというのコンセプトは画期的。スマホのアプリでも同様のことはできそうだが、デバイスが分かれているメリットも大きい。スマホだと、録音中にほかの操作をしづらい上に、着信などに反応できないからだ。Wi-Fiの対応周波数やモバイルデータ通信への対応はハードウエアに依存するため、後継機に期待するしかないが、テキスト化の精度はクラウド側でもアップデートすることが可能なだけに、継続的な進化に期待したい。

【石野's ジャッジメント】持ちやすさ ★★★★★UI ★★★★接続性能★★テキスト化精度 ★★★バッテリーもち ★★★★*採点は各項目5点満点で判定

取材・文/石野純也

慶應義塾大学卒業後、宝島社に入社。独立後はケータイジャーナリスト/ライターとして幅広い媒体で活躍。『ケータイチルドレン』(ソフトバンク新書)、『1時間でわかるらくらくホン』(毎日新聞社)など著書多数。