最近、僕はカフェで音声入力をしています。

「えっ、カフェで声出すの?」と思った方。落ち着いて聞いてください。周りには一切聞こえないレベルの小声で、しっかり文字が打てるんです。

これを実現してくれているのが、Shokz OpenComm2 UC というブームマイク付きの骨伝導ヘッドセットです。

なぜ音声入力なのか

正直に言います。キーボードを打つより、しゃべる方が3倍速いです。

ブログを書く、メールの返信をする、メモを取る。どれも頭で考えながら指で打つよりも、口から出した方が圧倒的に早い。これに気づいてから、僕の作業効率はガラッと変わりました。

でも、ずっと家やオフィスで作業するわけにはいきません。気分転換にカフェに行きたい日もある。

そこで「カフェで音声入力ができたら最強じゃないか?」と思って、いろいろ試してきました。

なぜ普通のイヤホンマイクではダメなのか

最初は普通のワイヤレスイヤホンのマイクで試しました。AirPods、SOUNDPEATS、いろいろ。

結論から言うと、カフェの環境音を全部拾ってしまうんです。

  • BGMの音楽
  • 隣の席の会話
  • エスプレッソマシンの音
  • 食器の音

これが全部「自分の声」と一緒にマイクに入って、文字起こしがめちゃくちゃになります。

ブームマイクという解決策

そこで出会ったのが、口元まで伸びるブームマイク付きのヘッドセットです。

マイクが口の真横にあるので、自分の声だけをはっきり拾ってくれます。逆に、周りの音はほとんど拾わない。これが革命でした。

Shokz OpenComm2 UCを選んだ理由はこれです。

  • 骨伝導なので耳をふさがない(カフェでも周りの状況がわかる)
  • ブームマイクで小声でも認識する
  • USBドングル付属でPCとの接続が安定
  • バッテリーが16時間持つ

正直、見た目はちょっと変わってます。でも実用性は圧倒的です。

文字起こしは Whispering + Groq API

ヘッドセットだけでは音声入力はできません。文字起こしのソフトが必要です。

僕が使っているのは、Whispering というオープンソースのアプリと、Groq の Whisper API の組み合わせ。

なぜこの組み合わせかというと、

  • ローカルで動くので情報漏洩の心配が少ない
  • Groq APIは爆速(OpenAIのWhisperよりも速い)
  • 月数百円〜千円程度で使える

OSの標準音声入力(WindowsやMacのもの)よりも、圧倒的に精度が高いです。

困ったこと:FFmpegエラー

セットアップで一つだけ詰まったのが、FFmpeg関連のエラーでした。

WhisperingがFFmpegを呼び出すのですが、PATHが通ってないとエラーになります。これはMacならHomebrew、Windowsなら公式サイトからダウンロードしてPATHを通せば解決します。

ここはちょっと初心者には難しいかもしれません。でも一度設定すれば、あとは何もしなくていいので、最初だけ頑張る価値はあります。

カフェでの実用感

実際にカフェで使ってみて、感想を言います。

周りからの視線:ブームマイクは小さいので、思ったほど目立ちません。電話してると思われる程度です。

音声認識の精度:小声でも98%くらいの精度で文字になります。

疲れにくさ:骨伝導なので、長時間つけていても耳が痛くなりません。

正直、もう普通のキーボード入力には戻れません。

まとめ

カフェで音声入力をするための条件はこの3つです。

  1. ブームマイク付きのヘッドセット(Shokz OpenComm2 UCがおすすめ)
  2. 高精度な音声認識(Whisper API系)
  3. PATHなどの初期設定をきっちりやること

セットアップに半日くらいかかりますが、その後の作業効率は別次元です。文章を書く仕事をしている方、ぜひ試してみてください。

世界が変わります。

似たようなヘッドセットで安いもので、精度が高いものです。
Shokz OpenComm2 UCにも負けないでしょう。

 

Twitter でおーの ゆーやをフォローしよう!