最近、僕はカフェで音声入力をしています。
「えっ、カフェで声出すの?」と思った方。落ち着いて聞いてください。周りには一切聞こえないレベルの小声で、しっかり文字が打てるんです。
これを実現してくれているのが、Shokz OpenComm2 UC というブームマイク付きの骨伝導ヘッドセットです。
なぜ音声入力なのか
正直に言います。キーボードを打つより、しゃべる方が3倍速いです。
ブログを書く、メールの返信をする、メモを取る。どれも頭で考えながら指で打つよりも、口から出した方が圧倒的に早い。これに気づいてから、僕の作業効率はガラッと変わりました。
でも、ずっと家やオフィスで作業するわけにはいきません。気分転換にカフェに行きたい日もある。
そこで「カフェで音声入力ができたら最強じゃないか?」と思って、いろいろ試してきました。
なぜ普通のイヤホンマイクではダメなのか
最初は普通のワイヤレスイヤホンのマイクで試しました。AirPods、SOUNDPEATS、いろいろ。
結論から言うと、カフェの環境音を全部拾ってしまうんです。
- BGMの音楽
- 隣の席の会話
- エスプレッソマシンの音
- 食器の音
これが全部「自分の声」と一緒にマイクに入って、文字起こしがめちゃくちゃになります。
ブームマイクという解決策
そこで出会ったのが、口元まで伸びるブームマイク付きのヘッドセットです。
マイクが口の真横にあるので、自分の声だけをはっきり拾ってくれます。逆に、周りの音はほとんど拾わない。これが革命でした。
Shokz OpenComm2 UCを選んだ理由はこれです。
- 骨伝導なので耳をふさがない(カフェでも周りの状況がわかる)
- ブームマイクで小声でも認識する
- USBドングル付属でPCとの接続が安定
- バッテリーが16時間持つ
正直、見た目はちょっと変わってます。でも実用性は圧倒的です。
文字起こしは Whispering + Groq API
ヘッドセットだけでは音声入力はできません。文字起こしのソフトが必要です。
僕が使っているのは、Whispering というオープンソースのアプリと、Groq の Whisper API の組み合わせ。
なぜこの組み合わせかというと、
- ローカルで動くので情報漏洩の心配が少ない
- Groq APIは爆速(OpenAIのWhisperよりも速い)
- 月数百円〜千円程度で使える
OSの標準音声入力(WindowsやMacのもの)よりも、圧倒的に精度が高いです。
困ったこと:FFmpegエラー
セットアップで一つだけ詰まったのが、FFmpeg関連のエラーでした。
WhisperingがFFmpegを呼び出すのですが、PATHが通ってないとエラーになります。これはMacならHomebrew、Windowsなら公式サイトからダウンロードしてPATHを通せば解決します。
ここはちょっと初心者には難しいかもしれません。でも一度設定すれば、あとは何もしなくていいので、最初だけ頑張る価値はあります。
カフェでの実用感
実際にカフェで使ってみて、感想を言います。
周りからの視線:ブームマイクは小さいので、思ったほど目立ちません。電話してると思われる程度です。
音声認識の精度:小声でも98%くらいの精度で文字になります。
疲れにくさ:骨伝導なので、長時間つけていても耳が痛くなりません。
正直、もう普通のキーボード入力には戻れません。
まとめ
カフェで音声入力をするための条件はこの3つです。
- ブームマイク付きのヘッドセット(Shokz OpenComm2 UCがおすすめ)
- 高精度な音声認識(Whisper API系)
- PATHなどの初期設定をきっちりやること
セットアップに半日くらいかかりますが、その後の作業効率は別次元です。文章を書く仕事をしている方、ぜひ試してみてください。
世界が変わります。

似たようなヘッドセットで安いもので、精度が高いものです。
Shokz OpenComm2 UCにも負けないでしょう。
Twitter でおーの ゆーやをフォローしよう!
Follow @15tei