【Windows11】音声入力をはじめてみた【まだ持て余してる】

Windows標準搭載の
音声入力を使ってみた。

使用して３日時点の感想を
書いていく。

感想は
「科学の力ってすげー」
「でもまだちょっと痒い所に手が届かない」
って感じ。

使用ツール→Windows11デフォルトの奴
用途
感想
いかにデメリットを被らずメリットを享受するか
1. 書き言葉を口から出すのは現実的ではない
2. 話し言葉を後から修正するのが現実的
まとめ

使用ツール→Windows11デフォルトの奴

公式のマニュアル
(と思われるもの)はこちら。

ただ
ボクが事前に調べたことは
「Window + H」で
音声入力を受け付けるようになる
ということだけ。

あとは直感で使ってみた。

用途

適用したのは本の感想。

読んでいて
気になったところを
今までは
タイピング(タッピング)入力
してたんだけど、
それだと
打ち込むたびに
ページから目と手が離れてしまい
読書のテンポが悪くなるのが
気になっていた。

かといって
メモらずに読むと
その本で得たものが
一気にぼんやりとして
すぐに消えてしまうので、
メモは必須だと思っている。
ボクは頭が悪いので
一度自分の言葉で書き直さないと頭に入ってこない

キンドルなら
マーカー＆メモが簡単に
(メモ後に読んでた場所を探すことなく)
できるから良いんだけど、
図書館本だとそれはできない。

ってことで
ふと思い立って音声入力を試してみた。

結構昔に一度試したときは
精度が悪くて
使い物にならなかったんだけど、
今回使ったら
目に見えて精度が上がっていて
びっくりした。

感想

全体としての大まかな感想

ちゃんと入力すれば
精度はとても良かった。

体感95％は
ちゃんと入力してくれる。

自動の句読点も予想以上に
ちゃんとしていた。

国語授業の音読みを
久しぶりにした気分。

入力速度は間違いなく
キーボードで入力するよりも速くて
これは明確なメリット。

ただ、
記号や機種依存文字は
そもそも音声入力が対応してない
ものもあるらしく、
入力してくれなかった(後述)。

あとは
NGワードに過敏すぎて笑った(後述)。

良い点：①入力が速い

入力が速い。

これに尽きる。

逆に言えば、
現状はこれだけ。

気になった点：①誤変換

出現した誤変換の一例は
こんな感じ↓。
「入力したい単語→誤変換内容」の順

減塩→電源
塩→使用、しよう
脳と→ノート
a)→ええ）　
c)→しい）※b), d)はちゃんと入力できた
大きな→おーきな
多く→オーク

滑舌の問題も
あると思うんだけど、
まだ音声入力AI?は
文脈からの単語予測が
できないのかな？
と思わせるような
誤変換が目立つ印象。
なんで食べ物の話題で電源が出てくるんだ(笑)

「多く→オーク」って
ネットスラングだと思ってたんだけど、
もしかしてこれが起源だったり？

気になった点：②入力量が増えがち

思ったことをほぼそのまま
垂れ流して入力できてしまうので、
文章が冗長になってしまう。

キーボードで文字を打つときは
いかにいらない言葉を弾いていたのか
ということを再認識できた。

話し言葉と書き言葉の
違いっていうやつ。

垂れ流し入力の一例は
こんな感じ(体裁は修正済)↓。
読み飛ばし推奨

ボクは頭の中でごちゃごちゃ考えていて、文章を書く時はそれらのほんのちょっとの上積みをタイピングで出力しているんだけど、音声入力だと時間当たりに頭の中から出力される量がタイピングに比べてかなり増える。増えるって言っても情報量が増えるんじゃなくて、無駄な日本語が増える。なのでそれらをちゃんと読める文章にするには、文章を削ったり体裁を整えたりという追加作業が発生する。これってキーボード出力とどっちが楽なんだろう？

僕がよく本を読む勝間和代という人は、原稿を音声入力で書いているらしい。それってつまり、口に出す言葉がそのまま文章になっているということ。それってかなりトレーニングを積まなきゃできない気がする。ていうか、もし本当に口語＝文語の人がいるとしたら、日常会話がすごい他人行儀というか、機械的というか、違和感がすごいことになりそうなんだけど、この勝間さんの日常会話ってどんな感じなんだろう？違和感がすごいのかな？それともちゃんとしゃべりでの口語モードと文語モードの切り替えができてるから違和感なんかないのかな？

垂れ流し音声入力ここまで↑

この文章に関しては、
体裁を整える時間が
音声入力する時間の
倍以上かかっている。

これだったら
同じ内容を
最初からキーボードで
入力した方が速い。

気になった点：③音声入力の窓が表示されているときは通常の文字入力ができない

音声入力をするには
「windows+H」を押して
音声入力ウィンドウ↓を表示させ、
入力受付状態にする必要がある。

このウィンドウ↑
が表示されている状態だと、
入力受付中かどうかは関係なく
キーボードでの文字入力が
おかしくなる。

例えばこんな感じ↓。

「しお」→「ｓいお」
「大きな」→「おおｋいｎあｎいおお」
「炭水化物」→「ｔあｎｎｓういｋあｂうｔうい」

頑張れば変換法則を
見つけられそうだけど、
そんな面倒なことはしない。

母音と子音が結合せずに
１タイプ１文字になっちゃってるんだろうけど、
それだけだと「大きな」の後半の「ｎいおお」や
「炭水化物」の最後の「い」の説明がつかない。

なので
修正するときはいちいち

ウィンドウを×ボタンで消す
↓
修正する
↓
windows+Hでウィンドウを出す
↓
音声入力する

としなければならない。

これが面倒くさい。

なお
句読点、鍵括弧、改行、消去は
ウィンドウが出たままでも
バグらず入力(実行)可能なので、
これらだけの修正なら
ウィンドウが出たままでもOKだった。

気になった点：④改行したりしなかったり

「改行」と音声入力すると
改行してくれたり
「改行」「開業」
「概要」「海洋」「会用」
と文字入力されて改行されなかったりと
挙動が安定しない。

何か法則があるのかな？

しばらくいろいろ試してみようと思う。

気になった点：⑤対応してない文字がある

現時点で直面した範囲で
「～」、「①②③…」が
入力できなかった。

公式のマニュアル？の
句読点コマンド一覧に
載ってなかったから
非対応なんだろう。

非対応だとしても
入力した音声と出力文字が
１：１対応してくれれば
後で一括で置換することで
ある程度手間を省けるんだけど、
「①」については
現状「まるいち」と
音声入力すると
「丸一」「丸１」「まる一」
「マル一」「まるイチ」等
表記がバラつくので
それもできない。

とっても不便。

軽く調べた範囲では
無かったんだけど、
辞書登録みたいな
機能があればいいのに。

気になった点：⑥実用的じゃないワードの変換が優先されている

「繰り返し」と音声入力すると
「々」が出力されてしまう。

ていうか
キーボード入力で
「繰り返し」と打ち込むと
「々」が出てくることを
初めて知った。
これまでずっと「佐々木」って打ってから
前後を消してた。

閑話休題。

誤変換ではないにせよ、
「繰り返し」と「々」では
前者の方が使用頻度が高いと
思われるので、
「々」が優先されるのはどうなの？

やっぱり
文脈で判断してくれないのかな？

気になった点：⑦NGワードに過敏すぎ

「Fワード」が「f**k」に
なるのは理解できる。

それをそのまま
日本語に対応させたら、
「くそ」がNGワードに
なるのも理解できる。

だからって

「～だけでなく、それに伴う…」
↓
「～だけでな*、*れに伴う…」

っていうのはどうなの？
最初見たときバグったのかと思った

幽遊白書の海藤戦かよ(笑)

あとは

「メタアナリシス、系統的レビュー」
↓
「meta *****系統的レビュー」

とか。

話者数を考えれば
自然なんだろうけど、
日本語の音声入力は
開発の優先順位が低い
ってことかな。

外で利用するには度胸がいるのでは？

これは体験談ではなく
想像なんだけど、
普通に外じゃ音声入力できなくね？

例えばボクは
散歩中にいろいろ
思いつくことがあるから
それを思いついたそばから
音声入力できれば
思いつきが消える前に
記録に残せて何かと便利だな
と思うんだけど、
ちょっとボクには
恥ずかしくって
外でスマホのマイクに向かって
思いついたことをだらだらと
語りかけることはできない。

慣れてしまえば
そんなことないのかな？

あ、通話を装えばいけるかな？

そんなことしなくても
案外スマホのマイクは優秀で、
小さな声でつぶやくだけで
ある程度拾ってくれたり？

いや、
そもそも普段散歩中に
思いついたことを
スマホに入力なんかしないんだから、
散歩中に音声入力することを
想定するのが間違いか。

いやいや、
電車の中で
メモアプリに入力することあるけど、
音声入力なんて絶対できないな。

散歩中の音声入力は
まだハードルが低いのかも。

明日試してみようかな。

生データのままでは自分用メモでも要修正

いくら音声入力の
変換の精度が高いといえども、
上述の気になった点が
全部載っかってくるので、
自分が入力した内容とは言え
修正なしの生データのままでは
時間が経つと入力内容が
部分的に把握できなくなる。

なので
入力内容の修正という手間が
どうしても必要になってしまう
というのが
ボクが現在解決したい問題になる。

いかにデメリットを被らずメリットを享受するか

ここまで音声入力の
良いところと気になるところを
書いてきた。

良い点１つに対して
気になるところが７つもあるので
音声入力って不便じゃん
と思うかもしれないけど、
「入力が速い」という
メリットがもつポテンシャルは
すさまじいものがあると思う。

この圧倒的メリットを
如何に活かせるか？が
今後ボクが音声入力の利用を
継続するかどうかの分かれ目かと。

書き言葉を口から出すのは現実的ではない

デメリットを最小化する
ひとつの方法は、
音声入力AI？の都合に合わせた
音声を入力してあげること。

つまり
書き言葉でしゃべればいいということ。

ただ、
ぼくをはじめ
大抵の人は話し言葉と書き言葉が異なるので
書き言葉でしゃべるのは非常に難しい。

そして仮に
それが実行できてしまった場合も、
日常的に話す言葉が
書き言葉で堅苦しくなるという
副作用が起こる気がするので、
この方法はボクにとっては
現実味がない。
いや、普段誰とも喋らないから
副作用が起こっても関係ないのか？

話し言葉を後から修正するのが現実的

「口から書き言葉」がダメなら
話し言葉で入力した文章を
後から書き言葉に直すという
一般的な方法しかないんだけど、
後から書き言葉に直すのが
面倒くさいという話を散々している。

なので
さっきも書いたけど、
いかに楽して
話し言葉を書き言葉に修正するか？
がボクがこれから直面する問題になる。

それについては
まだ音声入力試して３日目だし、
今後もいろいろ試しながら
追々改善していければと思う。

まとめ

３日前から音声入力を試してみた
精度は思ったより良かった
だからこそ細かな変換ミスが目立つ
生データのままでは使えない
入力の速さは魅力なので、有効活用したい

それでは～

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31