Microsoft Azure Cognitive Speech Services (発音評価)を用いた言語リハビリ支援の提案

構音障害当事者となったエンジニアがAzure AI によって早期に発声を取り戻した事例

はじめに

私は食生活の乱れから(塩分と脂分が多めのオリジナルカレーを開発し半年間食べ続け)、アテローム血栓性脳梗塞を発症し、コミュニケーションが困難となる運動障害性構音障害(呂律が回り難くなった状態)を経験しました。幸い、都内でも有数のSCU(脳卒中集中治療室)病棟へ緊急入院することができ、翌日から言語療法、作業療法、理学療法によるリハビリテーションを開始することで早期の退院となり、現在は回復維持期として在宅勤務による治療と業務の両立を実現しています。

今回、構音障害(発音ができなくなった状態、歯科などで麻酔をした時に、発声ができなくなったイメージ)の克服が大きな復職テーマであり、日ごろ携わっているAIテクノロジーが言語聴覚分野で悩みを抱えている方への何らかのヒントとなればとの考えで公開いたしました。

私が行ったトレーニングは、高齢者介護でお馴染みのパタカラ体操(誤嚥を防ぐ準備運動)と同じでしたが、構音障害の回復訓練に必要なのは「メリハリ、なめらかさ」といった判定でした。その際に、Azure Cognitive Speech Services の Speech Studio が使えるのではないだろうか?と思いつき、実践してみました。以下はその記録です。

※本記事はあくまで個人の体験を記したもので効果を保証するものではありません。治療やリハビリに関しては、かかりつけの医師や専門家にご相談ください。

Azure Cognitive Speech Services

Microsoft Azure の音声サービスには、音声認識、テキスト読み上げ、音声翻訳、音声対応アプリの機能などがあります。
https://azure.microsoft.com/ja-jp/products/cognitive-services/speech-services

国際会議などで複数の話者を識別することやリアルタイムで多言語翻訳を実現するなどのデモ環境構築を伴うプリセールス経験を有しており、退院した当日は安静推奨と医師から指示を受けていましたが、自分が欲しいものがここにあると思って Azure Portal に向かっていました。

Speech Studio – 発音評価

Azure Portal へログインすると同僚が作ったと思しき Azure Speech Service リソースが目の前にあったので、事後報告するつもりで 【Go to Speech Studio】をクリック。

ここで、Speech Studio 独自の入力機能を使います。
自分で読み上げると30秒くらいの文章も考えておきましょう。

独自の入力例:今日も私は脳梗塞維持回復期の減塩食を自分で作りました。
もち麦ご飯、ひきわり納豆、絹ごし豆腐に減塩釜揚げしらすです。
お醤油は出汁わり醤油を用いることでトータルの食塩相当量は1.1gに抑えました。一食あたりの材料費は180円です。調理から食事まで楽しむリズムをこれからも継続したいです。

実際に発音評価をしてみましょう。

結果を確認しましょう。

自分では聞き取りやすい評価ができないものの、機械が客観評価する利点を体感することができました。
誤った発音は録音された音声を聞きなおすと、文節が変わった直後は弱い発音であることに気付きました。
こうして自分の強みと弱みを理解してセルフトレーニングを続ければ、声を出すことに自信が持て早期の回復に繋がるのではないかと希望も抱きました。

実際に退院初日から5日間程度は連続して10分程度対話するだけでも精一杯でした。
口と舌と下顎を体操する以外に、横隔膜リリースと肩甲骨ストレッチに呼吸法なども日々組み合わせ30分を3セット継続を持続することで、退院10日目には20分程度へ、20日目には30分程度の1×1ミーティングで相手に聞き返されることはほぼ解消するまで回復しました。

なお、ここまで一切プログラミングは行っていません。

これを何らかのプロダクトに組み込んで、支援工学 (Assistive Technology) に基づいた支援機器として組み込みたいのであれば、このSpeech Studioは次の手順としてサンプルコード (https://aka.ms/pronunciationassessment/sample ) と、発音評価ドキュメント (https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-pronunciation-assessment?pivots=programming-language-csharp )が提供されています。

注意:発音評価の使用には、従量課金制かコミットメント レベルかに関わらず、標準の Speech to text の価格と同じ料金がかかります。 標準の Speech to text のコミットメント レベルを購入した場合、発音評価の支出はコミットメントを満たす方向に向けられます。

料金表:
https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/speech-services/
(概算価格やこのブログに記載した内容のご相談は相談フォームを通じてお問合せください)

今後の展望

今回、構音障害当事者として退院後のセルフトレーニングの質を良くしようと藁にもすがる気持ちで、Microsoft Azure Cognitive Speech Services によって発声評価の可視化で、ここまで回復できたことは歓びですし、医療的エビデンスは後付けとなりますが構音障害のみならず、言語聴覚療法を必要とされる高次脳機能障害(行政的高次脳機能障害)に困る方やその他臨床実践において、何らかの支援工学や学習支援としても Azure Cognitive によって社会支援できるのであれば喜ばしく思うと同時に、こうしたコンピュータ技術による支援対象とならない方がおられたとしても同じ社会の一員です。
合理的配慮でもって社会参加が続けられる環境にこれからも向き合っていくことが、社会福祉士でありマルチクラウドに明るいプリセールスエンジニアである私の社会使命ではないかと考えさせられました。

以上、ご覧いただきありがとうございました。

[著者プロフィール]

TD SYNNEX 株式会社 | 斉藤 之雄
アドバンスドソリューション部門 ソリューションビジネス開発本部 プリセールス&エンジニアリング部 マルチクラウドチーム (Azure Solutions Architect Expert, Azure DevOps Engineer Expert)

マイコン少年時代から関東電子(TD SYNNEX前身)を利用するなどソフトウェア、ハードウェアともに昔をよく知る。コンピューター業界は1996年から異種混在環境における再販ビジネスの技術営業からキャリアを開始し、特に導入支援や教育プログラムの立ち上げは定評を有する。国内大手電気通信事業者では社内クラウドコミュニティの主要メンバーとし全国SEへ対するリスキリングプログラム推進活動を実践した。2022年4月TD SYNNEX入社以来、CoE(センターオブエクセレンス)プロダクトの日本市場展開や AI/ML (人工知能/機械学習)サービスを中心とするプリセールス活動を行っている。愛猫家、社会福祉士でもある。

製品・サービスについてのお問合せ

情報収集中の方へ

導入事例やソリューションをまとめた資料をご提供しております。

資料ダウンロード
導入をご検討中の方へ

折り返し詳細のご案内を差し上げます。お問い合わせお待ちしております。

お問い合わせ