HOME > ニュース > <NHK技研公開>聴覚に障害があっても音楽を楽しめる可視化技術/スポーツ中継の解説音声を自動制作

「つながるメディアアクセシビリティー体験」

<NHK技研公開>聴覚に障害があっても音楽を楽しめる可視化技術/スポーツ中継の解説音声を自動制作

公開日 2025/05/28 07:00 編集部:長濱行太朗
  • Twitter
  • FaceBook
  • LINE

NHK技研研究所は、放送技術に関する研究成果を一般公開する「技研公開2025」を、5月29日から6月1日まで開催する。本稿では、一般公開に先立ちメディア向けに開催された先行体験会から、「ユニバーサルサービス」カテゴリーの展示内容を紹介していく。

「NHK技研公開2025」は5月29日から6月1日まで開催

“広がる・つながる・夢中にさせる” をコンセプトとする「技研公開2025」。「ユニバーサルサービス」カテゴリーの展示では、聴覚や視覚に障害がある方や高齢者、外国人を含むあらゆる視聴者にメディアの情報を的確に伝えられるよう、NHK技研研究所が研究開発を進めている技術を紹介している。

「つながるメディアアクセシビリティー体験」では、手話CG、解説音声、音楽可視化といった技術を統合した将来的なサービス例のひとつとして、「番組連動アクセシビリティーアプリ」のデモンストレーションを実施。VODサービスで配信する映像コンテンツと連動し、テレビ用アプリを使用する場合と、スマートフォン・タブレット用の縦型表示アプリを使用する場合を想定した内容になっていた。

「番組連動アクセシビリティーアプリ」、野球中継と連動しているときのUIイメージ

 

音楽番組と連動しているときのUIイメージ。番組内容に合わせて選べる機能も最適化されている

本アプリを使用することで、例えば野球中継では「字幕・日本語」「字幕・英語」といった翻訳機能、手話CG、解説音声をアプリから選んで再生できる。また音楽番組では、「字幕・英語」や「音楽可視化」など音楽番組ならではの関連機能が操作できるようになっている。

アプリで英語字幕を表示させたときの画面表示内容

アプリの項目表示は、例えばテレビ用アプリでは、映像コンテンツに重なった状態で表示するオーバーレイ表示と、映像作品の内容に重ならないようにLG字型の枠で表示するアウトスクリーン表示に対応させていた。視覚に障害がある方が使用する「点字」もサポートしており、外部の「点字ディスプレー」と連動させて字幕を伝えることが可能だ。

オーバーレイ表示の状態

 

アウトスクリーン表示の状態

 

「点字ディスプレー」との連動にも対応する

手話CG生成技術を積極的に開発しているNHK技術研究所だが、さらに進化した技術として「ニュース速報の手話CG生成技術」を展示していた。従来までは、『NHK手話ニュース』の手話内容をCGで表示するという技術展示に留まっていたが、今回は日本語のニュース速報を手話で翻訳し、手話CGアニメーションを自動生成する最新技術を紹介していた。

「ニュース速報の手話CG生成技術」

ニュース速報は一般のニュースと文体が異なるが、ニュース速報に特化したAIを用いることで手話対訳コーパスを構築、そこにニュース速報特有の体言止めなどを含む表現もAIに追加で学習させているという。

さらに、手話CGアニメーションの内容をより的確で正しく理解できるような内容にするべく、人名や地名といった手話文の構成要素ごとに、手指動作の空間位置を使い分けて提示する制御技術、あわせて手話を読み取るうえで重要な口型と手指の動きと同期させて、自然タイミングで制御できる技術も開発している。

直近では空間表現を再現する提示位置のコントロールにも対応する

例えば、地名の「東所沢」を手話の口型で示す際、内容と同期せず単語だけで口型にしてしまうと「東の、場所、たくさん」といった口の動きになってしまうのだが、正しく「ひがし、ところ、ざわ」と口型を作ることができるようになったという。

手話の内容を正しく判断し、手指の動作と同期した口型を実現する

 

新方式を実際にテストしたところ、旧方式よりも確実にろう者が正しく理解できたという

視覚に障害がある方をはじめ、多くの方々にスポーツ中継を楽しんでもらえる技術として「スポーツ中継の解説音声制作技術」も展開している。本技術は、スポーツ中継の映像から選手の名前、選手のプレイ内容、試合の展開、球場の情景に関する解説音声を生成する技術としている。

音声ガイドでは、男性/女性といった声の性別、再生速度、発話量、そして得点情報や種類状況など、野球中継の映像から読み取れる情報を音声ガイドで再生できる

野球中継における解説音声制作技術を例に取ると、投手の「構えた」「投げた」といった動きを識別するだけでなく、「ストレート」「変化球」といった球種、「真ん中」「低め」など投球コースも識別する。

選手の動作だけでなく、投げたボールの球種(ストレート/変化球)、ボールの位置(高め/低め)、そこから戦略分析を行った解説も可能としている

また選手のプレイと試合展開の関係性を解析して、選手に期待されるプレイを説明する解説音声や、中継映像に映る選手の顔やスタンドの応援の様子を解析し、球場の情景を描写する説明テキストの生成も可能としている。本技術は、精度の高い顔認識、文字認識技術が背景にあるからこそ実現できたとのことだ。

顔認識や文字認識、人物識別といった機能が向上したことによって、固有名詞を含んだ説明テキストの生成に対応した

聴覚に障害がある方でも音楽が楽しめるように、音楽を映像に変換する技術として展示されている「誰もが音楽を楽しむための可視化技術」では、楽曲の内容や構成、楽曲から喚起される情感といったものを、映像で表現する技術が紹介されていた。

音楽の可視化技術では、音階/明るさ・暗さ/ハーモニー/曲の展開に着目して可視化表現のデザインを考案している

一例では、音楽の4つの要素として音階/明るさ・暗さ/ハーモニー/曲の展開に着目して可視化表現のデザインを考案したとしており、デモではイントロやサビなどを色の濃さや泡の数の多さで示したり、バーの色で楽曲の明暗、上下で音階、コードやリズムを表現するアクセシビリティーが導入されていた。

今回の展示は、すでに制作された映像コンテンツへの付加をメインとした内容だったが、今後はコンサート・ライブなどの「リアルタイム可視化」や、ドラマや紀行番組のBGMをも可視化できるよう研究開発を進めていくとアピールした。

画面上部には曲の展開や拍、ハーモニーの調和度を表示

 

画面側部には楽曲の明るさや音階を表現するバーが表示される

 

この記事をシェアする

  • Twitter
  • FaceBook
  • LINE

関連リンク

トピック