Google、音声翻訳モデル「Gemini 3.5 Live Translate」を2026年6月9日に発表

公開日: 2026年6月25日

米Googleは2026年6月9日（現地時間）、リアルタイム音声対音声翻訳に特化した最新音声モデル「Gemini 3.5 Live Translate」のリリースを発表した。Google Workspace公式ブログによると、70以上の言語を自動検出し、話者のイントネーション・テンポ・ピッチを維持したまま、ほぼ遅延なく翻訳音声を生成する。これまで音声翻訳の標準であった「話し手の発話が終わってから訳す」ターンバイターン方式から脱却し、発話と並行して継続的に翻訳音声を出力する方式を採用した点が特徴だ。

「同時通訳に近い」体験を一般ユーザーへ

話し終わりを待ってから訳す従来の方式とは異なり、話し手から数秒遅れながら継続的に音声を生成し、シームレスな同時通訳に近い体験を実現する。70以上の言語を自動検出し、話し手のイントネーションやペース、ピッチを維持したまま自然な合成音声で訳出するとしている。

騒がしい環境でも安定して動作するノイズ耐性も備えており、空港やイベント会場など音が混在する場面での利用も想定されている。外国人材採用が進む宮城・東北の製造業や介護現場でも、現場でのコミュニケーションツールとして注目を集めそうだ。

展開は3チャネルで同時進行

Gemini 3.5 Live Translateは、開発者向け（Gemini Live API・Google AI Studio）、企業向け（Google Meet）、一般ユーザー向け（Google翻訳アプリ）の3チャネルで展開している。具体的な展開内容は次のとおりだ。

一般ユーザー向け：Android と iOS の Google 翻訳アプリへの世界的な順次展開が始まっており、ヘッドホンを接続するだけで、70 以上の言語にわたり話者のトーンを反映したシームレスな翻訳を体験できる。
Androidの新機能：Android版では、イヤホンがない状況でもスマートフォンを通常の電話と同じように耳に当てることで、翻訳音声を聞くことのできる新しい「listening mode（リスニングモード）」が導入される。
Google Meet（企業向け）：対応言語を従来の 5 言語から 70 以上の言語に拡大し、従来の「英語との相互翻訳のみ」から、1 つの会議で 2,000 以上の言語の組み合わせが可能になる。今月より、一部のビジネス向け Google Workspace のお客様を対象にプライベートプレビューを開始し、年内にはさらなる展開を予定している。
開発者向け：Googleは、多言語通話、会議、クラス、放送などのライブ通訳機能を構築できるGemini Live APIを開発者向けに提供している。

AI生成音声への透かし「SynthID」を全出力に付加

Gemini 3.5 Live Translate が生成するすべての音声には、AI 生成コンテンツであることを示す電子透かし「SynthID」が埋め込まれる。これは Gemini や Nano Banana、Lyria など、Google が提供するサービスで AI が生成した画像・動画・音声などに含まれている。AI生成音声の識別を可能にすることで、誤情報の拡散防止を図る狙いがある。

宮城・東北の外国人材採用現場への影響

宮城県内では外国人材の採用が広がり、特定技能・育成就労制度を活用するベトナム人材、ミャンマー人材、インドネシア人材が製造業・介護・外食業などで就労している。これまでビジネス通訳や翻訳が必要だった日常業務の一部において、Gemini 3.5 Live Translateのような音声AIモデルが補助ツールとして機能する場面が増える可能性がある。

一方で、在留資格申請やビザ申請に関わる書類翻訳、外国人教育・日本語教育の場面では、専門知識を持つ翻訳者・通訳者が引き続き重要な役割を担う。2026年時点のAI翻訳は「何でも完全に正しい」のではなく、「用途に合った仕組みを選べば十分実用的」という段階であり、専門用語や入力品質、レイアウト保持のような実務要素を無視すると思ったより使いにくい結果になることがある。定着支援・外国人教育の現場でも、AI翻訳と人による通訳翻訳を適切に組み合わせた運用が求められる。

ご相談・お問い合わせはこちらから

お問い合わせする

← ニュース一覧に戻る