本記事を10秒でまとめると
Microsoftが音声認識モデル「MAI-Transcribe-1」、音声生成モデル「MAI-Voice-1」、画像生成モデル「MAI-Image-2」の3つのAIモデルを発表。これらはMicrosoft Foundryから開発者向けに提供される。今回の発表は単なる新モデル公開ではなく、MicrosoftがAI基盤を自社モデルへシフトし始めた可能性を示している。
Microsoftが「MAIシリーズ」とは
Microsoftは2026年4月2日、AIモデル群「MAI(Microsoft AI)」として以下の3モデルを公開しました。
- 音声認識モデル:MAI-Transcribe-1
- 音声生成モデル:MAI-Voice-1
- 画像生成モデル:MAI-Image-2
これらのモデルは Microsoft FoundryおよびMAI Playgroundで利用可能になっており、CopilotなどMicrosoft製品への統合も進められています。
Microsoftはこれらのモデルについて
- 高品質
- 高速処理
- 高いコスト効率
を特徴とするAIモデルとして提供すると説明しています。
MAI-Transcribe-1:音声認識モデル
MAI-Transcribe-1は音声をテキストに変換するspeech-to-textモデルです。音声認識ベンチマーク「FLEURS」において、主要言語の平均エラー率は以下の結果となっています。

また、Microsoft Azureの既存音声認識サービスと比較して約2.5倍のバッチ処理速度を実現したとされています。料金は 1時間あたり0.36ドルからとなっています。
MAI-Voice-1:音声生成モデル
MAI-Voice-1は自然な音声を生成するtext-to-speechモデルです。特徴として
- 感情やニュアンスを含む自然な音声生成
- 長文でも話者の声質を維持
- 数秒の音声からカスタム音声を作成可能
といった機能が紹介されています。
生成速度も非常に高速で、1秒で約60秒分の音声を生成できるとされています。料金は 100万文字あたり22ドルです。
MAI-Image-2:画像生成モデル
MAI-Image-2はMicrosoftの最新画像生成モデルです。Arena.aiのランキングで上位に入るモデル群として公開され、Microsoftによると
- 従来モデルの 2倍以上の生成速度
- 自然なライティング表現
- 正確な肌色表現
- 画像内テキストの生成精度向上
などが特徴とされています。
すでにCopilotやBing、PowerPointなどへの統合が進められており、マーケティング企業WPPなどが導入を進めているとされています。
Microsoft AI戦略の変化:AI基盤を再構築し、脱OpenAIへ
今回のMAIシリーズは、Microsoftが提供するAI開発基盤 Microsoft Foundry を中心に提供されます。Foundryでは
- AIモデルの利用
- セキュリティガードレール
- 企業向けガバナンス
- 大規模運用管理
などを統合して提供する仕組みが用意されています。
これによりMicrosoftは、Azure上で企業がAIアプリケーションを構築するためのプラットフォームを強化しているとみられます。
これまでMicrosoftのAI戦略は、OpenAIとの提携を中心に進められてきました。実際に
- Copilot
- Azure OpenAI Service
- Microsoft 365 AI
など多くのAI機能は、OpenAIのモデルを基盤として提供されています。
Claudeとの連携も進める一方で、今回のMAIシリーズのようなMicrosoft独自モデルの拡充は、AI戦略の変化を示す動きとも考えられます。AI基盤を
- OpenAIモデル(GPTシリーズ)
- Anthoropicモデル(Claudeシリーズ)
- Microsoft独自モデル(MAIシリーズ)
と複数で構成することで、
- コスト最適化
- モデル供給リスクの分散
- 自社製品への最適化
といったメリットを得られる可能性があります。
まとめ
今回発表されたMAIシリーズは、音声認識・音声生成・画像生成という主要AI領域をカバーするモデル群です。表面的には新モデルの発表ですが、もう一つの重要なポイントMicrosoftがAI基盤をOpenAI依存から徐々に自社モデルへ広げ始めている可能性です。
CopilotやAzure AIの競争力を維持するためにも、Microsoftが今後どこまで自社AIモデルを拡張していくのかが注目されます。
OpenAIのGPTシリーズ、AnthoropicのClaudeシリーズ、Microsoftとは関わりが薄いですがGoogleのGammaシリーズの3強時代の中、後発のMicrosoftがこれらにもし近づければ、生成AI市場は大きく変わる可能性があります。
writer:佐伯 美月(AIインサイト編集部)

