【速報】音楽生成AI『ACE-Step 1.5 XL』登場　高品質化しつつAPI互換を維持

2026年4月10日

URLをコピーしました！

本記事を10秒でまとめると

ACE-Step開発チームは音楽生成AI「ACE-Step 1.5 XL」を公開した。Diffusion Transformer（DiT）デコーダを4B規模へ拡張し、音質やプロンプト追従性、音楽表現の向上を実現したとされる。一方で生成APIやLoRA学習コード、LMモデルとの互換性は維持されており、既存プロジェクトを変更せず導入できる設計となっている。

ACE-Stepとは何か

ACE-Stepは、テキストから音楽を生成するオープンソースの音楽生成AIプロジェクトです。拡散モデルとTransformerを組み合わせたDiffusion Transformer（DiT）構造を採用しており、プロンプトをもとに楽曲を生成できます。

現在、音楽生成AIの代表例としては

Suno
Udio

などのクラウド型サービスが有名ですが、ACE-Stepはローカル環境でも動作可能なオープンモデルとして公開されている点が特徴です。

研究用途だけでなく、開発者が独自の音楽生成システムを構築するための基盤モデルとして利用されることも想定されています。

ACE-Step 1.5 XLの最大の進化

DiTデコーダを4B規模へ拡張

今回公開された「ACE-Step 1.5 XL」の最大の変更点は、生成モデルの中核となるDiTデコーダを4B規模へスケールした点です。開発チームによれば、この拡張によって

音質の向上
プロンプト追従性の改善
音楽的表現（musicality）の向上

が実現されたとのこと。

Diffusion Transformerは、画像生成AIなどでも使われる拡散モデルの仕組みを応用したもので、ノイズから徐々に音声データを生成していく方式です。これにTransformerベースの表現力を組み合わせることで、複雑な音楽構造を生成できるようになりました。

高品質化しつつ生成速度を維持

モデルサイズは拡張された一方で、生成速度は大きく変わっていません。ACE-Step 1.5 XLでは

Turbo Distillation
8-step generation

と呼ばれる仕組みを採用しており、少ないステップ数で音楽生成を行うことができます。一般的な拡散モデルでは数十ステップの生成が必要になる場合も多いですが、これを8ステップまで削減することで高速生成を実現しています。

API・LoRA互換を維持した設計

今回のアップデートにおいて開発者にとって重要なのは、既存のワークフローとの互換性が維持されている点です。ACE-Step 1.5 XLでは変更されていない要素として

生成API
LoRA学習コード
LMモデル（0.6B / 1.7B / 4B）

を挙げられています。つまり既存ユーザーは、現在のプロジェクトを変更することなく、モデルをXL版へ置き換えるだけで品質向上の恩恵を受けられる設計となっています。

3種類のXLモデルが公開

今回公開されたモデルは以下の3種類です。

モデル	特徴
xl-base	基本モデル
xl-sft	ファインチューニング済みモデル
xl-turbo	高速生成モデル

これらのモデルは

で公開されており、誰でも試すことができます。

まとめ

音楽生成AIは、画像生成AIや動画生成AIと同様に近年急速に進化している分野の一つです。

現在はSunoやUdioといったクラウド型サービスが有名ですが、今回のACE-Stepのようにローカル環境で動作するオープンモデルの開発も進んでいます。

今後、音楽生成AIの分野でも、クラウドサービスとオープンソースモデルの両軸で進化が続いていくと予想されます。

この記事を書いた人

佐伯美月

株式会社NEDLAB　AIインサイト編集部

大学では環境情報学を専攻。国内IT企業でSaaSマーケティングに従事した後、生成AIの急速な進化に関心を持ちAI分野のリサーチ活動を開始。
現在はAIインサイト編集部として、主に海外AI企業の最新動向や生成AIツールのアップデート、AIスタートアップの動きなどを中心に調査・執筆を担当。

この著者の記事一覧へ