2025年3月20日、OpenAIから音声エージェントの可能性を一気に広げる最新のAudio APIが公開されました。特に注目したいのは、今回発表されたテキスト読み上げ(Text-to-Speech, TTS)モデルの『GPT-4o-mini-tts』です。

このモデルの最大の特徴は、これまでのTTSモデルとは違い、単に「何を話すか」だけでなく、「どのように話すか」を具体的に指示できるようになったことです。たとえば、「明るく元気なラジオDJのように話して」「カスタマーサービス担当者風でお願い」など、話し方のスタイルや感情まで自在にカスタマイズすることが可能になっています。

これにより、音声エージェントはこれまで以上に人間らしく、自然なコミュニケーションが可能になります。

現時点では、このモデルは英語に最適化されていますが、日本語でも十分に自然で品質の高い音声を生成できるため、日本国内の開発者や企業にとっても実用性は非常に高いと言えるでしょう。

本記事では、価格や性能、APIの使い方などについて詳しく解説します。さらに後半では、モデルの「話し方」の設定において非常に重要な instructions を、高品質かつ簡単に作成できるメタプロンプト(=プロンプトを作るためのプロンプト)をご紹介します。

OpenAI

モデルの特徴

GPT-4o-mini-ttsは、従来の音声合成モデルでは難しかった「話し方」そのものを指示できる点が最大の特徴です。単に読み上げる内容を決めるだけではなく、感情やトーンまで自在にコントロールできます。

具体的には以下のようなカスタマイズが可能です:

  • 感情表現:明るい・落ち着いた・悲しい・興奮したなど、微妙なニュアンスまで指定可能

  • トーン・イントネーション:柔らかく、厳しく、真剣に、あるいは冗談っぽくなど、微妙なニュアンス調整が可能

  • 速度・音量調整:ゆっくりと穏やかに話したり、早口でエネルギッシュに話すことも可能

  • ささやき声・特殊発声:通常の声以外にも「ささやき」や特定のキャラクター風の演出も可能

このような詳細な設定を用いて、AI出力音声により人間らしさや個性を持たせることができます。後半では、この話し方をより簡単に設定できる具体的な「instructions」の作り方も深掘りして紹介していきます。


リアルタイム音声生成(ストリーミング再生)

GPT-4o-mini-ttsのもう一つの大きな特徴は、音声を生成しながら即時再生できるリアルタイムストリーミング機能です。

これまでは、音声データを全部生成し終わってから再生する必要がありましたが、このモデルでは生成の途中からリアルタイムで再生を開始できます。そのため、ゲームやライブ配信アプリ、対話型エージェントなど、即時性が求められる場面でもリアルな体験が実現できるようになりました。

例えば、以下のような用途が考えられます:

  • ゲーム内のNPCとのリアルタイムな会話

  • オンラインの顧客サポートでのリアルタイム音声応答

  • ライブ配信中にユーザーの質問に音声で答えるインタラクティブ配信


生成される音声について

プリセットされた多様なボイスから、用途に合わせて自由に選択できます。ただ、現時点では英語に最適化されているため、日本語を含む多言語でも十分な品質ですが、最良のパフォーマンスは英語になります。

ボイス一覧(全11種類)

  • Alloy、Ash、Ballad、Coral、Echo、Fable、Onyx、Nova、Sage、Shimmer、Verse

対応言語

GPT-4o-mini-ttsは現時点では英語に最適化されていますが、数十言語での音声生成が可能です。

日本語についても、従来のモデルに比べるとアクセントやイントネーションが自然になり、違和感の少ない音声を生成できます。

ただし、英語以外で使用する際には、以下の点に注意が必要です:

  1. 英語と比較すると、若干の品質差がある場合があります

  2. 感情表現やトーンの微妙なニュアンスは、英語ほど細かく制御できない場合があります

  3. 日本語の擬音語・擬態語などの言語特有の表現は、より詳細な指示が必要な場合があります

それでも、日本語での実用性は十分高く、多くのユースケースで活用できるレベルに達しています。

対応オーディオ形式

用途やニーズに応じて、様々なオーディオ形式を選択できます。

  • MP3:標準的な音質(一般的な用途に最適)

  • Opus:ストリーミング配信に特化(低遅延)

  • AAC:YouTubeやスマホアプリ向け(圧縮率が高く品質も良好)

  • FLAC:音質重視(ロスレス・非圧縮品質)

  • WAV:編集や加工に最適(非圧縮・遅延が極めて低い)

  • PCM:音声の生データ形式(より詳細な音声加工に向く)


APIの使い方・基本サンプルコード紹介

GPT-4o-mini-ttsのAPIはとてもシンプルです。

必要なパラメータ

  • model(モデル名):今回の例では "gpt-4o-mini-tts"

  • input(テキスト):音声にしたい文章

  • voice(音声の種類):使用するプリセットボイス

  • instructions(任意):音声の詳細な話し方の指示(感情やトーン)

Pythonでの基本サンプルコード

まずは、OpenAIのPythonライブラリをインストールします。

pip install openai

次に、以下のコードで簡単に音声を生成できます。

from pathlib import Path
import os
from openai import OpenAI

# APIキーを設定
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

client = OpenAI()

# 音声ファイルの保存先を指定
speech_file_path = Path(__file__).parent / "speech.mp3"

# 音声生成のリクエスト(ストリーミングモード)
with client.audio.speech.with_streaming_response.create(
    model="gpt-4o-mini-tts",
    voice="coral",
    input="今日も素晴らしい一日になりそうですね!",
    instructions="明るく元気な声で話してください",
) as response:
    # ストリーミングデータをファイルに保存
    with open(speech_file_path, "wb") as f:
        for chunk in response.iter_bytes():
            f.write(chunk)

print(f"音声ファイルが生成されました: {speech_file_path}")

このコードを実行すると、指定したテキストを「明るく元気な声」で音声化して、ファイルとして保存できます。

https://drive.google.com/file/d/1O8GZ7zIB3Kvj6YEN6VcTno9KFwJOB9Jr/view?usp=sharing


API以外での試用方法:OpenAI.fmデモサイト

APIを直接叩く以外にも、実はOpenAIが提供しているデモサイト OpenAI.fm で、このTTSモデルを無料で試すことができます。APIキーやコーディングは不要でブラウザからすぐに利用できます。

① まずは OpenAI.fm にアクセス。

② 画面上部の「VOICE」で、試したい声を選びます。(Alloy, Ashなど11種類)

③ 次に「VIBE」で、声の雰囲気を選ぶ、または入力をします。これがAPIでいう instructions にあたる部分です。(Eternal Optimist, Gourmet Chefなど)
④ 選ぶと下に Dialect や Pronunciation など、具体的な指示内容が表示されるので、どんな指示でその雰囲気が出ているかチェックできます。

⑤ 「SCRIPT」に読み上げてほしいテキストを入力するか、用意されている例文を選択。

デフォルトでは英語になっていますが、もちろん日本語に変えても問題ありません。

⑥ 最後に、右下のオレンジ色の再生ボタン をクリックすれば、音声が再生されます。

このサイトで、特に instructions (Vibe) がどう声に影響するのか直感的に分かるのでAPIを使う前にここで色々試して感覚を掴むのがおすすめです。

価格体系と性能

GPT-4o-mini-ttsの価格体系は、従来のTTSモデルと比べてかなりリーズナブルになっています。2025年3月28日時点での最新価格は以下の通りです。

  • 入力テキスト: $0.60 / 100万トークン

  • 出力音声: $12.00 / 100万トークン

  • 推定コスト: 約$0.015 / 1分の音声