OpenAIのText-to-Speech(TTS)APIは、テキストをリアルタイムで自然な音声に変換する強力なツールです。このAPIは、ブログ記事の朗読、多言語での音声生成、リアルタイムの音声出力など、さまざまな用途に使用できます。
使い方
TTS APIを使用するためには、まずOpenAIクライアントを作成します。
次に、speechエンドポイントに対してリクエストを送信します。このリクエストには、モデル名、音声に変換するテキスト、そして音声生成に使用する音声の3つの主要な入力が必要です。
以下に、Pythonでの簡単なリクエストの例を示します:
from pathlib import Path
from openai import OpenAI
client = OpenAI()
speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
model="tts-1",
voice="alloy",
input="今日は素晴らしい日ですね!"
)
response.stream_to_file(speech_file_path)このコードは、指定したテキストを音声に変換し、その結果をMP3ファイルとして保存します。
上記のコードを実行すると、同じフォルダに speech.mp3 が保存されます。
実際にやってみましたが、極めて自然な日本語が出力されました。
音声オプション
OpenAIのTTS APIは、alloy、echo、fable、onyx、nova、shimmerという6つの異なる音声を提供しています。これらの音声を試して、あなたの目的や聴衆に最も適したものを見つけることができます。
出力形式
デフォルトのレスポンス形式は"mp3"ですが、"opus"、"aac"、"flac"などの他の形式も利用可能です。
リアルタイムオーディオストリーミング
Speech APIは、チャンク転送エンコーディングを使用したリアルタイムの音声ストリーミングをサポートしています。これにより、全体のファイルが生成されて利用可能になる前に、音声を再生することができます。
料金について
OpenAIのText-to-Speech(TTS)APIの使用料金は、使用したトークンの数に基づいて計算されます。トークンは、自然言語処理に使用される単語の一部と考えることができます。英語のテキストでは、1トークンは約4文字または0.75単語に相当します。たとえば、シェイクスピアの全作品は約900,000単語または1.2Mトークンです。
OpenAIは、使用したリソースのみを支払うシンプルで柔軟な料金設定を提供しています。具体的な料金は$0.015 / 1000 文字です。
また、OpenAIでは、使用量の追跡ダッシュボードを通じて、現在および過去の請求サイクル中に使用したトークンの数を確認することができます。さらに、一定の使用量を超えた場合にメールアラートを受け取るためのソフトリミットを設定することも可能です。これにより、使用量を管理し、予算を超えないようにすることができます。
なお、料金は変更される可能性がありますので、最新の情報についてはOpenAIの公式ウェブサイトをご確認ください。
まとめ
OpenAIのText-to-Speech APIは、テキストを自然な音声に変換するための強力なツールです。その多機能性と柔軟性により、さまざまな用途で利用することができます。







