音声コンテンツを指定した言語に翻訳します。
エンドポイント
POST https://api.sambanova.ai/v1/audio/translations
リクエストパラメータ
以下の表では、音声翻訳リクエストに必要な各パラメータの型、説明、デフォルト値を示しています。
音声モデルを使用する際は、精度向上のために language
パラメータの指定を強く推奨します。
Whisper Large v3
パラメータ | 型 | 説明 | デフォルト値 |
---|
model | String | 使用するモデルのID | 必須 |
file | File | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB | 必須 |
prompt | String | 文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」) | 任意 |
response_format | String | 出力形式: JSONまたはテキスト | json |
language | String | 入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。 | 任意 |
stream | Boolean | ストリーミング応答を有効化 | false |
stream_options | Object | ストリーミング応答の追加設定 (例: {"include_usage": true} ) | 任意 |
Qwen2-Audio-7B-Instruct
パラメータ | 型 | 説明 | デフォルト値 |
---|
model | String | 使用するモデルのID | 必須 |
response_format | String | 出力形式: JSONまたはテキスト | json |
temperature | Number | 0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。 | 0 |
max_tokens | Number | 生成する最大トークン数 | 1000 |
file | File | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。 | 必須 |
language | String | 文字起こしや翻訳の対象言語 | 任意 |
stream | Boolean | ストリーミング応答を有効化 | false |
stream_options | Object | ストリーミング応答の追加設定 (例: {"include_usage": true} ) | 任意 |
リクエスト形式
このセクションでは、さまざまな方法でリクエストを送信する際の具体例を示します。
CURL
curl --location 'https://api.sambanova.ai/v1/audio/translations' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--form 'model="Whisper-Large-v3"' \
--form 'language="spanish"' \
--form 'response_format="json"' \
--form 'file=@"/path/to/audio/file.mp3"' \
--form 'stream="true"'
Python
import requests
def translate_audio(audio_file_path, api_key, target_language="spanish"):
headers = {"Authorization": f"Bearer {api_key}"}
files = {'file': open(audio_file_path, 'rb')}
data = {
'model': 'Whisper-Large-v3',
'language': target_language,
'response_format': 'json',
'stream': True # Optional
}
response = requests.post(
"https://api.sambanova.ai/v1/audio/translations",
headers=headers,
files=files,
data=data
)
return response.json()
レスポンス形式
この API は、入力された音声を指定フォーマットでテキストに変換して返します。
JSON
{
"text": "Es un efecto de sonido de una campana sonando, específicamente una campana de iglesia."
}
Text
Es un efecto de sonido de una campana sonando, específicamente una campana de iglesia.