获取人声音轨 - MountSea API

获取人声音轨

curl --request POST \
  --url https://api.mountsea.ai/suno/v2/getVoxStem \
  --header 'Content-Type: application/json' \
  --data '
{
  "clip_id": "<string>"
}
'

{
  "id": "<string>",
  "status": "<string>",
  "source_clip_id": "<string>",
  "vocal_start_s": 123,
  "vocal_end_s": 123,
  "vocal_audio_url": "<string>"
}

POST

suno

getVoxStem

获取人声音轨

curl --request POST \
  --url https://api.mountsea.ai/suno/v2/getVoxStem \
  --header 'Content-Type: application/json' \
  --data '
{
  "clip_id": "<string>"
}
'

{
  "id": "<string>",
  "status": "<string>",
  "source_clip_id": "<string>",
  "vocal_start_s": 123,
  "vocal_end_s": 123,
  "vocal_audio_url": "<string>"
}

从音频片段中提取人声音轨。返回的 id 即 vox_audio_id，用于创建 Persona — 构建可用于 task=inspiration 且 persona_style: "vox" 的 Vox Persona 的第一步。

此端点直接返回结果（不是任务 ID）。提取过程是同步处理的。

默认内部截取约 45~74 秒 人声。若歌曲短于 74 秒或需其他区间，请按集成方式处理 vocal_start_s / vocal_end_s（如支持）。

请求体

clip_id

string

必填

要从中提取人声的音频片段 ID。

响应

string

人声音频 ID。创建角色时作为 vox_audio_id 使用。

status

string

提取状态（例如 "complete"）。

source_clip_id

string

被处理的原始片段 ID。

vocal_start_s

number

检测到的人声开始时间（秒）。

vocal_end_s

number

检测到的人声结束时间（秒）。

vocal_audio_url

string

提取的人声音频文件 URL。

示例

curl -X POST https://api.mountsea.ai/suno/v2/getVoxStem \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "clip_id": "78d99ca1-f751-4188-8b8e-0784754f0d8e"
  }'

响应示例

{
  "id": "373efa9c-a366-42bb-806c-afdfc9b306a7",
  "status": "complete",
  "source_clip_id": "78d99ca1-f751-4188-8b8e-0784754f0d8e",
  "vocal_start_s": 45.0,
  "vocal_end_s": 74.0,
  "vocal_audio_url": "https://cdn1.suno.ai/processed_373efa9c-a366-42bb-806c-afdfc9b306a7_vocals.m4a"
}

工作流程：创建 Vox Persona

Get Vox Stem — 提取人声，将返回的 id 作为 vox_audio_id
创建 Persona — clip_id 传 root_clip_id，并设置 root clip 上的人声范围

const voxData = await fetch('https://api.mountsea.ai/suno/v2/getVoxStem', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json', 'Authorization': 'Bearer your-api-key' },
  body: JSON.stringify({ clip_id: '4fa20262-2126-4ec2-9846-e668211a8c7b' })
}).then(r => r.json());

await fetch('https://api.mountsea.ai/suno/v2/persona', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json', 'Authorization': 'Bearer your-api-key' },
  body: JSON.stringify({
    clip_id: '4fa20262-2126-4ec2-9846-e668211a8c7b',
    vox_audio_id: voxData.id,
    vocal_start_s: 0,
    vocal_end_s: 120,
    user_input_styles: 'rap歌曲，顺口',
    name: 'My Voice',
    is_public: true
  })
});

创建 Persona 时的 vocal_start_s / vocal_end_s 表示 root clip 上的有效人声范围（常为 0 至 clip 总时长），不是 getVoxStem 内部 45~74 秒的截取区间。

在 Inspiration 生成中使用该 Persona：persona_style: "vox"，artist_clip_id 设为 Persona 的 root_clip_id。

创建角色 Voice Persona

​请求体

​响应

​示例

​响应示例

​工作流程：创建 Vox Persona

请求体

响应

示例

响应示例

工作流程：创建 Vox Persona