TTS服务

主流云服务商都提供高质量的TTS API，方便开发者快速集成语音合成能力。

预计阅读时间：45分钟·难度：入门

服务概览

TTS云服务提供即用型API，无需训练模型即可使用高质量的语音合成能力。

选择因素

音质：语音自然度和清晰度，是否接近真人
语言支持：支持的语言、方言和音色数量
延迟：实时合成的响应时间，首包延迟
成本：按字符或按时长计费，免费额度
功能：SSML支持、情感控制、声音克隆等
稳定性：服务可用性SLA、并发支持

服务类型

云端API

调用云服务接口，无需部署，按量付费。适合快速集成和弹性场景。

私有化部署

部署在自有服务器，数据安全可控。适合对隐私和定制化要求高的场景。

边缘设备

在终端设备运行，无网络依赖。适合IoT、车载等离线场景。

国际服务

Microsoft Azure TTS

Azure认知服务中的语音服务，功能最全面的TTS云服务之一。

核心特性

音色丰富：400+声音，覆盖140+语言/地区
神经音色：深度学习驱动，接近真人
SSML支持：精细控制发音、停顿、语调
情感表达：喜悦、悲伤、愤怒等多种情感
自定义声音：定制品牌专属音色
实时流式：WebSocket低延迟合成

Google Cloud TTS

Google Cloud的语音合成服务，集成WaveNet技术。

核心特性

WaveNet技术：DeepMind研发的高质量声码器
多语言：220+声音，40+语言
Neural2：新一代神经音色
Studio声音：专业级录音棚音质
自定义声音：企业定制服务

Amazon Polly

AWS的TTS服务，与AWS生态深度集成。

核心特性

神经音色：NTTS引擎，自然度大幅提升
SSML支持：标准SSML标签
异步合成：长文本异步任务
语音标记：返回时间戳和词边界
品牌声音：企业定制选项

ElevenLabs

专注于高质量AI语音的新兴服务商，声音克隆能力突出。

核心特性

顶级音质：业界领先的语音自然度
声音克隆：分钟级样本即可克隆
多语言：支持29种语言
情感控制：丰富的表现力调节
API完善：开发者友好

国内服务

阿里云智能语音交互

阿里云的TTS服务，性价比高，与阿里生态集成。

核心特性

中文优化：深度优化中文发音和韵律
音色多样：100+中文音色可选
实时合成：低延迟流式输出
长文本：支持长文本异步合成
定制声音：企业品牌声音定制

腾讯云语音合成

腾讯云的TTS服务，音质优秀，功能完善。

核心特性

音质优秀：多项技术优化自然度
SSML支持：支持SSML标签控制
异步合成：长文本任务队列
声音克隆：音色复刻功能
多格式：支持mp3、wav、pcm等

百度语音合成

百度智能云的TTS服务，提供在线和离线SDK。

核心特性

离线SDK：嵌入式设备离线合成
免费额度：较大的免费调用额度
多种音色：男声、女声、童声等
情感音色：支持情感表达

科大讯飞语音合成

讯飞开放平台的TTS服务，中文语音技术领先。

核心特性

中文领先：深耕中文语音技术多年
音色丰富：1000+音色库
方言支持：多种中文方言音色
行业方案：教育、客服等行业定制
离在线融合：智能切换优化体验

火山引擎语音合成

字节跳动的TTS服务，技术实力强。

核心特性

抖音同款：抖音短视频同款技术
音色多样：丰富的音色选择
情感表达：多种情感风格
声音克隆：快速定制声音

开源方案

对于需要私有化部署或定制化开发的场景，开源方案提供了灵活的选择。

方案	特点	适用场景
VITS	端到端，实时	多说话人服务
Piper	轻量，快速	边缘设备
Coqui TTS	功能全面	研究与生产
GPT-SoVITS	少样本克隆	声音克隆
CosyVoice	高质量开源	生产级服务
Sherpa-ONNX	跨平台推理	移动端部署

功能对比

主流TTS服务的功能特性对比。

服务	SSML	流式	克隆	情感
Azure TTS	✅	✅	✅	✅
Google TTS	✅	✅	✅	❌
Amazon Polly	✅	✅	✅	❌
ElevenLabs	部分	✅	✅	✅
阿里云	✅	✅	✅	部分
腾讯云	✅	✅	✅	部分
讯飞	✅	✅	✅	✅

SSML标签示例

<speak>
  <prosody rate="slow" pitch="+10%">
    这是一段慢速高音的语音
  </prosody>
  <break time="500ms"/>
  <emphasis level="strong">
    这里的内容会被强调
  </emphasis>
</speak>

集成实践

TTS服务的典型集成方式和最佳实践。

REST API调用

// Azure TTS REST API示例
const response = await fetch(
  'https://eastus.tts.speech.microsoft.com/cognitiveservices/v1',
  {
    method: 'POST',
    headers: {
      'Ocp-Apim-Subscription-Key': apiKey,
      'Content-Type': 'application/ssml+xml',
      'X-Microsoft-OutputFormat': 'audio-16khz-128kbitrate-mono-mp3'
    },
    body: ssmlContent
  }
);
const audioBlob = await response.blob();

WebSocket流式合成

流式合成优势

低首包延迟：边合成边播放，无需等待全部完成
实时体验：用户几乎无感知等待
资源优化：减少客户端缓冲

最佳实践

文本预处理

清理特殊字符、规范化数字和日期、合理分段。

缓存策略

对重复内容缓存合成结果，减少API调用。

错误处理

实现重试机制、降级方案，保证服务可用性。

音频格式选择

根据场景选择合适格式：mp3节省带宽，wav保持无损。

选择建议

追求最高音质

ElevenLabs、Azure神经音色。适合有声书、专业配音。

成本敏感场景

国内云服务（阿里云、腾讯云）、百度（免费额度大）。

声音克隆需求

ElevenLabs（云服务）、GPT-SoVITS（开源部署）。

离线/边缘部署

Piper、Sherpa-ONNX、百度离线SDK。

多语言支持

Azure（语言最多）、Google（覆盖广）、ElevenLabs（跨语言克隆）。

私有化部署

VITS、CosyVoice、Coqui TTS。支持Docker一键部署。

成本分析

不同TTS服务的定价策略和成本估算。

定价模式

服务	计费单位	参考价格	免费额度
Azure TTS	字符	$4/100万字符	50万/月
Google TTS	字符	$4/100万字符	100万/月
Amazon Polly	字符	$4/100万字符	500万/月
ElevenLabs	订阅制	$5-330/月	有限
阿里云	字符	¥8/万字符	300万/月
腾讯云	字符	¥8/万字符	200万/月

成本估算示例

场景：日均100万字符合成

• Azure标准音色：约$120/月
• Azure神经音色：约$160/月
• 阿里云：约¥800/月
• 自建VITS服务：服务器成本约¥300-500/月

← 多说话人合成

ASR基础 →