折腾:
期间,需要去调研,搞清楚:
国内可用的
效果好的
英文的
语音合成,文字转语音
的api接口
且要支持web端,一般是rest api
text to speech api
【ResponsiveVoice.JS】
在线demo效果:可以播放,但是好难听
5分
结论:
放弃。
用起来简单方便,但是效果很差。
【Google TTS API】
Cloud Text-to-Speech API Basics | Cloud Text-to-Speech API | Google Cloud
且点击了demo语音文件,效果很一般,只算:6分
Web apps that talk – Introduction to the Speech Synthesis API | Web | Google Developers
考虑到google等还是要翻墙,所以放弃。
结论:
放弃。
主要是考虑到国内网络中使用,google需要翻墙,所以基本不可用。
而且合成语音效果很一般:6分
【后记 180510】
后来从:
会打电话的 AI 背后:谷歌 Duplex 技术解析 | 雷锋网
得知,媲美真人声音的语音,也是合成的。
不过是用AI中的:
wavenet
合成的,所以搜了搜,而找到了:
Cloud Text-to-Speech – Speech Synthesis | Google Cloud
云端的语音合成,文字转语音
然后听了听效果:
效果真心不错:
基本上达到了:
WaveNet: A Generative Model for Raw Audio | DeepMind
提到的:
的效果。
评分:9,甚至9.5分
-》抽空再去试试这个接口,毕竟:
1 是要注册账号
2 好像速度有点慢(应该是内部用了深度学习)
3 还不是完全成熟 -》 “Beta: This is a Beta release of Cloud Text-to-Speech. ”
【科大讯飞 TTS API】
TTS 接口
试了试demo:
这几个demo的声音可以用:惨不忍听来形容,
评分:3分
即使是精品:
评分:7分
也不是很好
特色发音 + 储备发音:
评分:7.5
也是一般般
结论:
放弃。
可能是讯飞对于中文支持的够好,英文的语音合成,效果不是一般的差啊。
【Rokid】
只提供node.js,不提供web的rest的api
搜了下:
RokidOS
才知道
杭州:跟最酷的人工智能公司一起写一个 RokidOS 吧! – CNode技术社区
Rokid=若琪
RokidOS Linux 开发、移植 – Rokid 开发套件 / 官方教程 – Rokid讨论区
结论:
Rokid,放弃
只提供node.js,不提供web的rest的api
【iSpeech】
Text to Speech | TTS SDK | Speech Recognition (ASR)
也有在线demo
效果:算8分吧
结论:
效果虽然还行,但是不够主流,而且貌似合成速度不够好?
暂时不用。
【搜狗的语音合成API】
搜狗 语音合成 api
-》
结论:
放弃。
只有注册并登录,才能看文档,也是醉了。
国内 语音生成 api
HTML5语音合成Speech Synthesis API简介 – SDK.CN – 中国领先的开发者服务平台
估计前面的ResponsiveVoice.JS就是用HTML5的这个Speech Synthesis API
HTML5语音合成Speech Synthesis API简介 « 张鑫旭-鑫空间-鑫生活
【阿里云 TTS API】
语音合成REST接口_语音合成(TTS)_智能语音交互-阿里云
竟然没有找到demo
语音合成接入使用演示_语音合成接入使用演示_演示视频专区_智能语音交互-阿里云
语音合成REST接口_语音合成(TTS)_智能语音交互-阿里云
结论:
要抽空调用API试试,才知道合成效果如何
【IBM Waston的 Synthesize audio】
text-to-speech – API Reference | IBM Watson Developer Cloud
需要注册后才能调用api
结论:
需要后续注册IBM账号,然后才能写代码,测试效果
【腾讯云 语音合成Restful API】
语音合成Restful API – 智能语音服务 – 文档首页 – 腾讯云文档平台 – 腾讯云
结论:
也是需要调用api接口,才能测试效果如何
【微软的Bing text to speech API】
Text to Speech API of Microsoft Speech Service | Microsoft Docs
其TTS接口属于:cognitive部分
以为:
也需要注册账号后,才能写代码去测试效果
后来发现:
必应语音 API – 语音识别软件 | Microsoft Azure
有在线demo:
效果不错:
评分:8.5分
和百度的不相上下
另外试了试中文的:
也不差:
评分:8.5分
【百度 TTS API】
文字转语音 API
Safari中播放不了
Chrome中可以:
总体效果:
8.5分
小小缺点:
as a book-collector
中的a,读成了:诶 而不是 呃
优点:语速均匀,断句适当,最不像机器发出来的声音。
qcomdd/hi-voice: 百度语音合成,api接口,可用到微信语音回复
结论:
效果很不错。目前主要考虑用这个。
汇总的结论:
目前已知的,有demo的可以知道效果的:
效果最好的:Google的Cloud Text-to-Speech
评分:9-9.5分
优点:
声音很贴近真人发声,停顿和语速非常真实
缺点:
需要后续注册开发者账号才能使用
大量使用(每月超过100万字符)后,需要收费
目前效果很好的:百度的语音合成API
评分:8.5分
优点:
声音最贴近真实人声,不像机器声音
语速和语调温和真实,断句合适
缺点:
对于英文的as a book-collector中的a,读成了:诶 而不是 呃
效果第二好的:微软的Bing的text to speech API
评分:8分
优点:
英文朗读自然,和百度是一个水准
也支持中文
缺点:好像后续使用要收费?
效果还可以的:
iSpeech的Text to Speech
评分:7.5分
效果不太好的:
科大讯飞 TTS API:3 ~ 7.5分
Google TTS API:6分
ResponsiveVoice.JS:5分
还需要额外注册/申请,才能试用的:
阿里云 TTS API
腾讯云 语音合成Restful API
IBM Waston的 Synthesize audio
搜狗的语音合成API
其他不支持web的api或不支持rest的api的:
Rokid
考虑到时间有限,暂时就不继续去注册和申请那些额外的平台的api了。
先去用目前发现相对非常好的:
百度的语音合成api
【后记】
后来换用语音和声调更加标准的微软Azure的语音服务了:
转载请注明:在路上 » 【调研】国内可用的效果好的英语的在线Web语音合成API接口