rokid-openvoice-websocket

开放平台接口定义文档(websocket版)

文档版本:V0.2

Rokid openvoice开放服务(websocket版)包含以下三部分功能，

设备认证
自然语言合成（TTS）
完整语音交互(SPCH)

文档简介

此文档用于定义开放平台上云端应用接口开发协议，协议遵循 websocket 协议。

Speech 接口

服务器地址

wss://apigwws.open.rokid.com/api

protobuf 定义

详见protobuf

AuthRequest

参数	类型	描述	默认值
key	string	开放接口Key,在管理平台获取	无，必填
device_type_id	string	设备类型ID	无，必填
device_id	string	设备ID	无，必填
service	string	asr,tts,speech	无，必填
version	string	接口版本号	无，必填
timestamp	string	unix时间戳	无，必填
sign	string	由以上几项+secret按约定的加密方式生成	无，必填

sign的生成加密方式：

key={key}&device_type_id={device_type_id}&device_id={device_id}&service={service}&version={version}&time={timestamp}&secret={secret}

的utf8字符串的md5值

其中{xxx}由xxx的值替代

key及secret由开发方通过管理平台获取，并保管。

此处version可有1.0或2.0，分别对应protobuf中v1或v2目录。

AuthResponse

请求响应

参数	类型	描述
result	int32	认证结果(成功:0, 失败:-1)

TtsRequest

PCM格式为 RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 24000 Hz语音。注意，这里的PCM与Asr的PCM格式不一致，因此不能将tts的输出直接作为asr的输入。可以使用 sox -t s16 -c 1 -r 24000 xxx.pcm xxx.wav 将pcm转成wav。

或者

请求时将 sample_rate 设置为16000，则返回16k的语音数据，可以直接作为asr的输入。

参数	类型	描述	默认值
id	int32	唯一标识，用于跟踪一个完整的请求，处理及响应事件。	0
text	string	需要转换的text文本	无
declaimer	string	发音者，如"zh","zhangsan","rose"	"zh"
codec	string	语音流的编码，目前支持PCM，OPU，OPU2。	无
sample_rate	uint32	语音流的比特率，目前支持24000，16000。	24000

TtsResponse