Files
chatgpt-on-wechat/voice/baidu/README.md
2023-04-17 01:01:02 +08:00

55 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
## 说明
百度语音识别与合成参数说明
百度语音依赖,经常会出现问题,可能就是缺少依赖:
pip install baidu-aip
pip install pydub
pip install pysilk
还有ffmpeg不同系统安装方式不同
系统中收到的语音文件为mp3格式wx或者sil格式wxy如果要识别需要转换为pcm格式转换后的文件为16k采样率单声道16bit的pcm文件
发送时又需要wx转换为mp3格式转换后的文件为16k采样率单声道16bit的pcm文件,wxy转换为sil格式,还要计算声音长度,发送时需要带上声音长度
这些事情都在audio_convert.py中封装了直接调用即可
参数说明
识别参数
https://ai.baidu.com/ai-doc/SPEECH/Vk38lxily
合成参数
https://ai.baidu.com/ai-doc/SPEECH/Gk38y8lzk
## 使用说明
分两个地方配置
1、对于def voiceToText(self, filename)函数中调用的百度语音识别API,中接口调用asr参数这个配置见CHATGPT-ON-WECHAT工程目录下的`config.json`文件和config.py文件。
参数 可需 描述
app_id 必填 应用的APPID
api_key 必填 应用的APIKey
secret_key 必填 应用的SecretKey
dev_pid 必填 语言选择,填写语言对应的dev_pid值
2、对于def textToVoice(self, text)函数中调用的百度语音合成API,中接口调用synthesis参数在本目录下的`config.json`文件中进行配置。
参数 可需 描述
tex 必填 合成的文本使用UTF-8编码请注意文本长度必须小于1024字节
lan 必填 固定值zh。语言选择,目前只有中英文混合模式填写固定值zh
spd 选填 语速取值0-15默认为5中语速
pit 选填 音调取值0-15默认为5中语调
vol 选填 音量取值0-15默认为5中音量取值为0时为音量最小值并非为无声
per基础音库 选填 度小宇=1度小美=0度逍遥基础=3度丫丫=4
per精品音库 选填 度逍遥(精品)=5003度小鹿=5118度博文=106度小童=110度小萌=111度米朵=103度小娇=5
aue 选填 3为mp3格式(默认) 4为pcm-16k5为pcm-8k6为wav内容同pcm-16k; 注意aue=4或者6是语音识别要求的格式但是音频内容不是语音识别要求的自然人发音所以识别效果会受影响。
关于per参数的说明注意您购买的哪个音库就填写哪个音库的参数否则会报错。如果您购买的是基础音库那么per参数只能填写0到4如果您购买的是精品音库那么per参数只能填写50035118106,110,111,103,5其他的都会报错。
### 配置文件
将文件夹中`config.json.template`复制为`config.json`
``` json
{
"lang": "zh",
"ctp": 1,
"spd": 5,
"pit": 5,
"vol": 5,
"per": 0
}
```