Files
chatgpt-on-wechat/voice/baidu/README.md
2023-04-17 01:01:02 +08:00

2.8 KiB
Raw Blame History

说明

百度语音识别与合成参数说明 百度语音依赖,经常会出现问题,可能就是缺少依赖: pip install baidu-aip pip install pydub pip install pysilk 还有ffmpeg不同系统安装方式不同

系统中收到的语音文件为mp3格式wx或者sil格式wxy如果要识别需要转换为pcm格式转换后的文件为16k采样率单声道16bit的pcm文件 发送时又需要wx转换为mp3格式转换后的文件为16k采样率单声道16bit的pcm文件,wxy转换为sil格式,还要计算声音长度,发送时需要带上声音长度 这些事情都在audio_convert.py中封装了直接调用即可

参数说明 识别参数 https://ai.baidu.com/ai-doc/SPEECH/Vk38lxily 合成参数 https://ai.baidu.com/ai-doc/SPEECH/Gk38y8lzk

使用说明

分两个地方配置

1、对于def voiceToText(self, filename)函数中调用的百度语音识别API,中接口调用asr参数这个配置见CHATGPT-ON-WECHAT工程目录下的config.json文件和config.py文件。 参数 可需 描述 app_id 必填 应用的APPID api_key 必填 应用的APIKey secret_key 必填 应用的SecretKey dev_pid 必填 语言选择,填写语言对应的dev_pid值

2、对于def textToVoice(self, text)函数中调用的百度语音合成API,中接口调用synthesis参数在本目录下的config.json文件中进行配置。 参数 可需 描述 tex 必填 合成的文本使用UTF-8编码请注意文本长度必须小于1024字节
lan 必填 固定值zh。语言选择,目前只有中英文混合模式填写固定值zh spd 选填 语速取值0-15默认为5中语速 pit 选填 音调取值0-15默认为5中语调 vol 选填 音量取值0-15默认为5中音量取值为0时为音量最小值并非为无声 per基础音库 选填 度小宇=1度小美=0度逍遥基础=3度丫丫=4 per精品音库 选填 度逍遥(精品)=5003度小鹿=5118度博文=106度小童=110度小萌=111度米朵=103度小娇=5 aue 选填 3为mp3格式(默认) 4为pcm-16k5为pcm-8k6为wav内容同pcm-16k; 注意aue=4或者6是语音识别要求的格式但是音频内容不是语音识别要求的自然人发音所以识别效果会受影响。

关于per参数的说明注意您购买的哪个音库就填写哪个音库的参数否则会报错。如果您购买的是基础音库那么per参数只能填写0到4如果您购买的是精品音库那么per参数只能填写50035118106,110,111,103,5其他的都会报错。

配置文件

将文件夹中config.json.template复制为config.json

    {
    "lang": "zh",
    "ctp": 1,
    "spd": 5,
    "pit": 5,
    "vol": 5,
    "per": 0
    }