使用语音识别结合大模型实现命令分类

  • 之前用ESP32实现过用百度千帆模型进行大模型对话的功能,这次使用Python实现,并先通过麦克风输入语音,实现语音识别,再通过API调用大模型进行对话,这次让通过提示性内容引导模型输出分类,也就是完成简单的分类任务。

    可参考的链接:

    ESP32实现的文本对话——基于文心一言

🔥文本分类

这部分跟“ESP32实现的文本对话——基于文心一言”这项工作内容一致,只不过这次代码用的Python,所以创建应用、调试API等先行工作就请跳转查看。
Python代码如下:

import requests
import json

def classify(words):
    # 替换为你的实际访问令牌
    access_token = "你的百度令牌"
    url = f"https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token={access_token}"
    # 定义要发送的消息
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": f'这是列表[长方体,球体,圆柱],我向你发送一句话,判断语句和列表哪一项最符合,你只要回答一个数字,这个数字就是这个列表中元素对应的索引,接下来请听话:{words}'
            }
        ],
        "temperature": 0.95,
        "top_p": 0.8,
        "penalty_score": 1,
        "enable_system_memory": False,
        "disable_search": False,
        "enable_citation": False,
        "response_format": "text"
    })
    headers = {
        'Content-Type': 'application/json'
    }
    try:
        # 发送POST请求
        response = requests.post(url, headers=headers, data=payload)
        # 检查响应状态码
        if response.status_code == 200:
            # 打印返回的结果
            response_data = response.json()
            print("回答:", response_data.get('result', '没有返回结果'))
        else:
            print(f"请求失败,状态码: {response.status_code},错误信息: {response.text}")
    except Exception as e:
        print(f"发生异常: {e}")

if __name__ == '__main__':
    classify("给我一个长方体")

这里实现了通过令牌调用API,输入一句话并根据提示性语句,让模型仅回答一个数字,作为分类列表“长方体,球体,圆柱”中元素的索引,我们后续可以将输出接到目标检测网络等算法上,让它有目标地识别并输出位置框(本文不介绍)。

🔥语音识别

  • 该环节使用讯飞的语音识别(流式版)https://www.xfyun.cn/services/voicedictation:
    讯飞语音识别主页

  • 点击免费试用,就可以看到应用界面:
    语音识别应用界面

  • 右上角就是和百度千帆的API一样有ID、Key、Secret,这里就不多赘述了。

  • 在刚才的主页点击技术文档就可以在文档里面找到下载demo的地方,可以根据其示例进行改进:
    示例下载

  • 接下来直接展示最后的代码,而非示例:

import pyaudio
import wave
import websocket
import datetime
import hashlib
import base64
import hmac
import json
from urllib.parse import urlencode
import time
import ssl
from wsgiref.handlers import format_date_time
from datetime import datetime
from time import mktime
import _thread as thread
import keyboard  # 用于捕捉键盘输入

from word_classify import classify

STATUS_FIRST_FRAME = 0  # 第一帧的标识
STATUS_CONTINUE_FRAME = 1  # 中间帧标识
STATUS_LAST_FRAME = 2  # 最后一帧的标识

class Ws_Param(object):
    # 初始化
    def __init__(self, APPID, APIKey, APISecret, AudioFile):
        self.APPID = APPID
        self.APIKey = APIKey
        self.APISecret = APISecret
        self.AudioFile = AudioFile

        # 公共参数(common)
        self.CommonArgs = {"app_id": self.APPID}
        # 业务参数(business),更多个性化参数可在官网查看
        self.BusinessArgs = {"domain": "iat", "language": "zh_cn", "accent": "mandarin", "vinfo":1,"vad_eos":10000}

    # 生成url
    def create_url(self):
        url = 'wss://ws-api.xfyun.cn/v2/iat'
        # 生成RFC1123格式的时间戳
        now = datetime.now()
        date = format_date_time(mktime(now.timetuple()))

        # 拼接字符串
        signature_origin = "host: " + "ws-api.xfyun.cn" + "\n"
        signature_origin += "date: " + date + "\n"
        signature_origin += "GET " + "/v2/iat " + "HTTP/1.1"
        # 进行hmac-sha256进行加密
        signature_sha = hmac.new(self.APISecret.encode('utf-8'), signature_origin.encode('utf-8'),
                                 digestmod=hashlib.sha256).digest()
        signature_sha = base64.b64encode(signature_sha).decode(encoding='utf-8')

        authorization_origin = "api_key=\"%s\", algorithm=\"%s\", headers=\"%s\", signature=\"%s\"" % (
            self.APIKey, "hmac-sha256", "host date request-line", signature_sha)
        authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')
        # 将请求的鉴权参数组合为字典
        v = {
            "authorization": authorization,
            "date": date,
            "host": "ws-api.xfyun.cn"
        }
        # 拼接鉴权参数,生成url
        url = url + '?' + urlencode(v)
        return url

# 收到websocket消息的处理
def on_message(ws, message):
    try:
        code = json.loads(message)["code"]
        sid = json.loads(message)["sid"]
        if code != 0:
            errMsg = json.loads(message)["message"]
            print("sid:%s call error:%s code is:%s" % (sid, errMsg, code))
        else:
            data = json.loads(message)["data"]["result"]["ws"]
            result = ""
            for i in data:
                for w in i["cw"]:
                    result += w["w"]
            # print("sid:%s call success!,data is:%s" % (sid, json.dumps(data, ensure_ascii=False)))
        if len(result) > 2:
            print(result)
            classify(result)
    except Exception as e:
        print("receive msg,but parse exception:", e)

# 收到websocket错误的处理
def on_error(ws, error):
    print("### error:", error)

# 收到websocket关闭的处理
def on_close(ws, a, b):
    print("### closed ###")

# 收到websocket连接建立的处理
def on_open(ws):
    def run(*args):
        frameSize = 8000  # 每一帧的音频大小
        intervel = 0.04  # 发送音频间隔(单位:s)
        status = STATUS_FIRST_FRAME  # 音频的状态信息,标识音频是第一帧,还是中间帧、最后一帧

        with open(wsParam.AudioFile, "rb") as fp:
            while True:
                buf = fp.read(frameSize)
                if not buf:
                    status = STATUS_LAST_FRAME
                if status == STATUS_FIRST_FRAME:
                    d = {"common": wsParam.CommonArgs,
                         "business": wsParam.BusinessArgs,
                         "data": {"status": 0, "format": "audio/L16;rate=16000",
                                  "audio": str(base64.b64encode(buf), 'utf-8'),
                                  "encoding": "raw"}}
                    d = json.dumps(d)
                    ws.send(d)
                    status = STATUS_CONTINUE_FRAME
                elif status == STATUS_CONTINUE_FRAME:
                    d = {"data": {"status": 1, "format": "audio/L16;rate=16000",
                                  "audio": str(base64.b64encode(buf), 'utf-8'),
                                  "encoding": "raw"}}
                    ws.send(json.dumps(d))
                elif status == STATUS_LAST_FRAME:
                    d = {"data": {"status": 2, "format": "audio/L16;rate=16000",
                                  "audio": str(base64.b64encode(buf), 'utf-8'),
                                  "encoding": "raw"}}
                    ws.send(json.dumps(d))
                    time.sleep(1)
                    break
                time.sleep(intervel)
        ws.close()

    thread.start_new_thread(run, ())

def record_audio(file_name):
    FORMAT = pyaudio.paInt16  # 16-bit 深度
    CHANNELS = 1  # 单声道
    RATE = 16000  # 采样率16kHz
    CHUNK = 1024  # 每个块的帧数
    frames = []

    # 初始化pyaudio
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)

    print("开始录音... 按下 'q' 键停止录音")
    while True:
        data = stream.read(CHUNK)
        frames.append(data)
        if keyboard.is_pressed('q'):  # 检测 'q' 键
            print("录音结束")
            break

    # 停止并关闭音频流
    stream.stop_stream()
    stream.close()
    p.terminate()

    # 将录音数据保存为WAV文件
    with wave.open(file_name, 'wb') as wf:
        wf.setnchannels(CHANNELS)
        wf.setsampwidth(p.get_sample_size(FORMAT))
        wf.setframerate(RATE)
        wf.writeframes(b''.join(frames))


if __name__ == "__main__":
    audio_file = "output.wav"  # 输出音频文件名
    wsParam = Ws_Param(APPID='你的讯飞APPID', APISecret='你的讯飞APISecret',
                       APIKey='你的讯飞APIKey',
                       AudioFile=audio_file)

    # 先录音
    record_audio(audio_file)

    # 创建WebSocket连接并发送音频
    websocket.enableTrace(False)
    wsUrl = wsParam.create_url()
    ws = websocket.WebSocketApp(wsUrl, on_message=on_message, on_error=on_error, on_close=on_close)
    ws.on_open = on_open
    ws.run_forever(sslopt={"cert_reqs": ssl.CERT_NONE})
  • 代码大致流程就是:
  1. 运行脚本后直接进入语音输入状态,用户可以通过麦克风说话,说完的话通过pyaudio、wave等库生成符合API要求的语音文件;
  2. 生成语音文件后,通过WebSocket连接向讯飞服务器发送请求,并等待服务器返回结果,结果实际上是分词发送来的,可以拼接到result变量中;
  3. 接收完全部识别结果后,通过classify函数调用百度千帆的API,对识别结果进行分类,并打印出来。

🔥结果

  • 可以看到语言输入被正确识别,并且模型准确返回圆柱所对应的分类索引2
  • Copyrights © 2023-2025 LegendLeo Chen
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信