语音识别论文（优秀范文6篇）

来源：未知作者：王老师
发布于：2021-07-08 共7940字

本篇论文目录导航：

【第1-2篇】语音识别论文（优秀范文6篇）
【第3篇】基于语音识别的智能垃圾桶的系统设计方案
【第4篇】4款主流变声软件的伪装语音进行对比研究
【第5篇】声纹识别和语音识别在公安实战中的应用
【第6篇】广播电视监测中语音识别技术的运用探析

　　多媒体应用时代的到来,各项新技术应运而生,一直在被研究的语音识别技术也被更加广泛地应用在实际生活中。下面是搜素整理的语音识别论文6篇，供大家参考阅读。

　　语音识别论文第一篇：基于语音识别的智慧分类垃圾桶研究

　　摘要：传统的智慧垃圾桶往往只采用红外传感器检测是否有人接近，当人体接近了垃圾桶，就会自动打开垃圾桶的翻盖，这样的垃圾桶不仅无法完成垃圾分类功能，也无法有效防止病毒传播。因此，旨在实现一个可以自动垃圾分类的智慧垃圾桶，该垃圾桶基于微控制器和语音识别技术，其工作过程为：首先，非特定人语音识别芯片LD3320不断检测外界语音输入并进行语音识别，接着Arduino微控制器再根据识别结果判断该垃圾所属的分类，最后指挥舵机打开相应垃圾桶的盖子。智慧分类垃圾桶不仅可以助力垃圾分类政策的实施，解决人们困扰的垃圾分类问题，而且可为疫情期间无接触式垃圾投放提供技术保障。

　　关键词:物联网;语音识别;智慧分类垃圾桶; Arduino;单片机;垃圾分类;舵机;

　　Abstract：The purpose of this paper is to implement a garbage classification of wisdom can automatically,the trash bin is based on micro controller and voice recognition technology,its working process is:first,speaker-independent speech recognition chip LD3320 continuously detect the outside voice input and voice recognition,then the Arduino microcontroller according to classification,the result concludes that the trash belongs the last command steering gear open the lid of the corresponding trash can.Intelligent garbage cans can not only help the implementation of garbage classification policies,solve the problem of garbage classification that people are troubled by,but also provide a safety guarantee for the contactless garbage delivery during the epidemic.

　　1 智慧垃圾桶简介

　　2017年，我国颁布了《生活垃圾分类制度实施方案》，这一举措对维护生态系统平衡、改善城乡环境、促进资源回收利用都具有重要意义，该方案将垃圾分为厨余（易腐）垃圾、有害垃圾、可回收垃圾和其它垃圾四类。但是，居民常为繁杂的垃圾分类问题而犯难，为此，本项目旨在应用语音识别和单片机技术实现一个自动分类的智能感知垃圾桶，居民只需面对智慧垃圾桶，说出要扔垃圾的名称，智慧垃圾桶就可以识别语音输入并进行语音识别，进而区分出该垃圾所属的类别，最后自动打开该类垃圾的翻盖。

　　传统的智能垃圾桶大都基于人体红外感应传感器，它实现的基本原理是：微型控制芯片通过红外传感器的感应检测是否有人靠近，当有人接近时，微型控制芯片就指挥传动装置打开垃圾桶的桶盖，延时一段时间后，再自动关闭垃圾桶的桶盖。但是，由于红外传感器的传感检测距离往往不足1m，所以这种垃圾桶不但无法有效地解决垃圾分类投递问题，也不能有效地防止垃圾桶附近细菌和病毒的传播。

　　基于语音识别技术的智慧分类垃圾桶，不仅可以帮助居民方便快捷地完成垃圾分类，同时也能有效减少因交叉触摸引起的病毒传播，实现了疫情期间无接触式的垃圾投递，进而为疫情防控提供了更多安全保障。

　　智慧分类感知垃圾桶是一种以单片机技术为基础，运用微控制器、传动装置以及各种传感器技术的智能设备，相比传统的垃圾桶，智慧分类垃圾桶是一种新型智能产品，实现了无接触式垃圾投放与分类。此外，它还可以结合其它智能设备应用于各种场景，比如结合智慧灯、智慧窗帘、智慧加湿器等组成智能家居系统；结合智慧ETC设备、超声波测距仪等设备构成智慧停车场等。总之，智慧垃圾桶在构建智慧城市、创建文明城市等方面发挥着重要作用。

　　智慧分类感知垃圾桶的主要结构为：Arduino UNO微控制芯片分别连接一块LD3320语音识别模块和四个舵机。首先，语音识别模块不断检测外界环境中居民说出的垃圾名称拼音串，比如，香蕉皮、电池、纸片、玻璃等，并进行语音识别，并把识别结果传给微控制器芯片，接着微控制器根据识别结果判断垃圾所属的分类，最后指挥舵机打开相应垃圾桶的翻盖，等待延时一定的时间（人投递垃圾需要的时间）后再指挥舵机自动关闭该垃圾桶的桶盖。

　　下面分别说明智慧分类垃圾桶四个模块及其功能：

　　1)Arduino UNO开发板：智慧分类垃圾桶的核心模块，相当于智慧垃圾桶的大脑。Arduino UNO微控制器可以脱机独立运行可执行文件，它指挥智慧垃圾桶有序地进行工作：即先调用语音识别模块不断监测外界的语音输入并识别结果，再根据输入的识别结果完成判断分类，最后指挥四个舵机之一打开垃圾桶的翻盖。

　　2）语音识别模块：智慧分类垃圾桶的AI（人工智能）模块，相当于智慧垃圾桶的感知耳朵。语音识别模块可以根据外界的自然语言输入进行语音识别，并将识别结果传给Arduino开发板。

　　3）舵机模块：智慧分类垃圾桶的动作执行模块，相当于智慧垃圾桶的手臂。本文使用四个舵机分别置于四种不同的垃圾桶上，它可以接收Arduino UNO开发板的动作指令，自动打开垃圾桶的翻盖，当垃圾投递结束后，再关闭垃圾桶的翻盖。

　　4）垃圾桶外壳：智慧分类垃圾桶的载体。厨余垃圾、有害垃圾、可回收垃圾和其它垃圾，共四类垃圾分别对应四种不同的垃圾桶。

　　2 Arduino UNO微控制芯片

　　Arduino是一种开源的微控制处理单元，它是一个基于ATmega328P（也称为单片机）微控制器的开发板。Arduino单片机使用简单、且非常灵活，已成为众多物联网应用（诸如智慧交通、智能家居、智慧农业、智慧城市等）的首选微控制器。本文应用Arduino UNO板实现了一个智慧垃圾桶，首先，单片机指挥非特定人语音识别芯片LD3320开始语音识别，再根据识别结果指挥舵机打开智慧分类垃圾桶的翻盖，从而完成垃圾分类投递的功能。

　　Arduino IDE提供给用户两个主要函数，其中第一个函数setup()用来完成程序的初始化功能，它被首先执行且只执行一次，本文在setup()函数中完成的功能有：首先串口通信初始化，将波特率设置为9600bps；再初始化四个舵机对象，并指定其连接的Arduino UNO板引脚；接着利用第三方类库实例出一个语音识别对象，调用其函数init()进行初始化，并利用函数addCommand()添加数条命令，最后，指挥语音识别对象开始语音识别。

　　Arduino IDE提供给用户的第二个函数loop()是要被后执行的，且会被反复执行无数次。主要用来判断语音识别的结果，并利用之前添加的数条命令来判断垃圾所属的种类，最后指挥舵机打开或者关闭相应垃圾桶的翻盖。

　　3 自动语音识别芯片LD3320

　　语音识别模块采用的是由ICRoute公司生产的非特定人语音识别芯片LD3320。LD3320芯片共48个引脚，是一款专用的语音识别芯片，该芯片集成了一块专用DSP (Digital Signal Processing）电路，即语音识别处理电路和一些外围电子电路，主要用于完成语音交互功能。非特定人语音识别芯片LD3320通过特有的快速而稳定的算法来完成语音识别功能，它不需要用户事先准备录音和训练，识别率高达95%。LD3320芯片既不需要外接加密芯片、存储芯片等辅助芯片，也不需要运行自然语言处理的相关软件。LD3320芯片可以结合现有产品来完成语音识别、语音合成以及人机对话等功能，另外它可以识别的关键词列表是可以动态编辑的，非常灵活。LD3320芯片可以集成到微控制器作为主控芯片的电子产品系统中，实现基于自然语言处理的各种各样的功能，帮助微控制芯片具备感知外界语音输入的能力，相当于赋给微控制器一个感知耳朵。

　　本文中，语音识别模块的功能是将自然语言中的词语拼音串转化成微控制器Arduino UNO可读的输入内容，具体识别原理和过程如图1所示。

　　图1 语音识别原理图

　　非特定人语音识别芯片LD3320为Arduino提供了一个第三方类库Voice-Recognition，包含了众多的语音前端处理处理、语音识别等函数。其中，init()函数可以启用非特定人语音识别芯片LD3320并完成语音识别对象的初始化功能；start()函数用于控制开始进行语音识别；add Command()函数有2个参数，分别用于添加识别命令和指令编号。此外，Voice Recognition库还提供了很多其它函数，分别用于语音识别中调整增益、设置最长语音时段、调整端点检测起始和结束时间等。非特定人语音识别芯片LD3320使用SPI(Serial Peripheral Interface，串行外设接口）接口与Arduino UNO板通信，SPI将引脚简化为4个，可以实现LD3320与Arduino UNO单片机进行全双工的同步串行高速数据通信。

　　4 舵机Servo

　　智慧分类垃圾桶的翻盖运动就是靠舵机来完成的，它位于垃圾桶的翻盖处，当智慧垃圾桶需要进行翻盖时，Arduino UNO板指挥舵机旋转180°从而打开垃圾桶的盖子。

　　舵机是由电机、控制电路芯片和变速齿轮组成的传动装置，它是一种可以转动一定角度（0°到180°）并保持住的特殊电机。在其组成结构中，电机用于提供动力，变速齿轮用于减速以提供足够的力矩。舵机的控制信号属于PWM(Pulse Width Modulation脉冲宽度调制）信号，因此可以根据方波脉冲的占空比来调节舵机旋转任意的角度。

　　Arduino UNO板的PWM输出引脚共有6个，即3、5、6、9、10、11。本文实现的智慧分类垃圾桶共有4种垃圾，分别对应4个垃圾桶，因此需使用4个舵机分别置于4个垃圾桶上。接线时，可将Arduino UNO板的6个模拟输入引脚中的任意4个分别连接到4个舵机上。然后，Arduino IDE利用舵机自带的Servo库声明了4个舵机对象，分别用于控制4个垃圾桶的翻盖，当判断识别结果属于某一类垃圾时，再利用相应对象的write(180)函数指挥舵机旋转180°，打开垃圾桶的翻盖，最后经过一段时间的延时后（这段时间内人有充足的时间完成垃圾的投递动作，一般为2s），再利用相应对象的write(0)函数，指挥舵机旋转0°以自动关闭垃圾桶的翻盖。

　　5 结束语

　　本文运用Arduino UNO开发板作为微控制芯片，结合非特定人语音识别芯片LD3320，使用舵机作为传动装置，设计并实现了一个智慧分类垃圾桶。首先，该垃圾桶利用非特定人语音识别芯片LD3320接收1m外距离的语音输入拼音串，再利用Arduino UNO来判断该拼音串所属的垃圾分类，最后，微控制器指挥舵机自动打开相应垃圾桶的翻盖。这样的垃圾桶为垃圾分类提供了人性化的服务，同时也为疫情防控期间减少交叉感染提供了帮助。

　　参考文献

　　[1]王和平.智能红外线自动垃圾桶设计[J] .承德石油高等专科学校学报, 2011(3):40-43

　　[2]刘遥生.红外感应自动翻盖垃圾桶[J] .电子制作, 2006(5):37-38

　　[3]郭建军,林丽君,等.于声音识别的智能声控垃圾桶[J] .科学技术创新, 2020(3):95-96

　　[4]孟稳粪凯洋.基于Arduino的家用智能垃圾桶设计[J] .工业控制计算机 , 2020,33(4):121-122,135

　　[5]苏鹏,周风余,陈磊.基于STM32的嵌入式语音识别模块设计[J] .单片机与嵌入式系统应用, 2011,11(2):42-45

　　[6]潘朝,罗小巧，黄佳,等.基于GSM短信的智能家居控制系统的设计[J] .电子测量技术, 2013,36(6):121-124

　　[7]周艳萍.机器人嵌入式语音识别系统设计与开发[D].广州:华南理工大学, 2012

　　[8]基于Arduino的嵌入式系统入门与实践[D] .北京:人民邮电出版社, 2020

　　[9]周宇辉,何志琴,胡娟，等.基于OpenMV垃圾分类的智能垃圾桶系统设计[J] .智能计算机与应用, 2020(10):71-75

　　[10]刘鹏,李进 .基于LM3 S811芯片的“应声而来智能家居垃圾桶[J] .电子器件, 2014(4):737-741

　　语音识别论文第二篇：基于云端处理的语音识别智能音响的设计与研究

　　摘要：本文设计与研究了基于云端处理的语音识别智能音箱，通过云端人工智能语音交互技术，采用SDK开发及功能界面，实现多场景下云端处理的语音识别，现有传统音响产品升级，推动智能音响在消费电子领域发展，在提供高品质音质的同时，进行独特化音响产品的设计。语音识别技术就是让智能设备听懂人类的语音。这项技术可以提供比如自动语音翻译、命令控制等多项应用。人工智能的兴起，语音识别技术在理论和应用方面都取得大突破，已逐渐走进我们的日常生活。语音识别技术的发展，准确率与响应时间将突破量变到质变的临界点，驱动语音交互产品渗透率迅速提升。

　　关键词:语音交互;云端处理;智能音响;

　　1 概述

　　近年来，智能家居市场迎来了爆发期。公开数据显示，2020年中国智能家居市场规模达到了1820亿元左右，智能家居的设备出货量突破了2.15亿台。随着技术的变更，预测在2023年全球智能家居设备出货量将达到13.9亿台，中国智能家居市场为5亿台。

　　语音识别是解决机器“听懂”人类语言的一项技术。所谓听懂，有两层意思，一是直译，把用户所说的话直接转换成文本；二是义译，正确理解语音中所包含的要求，并作出正确的应答。无论是Siri、Echo，还是其他的智能语音助手都可以接触和管理消息。需要注意的是，智能音箱不再只是单一的智能硬件，它将在更多的应用层面与使用场景落地。

　　根据市场分析可知如今电视设计的趋势是超薄、窄边框、大尺寸屏幕，而内置喇叭和腔体容积却越来越小，因此搭配超薄平板电视的超薄、小体积及高保真条状电视音响系统必将成为今后主流的家庭音响，具有广阔的市场前景。

　　本文设计与研究了基于云端处理的语音识别智能音箱，在功能上支持模拟输入、S/PDIF输入、HDMI、HDMI ARC、HDMI e ARC、Bluetooth和Wi-Fi等功能，方便构建连接并使用。通过自主研发的声学采集处理系统，采用全新的心理声学音频信号处理技术(MAP-Audio)，以及完整的DSP算法和DRC调控技术，通过对频率响应和动态范围缺陷的补偿，针对扬声器的声学限制、高噪音背景，线性人类感知做补偿，改善声音质量；从而彰显语音识别智能音响的声音优势。

　　2 基于云端处理的语音识别智能音响设计

　　本文所设计的基于云端处理的智能音响如图1所示，对ATMOS的处理芯片、杜比数字实时编码（Dolby Digital Live）技术，实现在无线智能音响、语音交互智能电视与机顶盒、语音控制装置、远程音频拾取、游戏控制台，智能家居和物联网模组、车载免提控制与通信上的应用。

　　2.1 云端语音信号处理方案

　　人机对话系统共有六个主要部分，包括有语音识别器、自然语言解析器、问题求解器、语言生成器、语言合成器和对话管理器。

　　如图2所示的人机交互过程中，语音识别、语义理解、语音合成部分决定着用户体验，因此如何准确的识别并且自然的反馈，成为智能音箱语音交互设计的核心问题。

　　2.1.1 语音识别ASR-Automatic Speech Recognition

　　是将声音转化成文字的过程，相当于耳朵。通常语音识别有两种方法：

　　图1：基于云端智能音箱设计框图

　　图2：人机交互过程

　　(1）隐马尔可夫模型（HMM-Hidden Markov Model），“传统”的识别方法，一般采用较多；

　　(2）基于深度神经网络的“端到端”方法，使用相对较少。

　　2.1.2 语义理解NLP-Natural Language Processing

　　NLP是语音交互中最核心，也是最难的模块。是实现智能语音交互的关键部分，决定着机器是否可以理解用户真实意图和实际需求。

　　NLP主要涉及的技术有：文本预处理、词法分析、语义理解、分词、文本分类、文本相似度处理、情感倾向分析、文本生成等等。举个例子，在处理文本时，会发现有大量的同音错别字，怎么样让机器知道这些错别字，并且改过来呢，也是NLP的一大难点。

　　图3：基于云端处理的语音识别智能音响

　　2.1.3 语音反馈TTS-Text To Speech

　　实现TTS，目前比较成熟的有两种方法：“拼接法”和“参数法”。

　　2.2 数字音频DSP处理方案

　　本方案采用CS49844音频DSP进行基于云端处理的一代环绕声的应用提供高容量处理。数字信号处理器(DSP)支持所有传统DVD音频编解码器和所有Blu-ray Disc?音频格式，并且拥有足够的数字信号处理器(DSP)容量，可在单个芯片中支持各种并发后处理算法，而无需从外部存储。当性能要求需要更多处理时，开发人员可轻松在拥有四核的CS49844引脚兼容器件之间分别切换。其主要特性有：适用于Dolby ATMOS和DTS:X的单芯片解决方案、多声道解码和后处理、拥有四核(CS49844) 32位DSP、I?S和S/PDIF、串行控制端口和Cirrus Logic DSP工具支持。其中：

　　2.2.1 音频信号输入Audio Source

　　Audio Source信号源既可输入模拟与数字信号，数字音频信号的格式分为两种传输方式：光纤与电缆传入方式，数字音频信号通过Digital Selector的选通开关后传入到DSP，模拟音频信号经过ADC模数转换后输入到DSP进行处理。

　　2.2.2 数字信号选择器DS-Digital Selector

　　音频信号源Audio Source可能发送光纤同轴两种类型接口的数字音频，这两种信号要进行一组切换行为才能传入DSP进行解码，这组切换受控于MCU(Microcontroller Unit)，这是更合理的设置搭配，需要在此处进行信号的选择。

　　2.2.3 动态随机存取内存-SDRAM

　　SDRAM有同步Synchronization接口，在响应控制输入前会等待一个时钟信号，这使得SDRAM与DRAM相比，更优的操作模式，存储核心处理所需要各类参数，以及用作中间数据缓存。本次的系统设计中，涉及到的音频处理参数，多个模块的数据由于数据量巨大，无法保存在DSP内存中，需要写入SDRAM，实时同步读写。

　　2.3 杜比数字实时编码（Dolby Digital Live）技术应用

　　一种实时编码技术，它能将多种音频信号转成杜比数字的专用码流并通过家庭影院系统进行播放。其主要技术包括有：

　　2.3.1 影音的环绕声技术

　　杜比数字实时编码(Dolby?Digital Live)技术使你在看视频时沉浸在与影音空间相契合的5.1声道环绕声中，从而提供更好的综合游戏体验。

　　2.3.2 无延迟或暂停技术

　　杜比数字实时编码(Dolby Digital Live)技术已针对低延迟交互式应用进行优化，不会在视频与音频之间引入任何可感知的延迟，因而完美地适用于游戏。

　　2.3.3 单电缆连接

　　通过使用单个数字连接，杜比数字实时编码(Dolby Digital Live)技术确保音频信号的完整性并消除多个模拟和数字连接的混淆、干扰和染波。

　　杜比全景声结合了面向对象的概念，动态处理声道的混音、声音定向、增益等方式，令观众体验极佳的沉浸感。利用顶部扬声器和环绕扬声器创造出逼真而自然的音频体验。置顶声道采用了安置在声条音响顶部的两只斜向上的喇叭，通过大花板反射形成天空置顶声道。由安置在声条式音响两侧的喇叭通过左右墙面反射产生左右环绕声道。在一个狭小的声条式音响体积内要安置8个独立的声道。杜比全景声实现了硬件配置受限的情况下，尽可能重放原创者的设想效果。让声音可以精确的在三维空间内部署和流动，而减少声道的限制带来的影响。如图3所示。

　　基于云端处理的语音处理及现场观看和交谈，支持触发辅助信源选择拾取噪声抑制技术，实现了多通道声学回声消除，SSP噪声抑制，集成语音触发引擎，低功率70m W唤醒语音检测缓冲声音模式，集成片上32位的数字音频处理器芯片，具有106d B全路径动态范围的24位麦克风ADC，原始音频采样率：8～96k Hz,0.125d B模拟前端增益分辨率，低串扰专用麦克风偏置，I2S串行数据接口，I2C控制接口，容量可选串行EEPROMFLASH,USB全速，兼容2.0UAC，异步数据传输异步SRC和同步缓冲区集成DC/DC电源管理，22 Pin邮票孔焊盘设计。

　　3 结语

　　在面对以新技术为主要驱动力的新一轮科技革命和产业变革蓬勃兴起的环境下，智能家居的崛起是历史的必然。

　　此外，在国家政策和巨大行业需求的双重助力下，中国智能家居行业市场规模将进一步扩大。权威调研机构Strategy Analytics发布调研报告称，预计到2023年，消费者在智能家居硬件、服务、安装上的费用支出将达到1570亿美元（超1万亿元人民币）。

　　2020年中国智能家居设备市场出货量预计接近2.2亿台，至2024年出货量将增长至近5亿台，年复合增长率高达23%。“双11”期间，智能家居生态销售额2分钟内便已破亿。随着技术的进一步发展以及应用范围的拓宽，智能音响市场将迎来一轮爆发式的增长。

　　参考文献

　　[1]赵琳透析智能家居市场[J]中国安防，2007(03):75-79+7.

　　[2]吴翔.产品系统设计一产品设计(2)[M].北京中国轻工业出版社,2000.

　　[3]吴琼产品系统设计[M].化学I业出版社,2019.

　　[4]周永宏融入智能家居发展趋势的音响设计研究[D]武汉理工大学2016.

　　[5]吴翔.产品系统设计[M].中国轻I工业出版,2004.

　　[6]蔡嘉清.文化产业营销[M].北京清华大学出版社,2007.

　　[7]唐林.产品概念设计基本原理及方法[M].北京国防工业出版社2006.

返回本篇论文导航

相关内容推荐