浅析语音芯片与语音合成芯片的异同

浅析语音芯片与语音合成芯片的异同【浅析语音芯片与语音合成芯片的异同】        语音合成技术是引领信息社会的重要组成部分 , 是广大生产厂商提升其产品价值的重要手段 。让客户更好的使用产品 , 莫过于直接与机器进行交流 。实现机器说话的手段莫过于硬件与软件两大方案 , 而硬件方案主要包括语音芯片和语音合成芯片两大方案 。自2003年北京宇音天下科技有限公司的OSYNO6188国内首款中文语音合成芯片(也称中文TTS芯片)问世以来 , 市场上的可发声芯片就正式分成两大类:语音芯片与语音合成芯片 。但是在现实开发语音终端产品工作中 , 有很多的研发人员对于这两类芯片的认知 , 经常出现概念上混淆 , 常常将语音合成芯片 , 误认为语音芯片 , 加之一些制作销售语音芯片的公司 , 为了更好的销售 , 以突出语音芯片的比较价格优势 , 也对外宣称他们的语音IC , 是语音合成芯片 , 有意识地误导开发人员 , 其实这两者是有本质上是完全不同的 。
    举例而言 , 当用户需要最终开发的语音终端 , 进行大量的不同语音实时提示时--比如检测油量车速等功能的车载仪表 , 需要对当前的油量 , 车速进行实时的报告;或者类似GPS导航 , 提示现在是位于XX街道 , 当前路面上规定的车速是什么时 , 也许语音芯片的研制企业宣称没有问题 , 但对不同省市的不同街道 , 它就没辙了 , 这就必须使用语音合成芯片 。语音芯片的使用 , 是在比较固定和较少的语音信息提示时使用的 , 例如说:这个芯片是用在某路公交车手动报个站 , 或者说火灾来的时候发出报警声音 , 这时候使用语音芯片很合适的 。这样您就能知道 , 您到底需要什么类型的芯片了 。
     接下来可以对它们做比较正式的定义了 。所谓语音芯片 , 是指将语音信号通过采样转化为数字 , 存储在IC的ROM中 , 再通过电路将ROM中的数字还原成语音信号 。所谓语音合成芯片 , 又称中文TTS芯片 , 是指一种专业的语音芯片 , 它可以通过串行通信接口如UART和SPI等方式 , 与主控CPU进行数据通信 , 接收CPU传送的文本信息 , 并将文本信息 , 转化成合成语音的方式 , 驱动发声器发声 , 其特点是:高集成度 , 内置中文TTS功能 , 带串行通信接口以及需要一定的外围电路的支持 。
     从使用方法来看 , 语音芯片的主要使用方式是先对其进行录音 , 录音完成烧录后再来对其使用 。而语音合成芯片只需要上位机通过串行通信对其发送一段文本信息 , 再将文本信息转化为语音信号 。从使用上来看 , 由于语音芯片所记录的提示语音段长度受限 , 在只需要少量提示语音、并且可以大规模应用的场合下 , 则适合使用语音芯片 , 因其成本不高;缺点则是需预录制语音、需重新烧录、需校验 , 这对于许多研发企业而言 , 其实是十分烦难的—尤其是当这些研制出的语音终端 , 卖到不同的用户 , 就需要使用不同的语音录制文件时 , 将消耗研发人员大量的宝贵成本 。语音合成芯片 , 则可以灵活的使用上位机提供的文本信息 , 就可自动的转化为输出声音 , 从而在智能化人机交互方面产生大量的应用 , 缺点是智能分析能力不能达到100%的正确语音发声(自然度跟人声相比还是略有差别)且成本较普通的语音芯片略高 。
     从语音合成芯片的定义上就能知道 , 它属于一种高端的语音芯片 , 是一种采取了语音合成技术的、截然不同的智能芯片 , 它内置了中文TTS软件或语音合成软件核心 。从未来的市场发展和用户体验要求上来看 , 也许将有一天语音合成芯片终将取代语音芯片如今的地位 , 当然需要很长的时间 , 或者最终二者合二为一也不一定 。现在只能说 , 未来的语音合成芯片合成效果自然度将更高 , 成本将更低廉 , 控制更方便以及面向多语种化 。

    推荐阅读