基于FPGA的改进型FIR滤波器的实现

FIR数字滤波器在数字信号处理的过程中有很好的线性相位和稳定性，被广泛应用于音频处理、语音处理、信息系统等各种系统中。随着现代电子技术及EDA技术的发展，特别是可编程逻辑电路的发展，FIR数字滤波器的实现将变得更具有灵活性和实时性。FIR滤波器的实现有多种方法，其中基于分布式算法FIR滤波器的FPGA实现采用硬件结构，此算法的特点是运行速度快，能较好地实现实时处理，特别适合于高速实时的信号处理。本文提出了一种基于分布式算法改进型FIR滤波器的FPGA实现，并设计和实现了改进型FIR滤波器。
1 FIR数字滤波器的直接型结构
FIR数字滤波器的输入与输出可以用下式表示：

文章插图
式中：N为滤波器的阶数（或抽头数）；x（k）为第k时刻的输入样本值；h（k）为第k级抽头系数。FIR因为其单位脉冲响应h（n）是有限长而得名，即h（n）是一个有限长序列，对h（n）做Z变换就得到FIR数字滤波器的系统函数H（z）：

文章插图
由此可以得到FIR数字滤波器直接型的结构图如图1所示。

文章插图
2 改进型FIR数字滤波器算法
【基于FPGA的改进型FIR滤波器的实现】 2.1 分布式算法的原理
分布式算法是一种重要的FPGA技术，广泛应用在计算乘积和之中。除了卷积之外，相关、DFT计算和RNS反演映射等都可以转化为乘积和（sum of products）的形式。
（1）无符号分布式算法
假设N项的乘积和表示为：

文章插图
又设系数h（n）是已知的常系数，x（n）是变量，设x（n）的表达式如下：

文章插图
其中xb（n）表示x（n）的第b位，x（n）是x的第n次采样，则y又可以表示为：

文章插图
（2）有符号分布式算法
对于有符号数补码数采用补码的表示方法。需要注意的是，在补码中，最高有效位是用来区别正数和负数的。将采用（B+1）位表达式：

文章插图
要实现有符号分布式系统，通常采用"带有加/减控制器的累加器"实现此系统，当xb（n）为0时进行加法运算，为1时进行减法运算。
2.2 串行分布式算法
串行分布式算法结构如图2所示。利用一个LUT实现映射，即2N字宽，预先编写好程序的xb=［xb（0），xb（1），…，xb（N-1）］的映射，经查找表查找后输出，

文章插图
N次查询循环后就完成了计算结果。

文章插图
以三阶四位有符号的数字滤波器为例，令滤波器的系数为{-2，1，3}，LUT可采用基于FPGA的逻辑查找表或利用FPGA自带的ROM实现。用case表实现的核心代码如下：
Process （table_ in）
Begin
Case table_ in is
when "000"=》 table_ out=0；
when "001"=》 table_ out=-2；
when "010"=》 table_ out=3；
when "011"=》 table_ out=1；
when "100"=》 table_ out=1；
when "101"=》 table_ out=-1；
when "110"=》 table_ out=4；
when "111"=》 table_ out=2；
when others=》 table_ out=0；
end case；
end process；
2.3 并行分布式算法
并行分布式算法结构如图3所示，图中虚线代表流水线寄存器，输入采用逐次采样（每次一个字）、位并行的形式。将每个数据的相同位递给LUT，对于输入的每一位都需要配置相应单独的表，且表的规模不固定（输入位宽等于滤波器抽头的数量），但表的内容相同。且不同的位对应不同的值，然后将从LUT中读取的数据经过处理后送入加法器中，每级的加法运算都是并行的。

文章插图
2.4 拆分查找表
并行分布式算法虽然能够有效提高系统运算的速度，但是占用的资源太大。串行分布式算法占用的资源小，但系统的运算速度慢。而且当N很大时，即在FIR滤波器中如果阶数很高时，作为查找表的ROM将很大，例如：假定N=16，输入LUT的位宽为16，则ROM的大小为16&TImes;216 bit，即1 Gbit 。N每增加一位，ROM容量就增加一倍，这种以2的幂次递增的资源占用是硬件资源不可接受的。
当系统对速度要求不太高、而滤波器的阶数很高时，可以采用拆分表减少ROM容量并将结果累加。如果再加上流水线寄存器，这个改进并没有降低速度，却可以极大减少LUT的设计规模。
假设长度为LN的内积：

文章插图
可以用一个DA结构实现。将和分配到L个独立的N阶并行DA的LUT之中，结果如下：

文章插图
例如：实现一个4N的DA设计需要3个次辅助加法器。而表格的规模从一个4N&TImes;2B的LUT降低到4个N&TImes;2B表。图4是拆分查找表的硬件结构图。

文章插图
3 基于FPGA实现的改进型FIR滤波器结构性能
3.1 16阶8位FIR滤波器的实现及仿真
本设计采用Altera公司的Cyclone II EP2C35F672C8器件，在Quartus II 5.0下仿真，FIR滤波器为16阶，输入数据为8位（最高位代表符号位）。如果采用单个查找表的面积为28&TImes;16 bit，面积太大。采用拆分查找表的结构能减少面积，在Altera公司的一系列FPGA中LUT查找表采用四输入查找表，因此单个表可以拆分为2个四输入的查找表。因为设计的是线性相位滤波器，这样单个表的面积就得到了最优化。同时单个查找表的连线是LUT查找表的内部连线，减少了互联的资源和连线的延迟。查找表计算方法如表1所示。

文章插图
设输入序列为{99，0，0，0，70，0，0，0，99，0，0，0，70，0，0，0}，滤波器的系数为{-12 -18 13 29 -13 -52 14 162 242 14 -52 -13 29 13 -18} 。仿真结果如图5所示。

文章插图
本设计的时钟主频可达73.49 MHz，占用了236个逻辑单元，占整个LC（Logic cell）的2% 。可见拆分查找表的方式实现FIR滤波器速度较快，占用的资源少。
若要实现更高阶的滤波器，拆分查找表法的优势将更加明显。另外，如果是线性相位的滤波器，表的个数将能缩小一倍。本设计即为线性相位滤波器。
3.2 改进型FIR滤波器在FPGA中实现的特点分析
为了分析改进型FIR滤波器在FPGA中实现的特点，利用VHDL语言程序分别设计了16阶的串行、并行及直接型FIR滤波器，并与相应的拆分查找表法FIR滤波器进行比较，其各自的运行速度及占用FPGA资源的情况如表2所示。

文章插图
从表2可以看出，改进型滤波器与直接型相比存在两大明显的优势。一方面，在滤波器阶数相同时，改进型FIR滤波器在FPGA资源占用上比直接型更少；另一方面，系统运行的速度比直接型更快。而且，随着滤波器阶数的增加，这种优势更加明显。串行滤波器完成一次运算需要8个时钟周期，为了把数据分为8个时钟周期进行计算，采用了移位寄存器，这样单个表的面积相当大，从而占用了大量资源，工作速度也受到了限制。并行分布式滤波器在1个时钟周期完成了累加，提高了工作速度，但所用面积较大。拆分查找表法滤波器大大减少了面积，而且速度并没有降低。
本设计采用了拆分查找表方法，影响系统速度的是加法器组，可以对滤波器进一步改进，如对加法器组利用流水线、编码等技术可以提高工作速度。
通过以上的理论分析和仿真结果表明，基于FPGA器件的拆分查找表FIR算法，占用资源少、运算速度快，在资源允许的条件下可根据实际应用任意确定滤波器的长度和阶数，是一种比较实用可靠的高效设计方法。

基于FPGA的改进型FIR滤波器的实现

推荐阅读

美缝后铺地膜怎么收费

原神没有任务怎么升级原神没主线怎么升级快

春雨面膜是否有荧光剂

威海计算机培训机构威海计算机考试报名条件

南岭村为什么是中国第一村

麻薯可以微波炉加热吗麻薯可以微波炉加热吗?

3岁宝宝办理身份证需要什么证件宝宝办理身份证需要什么证件

梦幻十二门派闯关难杀吗

乐平市房产中介哪家靠谱

三年生苹果树怎么剪枝苹果树怎么剪枝

孟加拉半年2次60天签证什么意思

沈阳浑南区双减培训机构复课要求双减后沈阳培训机构还在上课

安禄山是被他的亲生儿子杀的吗为什么

简述新发展理念的科学内涵及其关系试述新发展理念与科学发展观的关系

什么装修风格高端大气上档次什么装修风格高端大气上档次又好看

什么是先天性无子宫什么叫先天性无子宫

英雄杀傲剑多久出一次英雄杀傲剑卡怎么得

京东诚易贷的申请条件是什么

云记看pdf学习怎么打草稿

是否勉县生源是什么意思