ImageVerifierCode 换一换
格式:PDF , 页数:7 ,大小:1.96MB ,
资源ID:210034      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/210034.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(H.265硬编码器的高效数据存取系统设计_陈业旺.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

H.265硬编码器的高效数据存取系统设计_陈业旺.pdf

1、 电视技术 第 46 卷第 12 期(总第 565 期)39PARTS&DESIGN器件与设计文献引用格式:陈业旺,吴林煌,杨俊伟.H.265 硬编码器的高效数据存取系统设计 J.电视技术,2022,46(12):39-45.CHEN Y W,WU L H,YANG J W.Design of efficient data access system of H.265 hard encoderJ.Video Engineering,2022,46(12):39-45.中图分类号:TP311.5 文献标识码:A DOI:10.16280/j.videoe.2022.12.010H.265 硬编码

2、器的高效数据存取系统设计陈业旺1,吴林煌2,杨俊伟2(1.福州大学 先进制造学院,福建 晋江 362200;2.福州大学 物理与信息工程学院,福建 福州 350108)摘要:为了使 H.265 硬编码器尽可能降低编码延时,同时减少因越来越高的视频质量带来的日益剧增的存储空间、数据带宽压力,基于 Zynq 平台提出一种高效率的编码数据存取方案,通过分辨率检测模块实现输入视频分辨率检测,从而使系统能根据分辨率自适应控制输入视频数据存储空间的划分,控制重构图像边缘填充宽度;设计一套帧间预测数据读取框架,实现搜索框重构像素的滑动窗读取,降低 DDR4 带宽需求与数据读取延时;通过合理控制每次读写 DD

3、R4 的突发长度,以 6464 的CTU 块为单位储存数据,减少访问 DDR4 时换行或切换 Bank 次数,从而进一步提高存储系统的效率。关键词:H.265 硬编码器;自适应分辨率;滑动窗读取;CTU 块存储Design of Efficient Data Access System of H.265 Hard EncoderCHEN Yewang1,WU Linhuang2,YANG Junwei2(1.School of Advanced Manufacturing,Fuzhou University,Jinjiang 362200,China;2.College of Physics

4、and Information Engineering,Fuzhou University,Fuzhou 350108,China)Abstract:In order to make H.265 hard encoder reduce the coding delay as much as possible while reduce the increasing pressure of storage space and data bandwidth caused by higher and higher video quality,an efficient coding data acces

5、s scheme is proposed based on Zynq platform.In this scheme,the resolution_ detection module realizes the input video resolution detection,so that the system can adaptive control the division of the input video data storage space and the edge filling width of the reconstructed image according to the

6、resolution;an inter prediction data reading framework is designed for sliding reading the reconstructed pixels of search box,which effectively reduces the DDR4 bandwidth demand and data reading delay;By reasonably controlling the burst length of each reading and writing of DDR4 and storing data in u

7、nits of 6464 CTU blocks,DDR4 line feed or bank switching can be reduced,so as to further improve the efficiency of the storage system.Keywords:H.265 hard encoder;adaptive resolution;sliding window reading;CTU block storage0 引 言高效视频编码标准 H.265/HEVC(High Efficiency Video Coding,HEVC)1-2提供了超高清视频的压缩编码方案3

8、-5。在压缩相同质量视频时,它比上一代编码标准 H.264 提高了约 50%的压缩性能6。但同时,H.265 标准相对 H.264 标准也增加了算法复杂度7。本文所述的编码系统使用 Zynq 这种包 含 PL(Programmable Logic)与 PS(Processing System)的异构平台实现,利用 PL 硬件的高度并行运算加速编码过程,利用 PS 控制编码器的编码参数8。这使得编码器既能加速编码运算,又可向 PS端 CPU 提供控制接口而不失灵活性。H.265 硬编码器要压缩编码更高清视频,还需要解决一个重要的问题,即如何满足其成倍增加的数据吞吐量,同时尽可能降低存取延时、减少

9、存储带宽压力。由于H.265 标准中可在 88 至 6464 范围内动态划分CTU,支持 33 种帧内预测模式9-11,因此更增加了对内存空间访问的需求。文献 12 将新型的非易失性存储器如 ReRAM、STT-RAM 等与 DRAM 组成分层内存结构,有效地节约了总体存储器面积、降低了编码数据存取功耗。40电视技术 第 46 卷第 12 期(总第 565 期)PARTS&DESIGN器件与设计但该方案中,DRAM 与非易失性存储器需要不同的存储控制器管理对内存的访问,这无疑增加了硬件成本。文献 13 采用现场可编程逻辑门阵列(Field Programmable Gate Array,FPG

10、A)拓展的 PCIE 接口接收待编码的视频数据然后缓存至 DDR 中,再利用 SRIO(Serial RapidIO)接口将 FPGA 预处理后的数据送至 DSP 芯片中,在 DSP 芯片上完成 HEVC压缩编码。该方案硬件成本高,使用多个接口连接不同硬件电路,增加了系统的不稳定性,也增加了视频编码延时,传输带宽利用率不高。文献 14 设计了 DDR-BRAM-LUT 三级物理存储结构,使用DDR 进行帧缓存、用 BRAM 行缓存、用 LUT 缓存参考像素,在一定程度上缓解了片外存储器的带宽压力,但没有考虑 CTU 在内存中的存储安排与 DDR访问效率的关系,数据存取效率不高。综合考虑上述问题

11、,本文设计了一种可有效提升 H.265 编码器数据存取效率的硬件架构。首先分析了 DDR4 访问的特性、硬件结构特点以及 H.265编码的特性,从而设计了以 6464 的 CTU 为单位、以 DDR4 内存页对齐存储、视频帧乒乓结构读写,然后介绍了基于 DDR-FIFO-BRAM 结构的编码数据存取方案,主要包括:待编码图像数据的存储;重构图像的存储与滑动读取重构图像搜索框数据,并根据当前分辨率对重构图像做填充,整个过程硬件流水实现;码流缓存控制。最后介绍了系统整体设计流程,并对系统测试结果进行了分析。本文所述方案在 Xilinx 的 Zynq UltraScale+MPSOC 9EG 平台上

12、得以实现,并通过搭建基于 H.265 硬编码器的软硬件协同工程验证了本方案的可行性。1 Zynq 系统整体设计本设计使用 Xilinx 的 ZCU102 套件完成方案的测试验证。ZCU102 是面向视频等应用设计的套件。其具有 Xilinx 16nm 可编程逻辑架构的 Zynq UltraScale+MPSOC 器 件,具 备 四 核 ARM Cortex A53、双核 Cortex R5F 实时处理器、一个 Mali-400 MP2 GPU 以及 HDMI 等外设接口。其中,H.265 编码器在 FPGA 端运行;视频数据从 HDMI 接口接收后输出 Native Video 格式数据,再经

13、分辨率检测、色彩空间转换及下采样为 YUV4 2 0 格式后通过AXI_HP 口存于 PS 端 DDR4 中;H.265 编码器读写DDR4 中的像素数据,完成视频编码并实时输出码流,码流经控制模块缓存输出至 PS 端 DDR4 中;Linux操作系统在PS端的ARM CortexA53核上运行,操作系统负责把码流封包后通过以太网发送至目的IP,在目标设备上接收码流并解码显示。系统整体框图如图 1 所示。2 Zynq PS 端 DDR4 存储设计文献 15 采用 NAND flash 作为编码数据存储单元,可实现掉电不丢失数据,但在实时视频编码过程中需要频繁访问存储器。使用 NAND flas

14、h 会分辨率检测RGB转YUV420HDMI接收视频源H.265编码AXI_HPDDR4CPU原始像素写模块原始像素读模块重建像素写模块重建像素写模块写码流模块以太网目标设备图 1 系统整体框图 电视技术 第 46 卷第 12 期(总第 565 期)41PARTS&DESIGN器件与设计带来更高功耗,同时相较于 DDR 其工作频率也更低。本文所述方案中,编码数据与 PS 端 CPU 操作系统使用同一 DDR4,在保证存取效率的同时,也使DDR4 存储空间得到充分利用,降低了系统功耗。2.1 存储器结构分析Zynq芯片平台有4个AXI_HP(High Performance)接口用于提供 PL

15、与 PS 存储器之间的高吞吐量数据路径。AXI_HP 接口与存储器之间的硬件结构如图 2 所示。PL 端的 IP 可通过 4 个 AXI_HP 接口向PS 端 DDR 或 OCM(on-chip RAM)存储器快速传输数据。DMA控制器 内存映射管理单元FIFOAXI互联总线 AXI互联总线 DDR控制器 FIFOFIFOFIFOPLAXI_HP0AXI_HP1AXI_HP2AXI_HP3图 2 AXI_HP 与存储器结构图为了使数据访问更高效,本设计使用 DMA 传输的方法,无需 CPU 干预。在 DDR4 颗粒中,同一时间只能访问同一 bank group 的一个 bank,而且在此 ba

16、nk 中只能访问其中一行。DDR4 内存页大小为内存整列中一行对应的列可寻址范围乘以 DQ 位数,内存页大小如式(1)所示。SP=2CO(1)式中:SP为 DDR4 内存页大小,C表示内存矩阵列地址的位数,O表示 DDR4 DQ 位数。如果要换行或 bank 访问意味着存储器需要额外的时钟去做片选、使能控制,这会进一步降低存储器的访问效率。但值得注意的是,不同 bank group 之间可以独立预取 8 位数据,同一时间不同 bank group 的数据预取互不影响。若将数据都存放在同一 bank group 中,DDR4 的效率会严重降低。另外,DDRC 总线的效率与突发读写长度相关,适当增加突发读写长度,可使存储器访问效率得以提升。2.2 编码帧数据与 CPU 内存使用安排基于以上分析,本文把 DDR 存储空间分为CPU 操作系统核心使用部分和编码数据缓存部分,进一步把编码数据的两个主要部分即待编码图像数据和重构图像数据分别存放在两个 bank group 中,以减少存取延时。为了避免数据的存储与读取发生冲突,本文将待编码图像数据与重构图像数据都做了帧乒乓存取处理。DDR4 内存空

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2