收藏 分享(赏)

H.265硬编码器的高效数据存取系统设计_陈业旺.pdf

上传人:哎呦****中 文档编号:210034 上传时间:2023-03-08 格式:PDF 页数:7 大小:1.96MB
下载 相关 举报
H.265硬编码器的高效数据存取系统设计_陈业旺.pdf_第1页
第1页 / 共7页
H.265硬编码器的高效数据存取系统设计_陈业旺.pdf_第2页
第2页 / 共7页
H.265硬编码器的高效数据存取系统设计_陈业旺.pdf_第3页
第3页 / 共7页
H.265硬编码器的高效数据存取系统设计_陈业旺.pdf_第4页
第4页 / 共7页
H.265硬编码器的高效数据存取系统设计_陈业旺.pdf_第5页
第5页 / 共7页
H.265硬编码器的高效数据存取系统设计_陈业旺.pdf_第6页
第6页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 电视技术 第 46 卷第 12 期(总第 565 期)39PARTS&DESIGN器件与设计文献引用格式:陈业旺,吴林煌,杨俊伟.H.265 硬编码器的高效数据存取系统设计 J.电视技术,2022,46(12):39-45.CHEN Y W,WU L H,YANG J W.Design of efficient data access system of H.265 hard encoderJ.Video Engineering,2022,46(12):39-45.中图分类号:TP311.5 文献标识码:A DOI:10.16280/j.videoe.2022.12.010H.265 硬编码

2、器的高效数据存取系统设计陈业旺1,吴林煌2,杨俊伟2(1.福州大学 先进制造学院,福建 晋江 362200;2.福州大学 物理与信息工程学院,福建 福州 350108)摘要:为了使 H.265 硬编码器尽可能降低编码延时,同时减少因越来越高的视频质量带来的日益剧增的存储空间、数据带宽压力,基于 Zynq 平台提出一种高效率的编码数据存取方案,通过分辨率检测模块实现输入视频分辨率检测,从而使系统能根据分辨率自适应控制输入视频数据存储空间的划分,控制重构图像边缘填充宽度;设计一套帧间预测数据读取框架,实现搜索框重构像素的滑动窗读取,降低 DDR4 带宽需求与数据读取延时;通过合理控制每次读写 DD

3、R4 的突发长度,以 6464 的CTU 块为单位储存数据,减少访问 DDR4 时换行或切换 Bank 次数,从而进一步提高存储系统的效率。关键词:H.265 硬编码器;自适应分辨率;滑动窗读取;CTU 块存储Design of Efficient Data Access System of H.265 Hard EncoderCHEN Yewang1,WU Linhuang2,YANG Junwei2(1.School of Advanced Manufacturing,Fuzhou University,Jinjiang 362200,China;2.College of Physics

4、and Information Engineering,Fuzhou University,Fuzhou 350108,China)Abstract:In order to make H.265 hard encoder reduce the coding delay as much as possible while reduce the increasing pressure of storage space and data bandwidth caused by higher and higher video quality,an efficient coding data acces

5、s scheme is proposed based on Zynq platform.In this scheme,the resolution_ detection module realizes the input video resolution detection,so that the system can adaptive control the division of the input video data storage space and the edge filling width of the reconstructed image according to the

6、resolution;an inter prediction data reading framework is designed for sliding reading the reconstructed pixels of search box,which effectively reduces the DDR4 bandwidth demand and data reading delay;By reasonably controlling the burst length of each reading and writing of DDR4 and storing data in u

7、nits of 6464 CTU blocks,DDR4 line feed or bank switching can be reduced,so as to further improve the efficiency of the storage system.Keywords:H.265 hard encoder;adaptive resolution;sliding window reading;CTU block storage0 引 言高效视频编码标准 H.265/HEVC(High Efficiency Video Coding,HEVC)1-2提供了超高清视频的压缩编码方案3

8、-5。在压缩相同质量视频时,它比上一代编码标准 H.264 提高了约 50%的压缩性能6。但同时,H.265 标准相对 H.264 标准也增加了算法复杂度7。本文所述的编码系统使用 Zynq 这种包 含 PL(Programmable Logic)与 PS(Processing System)的异构平台实现,利用 PL 硬件的高度并行运算加速编码过程,利用 PS 控制编码器的编码参数8。这使得编码器既能加速编码运算,又可向 PS端 CPU 提供控制接口而不失灵活性。H.265 硬编码器要压缩编码更高清视频,还需要解决一个重要的问题,即如何满足其成倍增加的数据吞吐量,同时尽可能降低存取延时、减少

9、存储带宽压力。由于H.265 标准中可在 88 至 6464 范围内动态划分CTU,支持 33 种帧内预测模式9-11,因此更增加了对内存空间访问的需求。文献 12 将新型的非易失性存储器如 ReRAM、STT-RAM 等与 DRAM 组成分层内存结构,有效地节约了总体存储器面积、降低了编码数据存取功耗。40电视技术 第 46 卷第 12 期(总第 565 期)PARTS&DESIGN器件与设计但该方案中,DRAM 与非易失性存储器需要不同的存储控制器管理对内存的访问,这无疑增加了硬件成本。文献 13 采用现场可编程逻辑门阵列(Field Programmable Gate Array,FPG

10、A)拓展的 PCIE 接口接收待编码的视频数据然后缓存至 DDR 中,再利用 SRIO(Serial RapidIO)接口将 FPGA 预处理后的数据送至 DSP 芯片中,在 DSP 芯片上完成 HEVC压缩编码。该方案硬件成本高,使用多个接口连接不同硬件电路,增加了系统的不稳定性,也增加了视频编码延时,传输带宽利用率不高。文献 14 设计了 DDR-BRAM-LUT 三级物理存储结构,使用DDR 进行帧缓存、用 BRAM 行缓存、用 LUT 缓存参考像素,在一定程度上缓解了片外存储器的带宽压力,但没有考虑 CTU 在内存中的存储安排与 DDR访问效率的关系,数据存取效率不高。综合考虑上述问题

11、,本文设计了一种可有效提升 H.265 编码器数据存取效率的硬件架构。首先分析了 DDR4 访问的特性、硬件结构特点以及 H.265编码的特性,从而设计了以 6464 的 CTU 为单位、以 DDR4 内存页对齐存储、视频帧乒乓结构读写,然后介绍了基于 DDR-FIFO-BRAM 结构的编码数据存取方案,主要包括:待编码图像数据的存储;重构图像的存储与滑动读取重构图像搜索框数据,并根据当前分辨率对重构图像做填充,整个过程硬件流水实现;码流缓存控制。最后介绍了系统整体设计流程,并对系统测试结果进行了分析。本文所述方案在 Xilinx 的 Zynq UltraScale+MPSOC 9EG 平台上

12、得以实现,并通过搭建基于 H.265 硬编码器的软硬件协同工程验证了本方案的可行性。1 Zynq 系统整体设计本设计使用 Xilinx 的 ZCU102 套件完成方案的测试验证。ZCU102 是面向视频等应用设计的套件。其具有 Xilinx 16nm 可编程逻辑架构的 Zynq UltraScale+MPSOC 器 件,具 备 四 核 ARM Cortex A53、双核 Cortex R5F 实时处理器、一个 Mali-400 MP2 GPU 以及 HDMI 等外设接口。其中,H.265 编码器在 FPGA 端运行;视频数据从 HDMI 接口接收后输出 Native Video 格式数据,再经

13、分辨率检测、色彩空间转换及下采样为 YUV4 2 0 格式后通过AXI_HP 口存于 PS 端 DDR4 中;H.265 编码器读写DDR4 中的像素数据,完成视频编码并实时输出码流,码流经控制模块缓存输出至 PS 端 DDR4 中;Linux操作系统在PS端的ARM CortexA53核上运行,操作系统负责把码流封包后通过以太网发送至目的IP,在目标设备上接收码流并解码显示。系统整体框图如图 1 所示。2 Zynq PS 端 DDR4 存储设计文献 15 采用 NAND flash 作为编码数据存储单元,可实现掉电不丢失数据,但在实时视频编码过程中需要频繁访问存储器。使用 NAND flas

14、h 会分辨率检测RGB转YUV420HDMI接收视频源H.265编码AXI_HPDDR4CPU原始像素写模块原始像素读模块重建像素写模块重建像素写模块写码流模块以太网目标设备图 1 系统整体框图 电视技术 第 46 卷第 12 期(总第 565 期)41PARTS&DESIGN器件与设计带来更高功耗,同时相较于 DDR 其工作频率也更低。本文所述方案中,编码数据与 PS 端 CPU 操作系统使用同一 DDR4,在保证存取效率的同时,也使DDR4 存储空间得到充分利用,降低了系统功耗。2.1 存储器结构分析Zynq芯片平台有4个AXI_HP(High Performance)接口用于提供 PL

15、与 PS 存储器之间的高吞吐量数据路径。AXI_HP 接口与存储器之间的硬件结构如图 2 所示。PL 端的 IP 可通过 4 个 AXI_HP 接口向PS 端 DDR 或 OCM(on-chip RAM)存储器快速传输数据。DMA控制器 内存映射管理单元FIFOAXI互联总线 AXI互联总线 DDR控制器 FIFOFIFOFIFOPLAXI_HP0AXI_HP1AXI_HP2AXI_HP3图 2 AXI_HP 与存储器结构图为了使数据访问更高效,本设计使用 DMA 传输的方法,无需 CPU 干预。在 DDR4 颗粒中,同一时间只能访问同一 bank group 的一个 bank,而且在此 ba

16、nk 中只能访问其中一行。DDR4 内存页大小为内存整列中一行对应的列可寻址范围乘以 DQ 位数,内存页大小如式(1)所示。SP=2CO(1)式中:SP为 DDR4 内存页大小,C表示内存矩阵列地址的位数,O表示 DDR4 DQ 位数。如果要换行或 bank 访问意味着存储器需要额外的时钟去做片选、使能控制,这会进一步降低存储器的访问效率。但值得注意的是,不同 bank group 之间可以独立预取 8 位数据,同一时间不同 bank group 的数据预取互不影响。若将数据都存放在同一 bank group 中,DDR4 的效率会严重降低。另外,DDRC 总线的效率与突发读写长度相关,适当增加突发读写长度,可使存储器访问效率得以提升。2.2 编码帧数据与 CPU 内存使用安排基于以上分析,本文把 DDR 存储空间分为CPU 操作系统核心使用部分和编码数据缓存部分,进一步把编码数据的两个主要部分即待编码图像数据和重构图像数据分别存放在两个 bank group 中,以减少存取延时。为了避免数据的存储与读取发生冲突,本文将待编码图像数据与重构图像数据都做了帧乒乓存取处理。DDR4 内存空

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2