实现应用程序的并行处理常常有多种方法。有些应用程序表现出固有的并行特性,而其它的则具有极其复杂且不规则的数据存取模式。但总的来讲,科学计算类的应用程序和多媒体应用程序的并行化通常易于实现,因为它们的数据存取模式比那些控制类应用程序相对容易预测。本文重点讨论针对多媒体算法的并行技术,这类算法需要很高的处理能力,并且更适合嵌入式系统应用。
多媒体应用程序中存在数据的并行级别。一组数据帧与数据帧中的一个宏块之间的并行粒度有很大差别。通常来讲,粒度越小,共享单元(如处理器核和DMA通道等)之间所需的同步级别越高。粒度越小,并行程度就越高,网络通信量越小;粒度越大,同步要求就越低,但网络通信量会增大。因此,基于应用的不同类型和系统需求,软件框架也定义了不同的并行级别。
需要说明的是,可扩展并行软件的开发还依赖于对互连网络、分级存储器体系以及外设/DMA资源的有效利用。系统严格的低功耗和低成本要求对所有这些要素都会构成限制。在多核环境下编程时,有效利用这些资源需要进行创新。本文提出了一些在ADI公司的Blackfin ADSP-BF561双核处理器上有效管理资源的构想。
多媒体数据流分析
为了实现数据并行,需要在数据流中找到这样一个或一组数据块:可以独立处理并将其“喂”给一个处理元件。独立的数据块可以降低同步开销并简化并行算法。要找到这种数据,必须弄清应用的数据流模型,或者说“数据存取模式”。
对于大多数多媒体应用,可以将数据存取模式看成是2D(空间域)和3D(时间域)操作模式。在2D模式中,独立的数据块被限制在单个数据帧内,而在3D模式中,独立数据块可以横跨多帧。在空间域中,可以将帧划分为由N个连续行和视频帧宏块组成的片段,而在时间域中,可以对数据流进一步细分到帧级或图片组(GOP)级。