小道消息:
Vulkan的Renderpasses功能
发布日期:2016-02-19

刊登日期2016216日,作者Graham Sellers 

GCNrenderpassshaderVulkan 

Vulkan™是一款高性能,低开销的图形API,旨在让先进的应用程序推动现代GPU满负荷运行,充分挖掘它们的性能。传统的API已经提供一个抽象层,让命令看上去立即执行。Vulkan™使用了一个模型,向外界暴露了GPU真正运行情况。实际上,GPU执行放置在内存当中的命令,有时候可能是乱序执行,这些命令缓冲有可能是跨多个软件线程并行产生出来。此外,通过状态对象,大量互相关联的状态会同时提供给图形驱动程序。这就为驱动程序提供了一个机会,在渲染时间之前,来充分优化GPU状态,以便将GPU性能最大化,同时又避免了即时优化可能造成的画面卡顿等问题。最终的结果是更低,更一致的帧时间和较低的CPU开销,这意味着可以为应用程序提供更多的CPU周期。

Vulkan 源自于AMD开拓性的Mantle APIAMD捐赠Mantle规范,协议和其他技术,作为Khronos组织下一代API当时还没有正式名称)基础在其它行业厂商一年多的帮助下,我们最终Mantle演变成现在Vulkan这是一个漫长过程,其中一些最显著的变化来自于移动领域的成员厂商,它们GPU当中使用了瓷块架构,其目的是为了减少从GPU到内存数据,以降低功耗这些移动厂商提出一个功能就是renderpass允许一个应用程序向驱动程序传递一个帧画面当中的高级架构信息,移动GPU驱动程序可以利用这个信息决定将数据带入和带出GPU时机来决定何时刷新内存,或者何时丢弃缓冲内容,甚至是针对图像读取内部操作来重新划分内存Mantle没有这个功能,Direct3D® 12没有这个功能。

采用瓷块或者不采用瓷块渲染方式

一个瓷块GPU批量处理几何数据,确定这些几何在缓冲区中的位置,然后瓷块渲染出这些几何。这种方式帧缓冲存取非常一致,在许多情况下,可以允许GPU片上就完成一个瓷块帧缓冲渲染AMD不研发生产瓷块式GPU。我们的GPU所谓正向或直接渲染器。这意味着,当命令进来要求画一些几何形状,GPU将根据具体位置进行渲染,然后才去执行下一个命令。AMD GPU采用流水线渲染管线,命令可以重叠,甚至做到乱序执行,但GPU内建了特殊硬件,在任何数据写入到内存之前,让数据和结果重新回到正确的顺序。我们的驱动程序通常不需要担心这个问题。所以,renderpass对象于我们来说有什么作用?我们为什么要在乎renderpass

Vulkan当中,一个renderpass对象包含一帧画面的结构。在最简单的形式当中,一个renderpass封装了一组帧缓冲附件以及管线状态基本信息但是一个renderpass可以包含一个或者多个subpasses以及这些subpasses如何相互关联的信息。这让事情变得有趣起来

每个subpass可以引用帧缓冲区附件的一个子集用于写入和读取。这些可读的帧缓冲附件被称为输入附件其中有效地包含同一像素中的较早subpass的结果。不同于传统的渲染到纹理技术,每个pass可以读取器在前一次pass产生的任何像素,输入附件保证每个片段着色只访问在相同像素通过着色调用产生的数据。此外,每个subpass包含它开始时如何处理每个附件的信息,以及结束时如何处理附件的信息。这些subpasses之间的依赖关系由应用程序明确列明,这使得瓷块渲染器知道何时它需要刷新其瓷块缓存,或者清除这些缓存或者从内存中恢复这些缓存等等。

加速正向渲染

事实证明,AMD GPU正向渲染器,也可以利用这种信息优势。下面是我们可以做出的几个优化例子。

我们可以告诉一个subpass依赖于一个较早subpass结果,我们也可以告诉一subpass无需依赖一个较早subpass结果。因此,我们有时会并行渲染这些subpass,甚至不同步地进行乱序渲染。如果一个subpass取决于先前subpass的结果,在一个传统的图形API当中,驱动程序需要注入一个流水线气泡进入GPU管线,以便将渲染后端输出缓存与纹理单元输入缓存同步。然而,通过重新安排工作我们可以指示渲染后端刷新自己的高速缓存,转向处理不相关的工作,然后在启动消费subpass之前让纹理缓存无效。这样无需GPU管线注入流水线气泡,并节省GPU时间。

因为每个subpass包括有关如何处理其附件的信息,我们可以告诉驱动程序,一个应用程序需要清除附件,或者说,它并不关心这个附件的内容。这允许驱动程序遥遥领先真实渲染,来安排清除工作,或智能决定使用什么方法来清除附件(例如,使用一个计算着色,固定功能硬件或DMA引擎)。如果应用程序说,它并不需要附件有明确数据,我们就可以使附件处于部分压缩状态,这就让它尚未包含明确数据,但是就硬件而言,已经渲染进行了优化

在一些情况下,用于最佳渲染和用于纹理单元读取的数据,它们在内存当中的数据布局是不同的。通过分析一个应用程序提供的数据依赖关系,我们的驱动程序可以决定数据执行布局变化,解压缩,格式转换等工作的最佳时机。驱动程序也可以将这些操作拆分为阶段,与应用程序提供的渲染工作交织,这样做就再次消除了流水线气泡,提高了渲染效率。

最后,Vulkan包括瞬态附件的概念。这些是renderpass开始时候一个处于未初始化或处于清除状态的缓存附件被一个或多个subpasses写入,由一个或多个subpasses消耗,并在renderpass结束注定被丢弃。在这种情况下,该附件中的数据仅生活在renderpass当中永远不会被写入到主内存当中。虽然我们仍然会为这种附件分配内存,但是数据可能永远不会离开GPU,它们只能生活在GPU缓存中。这样可以节省带宽,降低延迟并提高功耗效率。

一流的功能

Renderpasses不应该被看作是移动GPU专享功能,这是Vulkan API的一流功能,它GPU上优化和效率提升提供了机会,即使是针对正向渲染,立即渲染的架构,如AMDGCN架构。我们早期的驱动程序包括了一个renderpass编译器其中已经执行了一些上面提到的优化。我们有一箩筐的实验可以进行,我们将在未来几个月内带来越来越多的功能。只让一些Pass结合成一个单一的subpass,可能不会产生太大的起色。然而,让尽可能少renderpass对象塞入尽可能多需要处理的帧数据,可能会让软件和硬件性能有一个巨大的提升

更多

访问GPUOpen网站Vulkan部分

访问GPUOpen网站阅读其它和Vulkan有关的博客文章

Graham SellersAMD软件架构师,负责显卡驱动程序的工作。提供链接到第三方网站为方便起见,除非明确说明,AMD概不负责此类链接网站的内容,并没有暗示背书。


热点文章
1
主流游戏玩家最爱 蓝宝石黑钻HD7750暑期超值购
暑假已经即将结束,很多游戏玩家依然和小伙伴们享受游戏带来的乐趣,不过相信也有一部分玩家游戏中遇到了不少问题,显卡性能不足让玩家们无法享受最佳的游戏效果。今天小编就为大家推荐一款暑期热卖的主流游戏显卡---蓝宝石HD7750 1G黑钻版OC,目前市场售价仅799元。
2
高端玩家游戏法宝 蓝宝石280X毒药降临天猫
对于广大的高端A卡用户而言,蓝宝石毒药系列产品一直都是发烧级玩家们的最爱。新一代R系列显卡铺货之后,全球顶级的AIB厂商蓝宝石
3
EVE官方推荐 华硕GTX650显卡火热销售中
游戏画面的质量反映着一款游戏的生命力,而显卡犹如心脏一样不断注入血液让游戏维持巅峰。
4
高端显卡游戏实力-华硕GTX780770性能真相
作为全球第一游戏显卡品牌,华硕显卡旗下的高端游戏显卡产品一直备受广大用户及媒体关注,其完美的做工用料,强劲的游戏性能,非凡的静音、散热技术博得了消费者的青睐和喜爱。
5
华硕反恐精英挑战赛重庆站精彩回顾
2013年8月31日,全球第一游戏显卡品牌华硕与《反恐精英Online》官方联合举办的“战无不胜——CSOL世界冠军挑战赛”重庆站比赛,在重庆市南坪西路建玛特工商银行3楼鸿达网吧完美落幕。
推荐文章
1
主流游戏玩家最爱 蓝宝石黑钻HD7750暑期超值购
暑假已经即将结束,很多游戏玩家依然和小伙伴们享受游戏带来的乐趣,不过相信也有一部分玩家游戏中遇到了不少问题,显卡性能不足让玩家们无法享受最佳的游戏效果。今天小编就为大家推荐一款暑期热卖的主流游戏显卡---蓝宝石HD7750 1G黑钻版OC,目前市场售价仅799元。
2
高端显卡游戏实力-华硕GTX780770性能真相
作为全球第一游戏显卡品牌,华硕显卡旗下的高端游戏显卡产品一直备受广大用户及媒体关注,其完美的做工用料,强劲的游戏性能,非凡的静音、散热技术博得了消费者的青睐和喜爱。
3
EVE官方推荐 华硕GTX650显卡火热销售中
游戏画面的质量反映着一款游戏的生命力,而显卡犹如心脏一样不断注入血液让游戏维持巅峰。
4
顶级之选 华硕龙骑士GTX760显卡售价2299元
全球第一游戏显卡品牌华硕显卡在近期诞生了又一款力作——华硕龙骑士GTX760游戏显卡,这款定位在甜品级显卡市场的游戏显卡以同阶产品最高的规格、最强的性能、最奢华的用料进入大家的眼帘。
5
华硕反恐精英挑战赛重庆站精彩回顾
2013年8月31日,全球第一游戏显卡品牌华硕与《反恐精英Online》官方联合举办的“战无不胜——CSOL世界冠军挑战赛”重庆站比赛,在重庆市南坪西路建玛特工商银行3楼鸿达网吧完美落幕。