NVIDIA的Ampere SM详细说明以及RTX 3080限于10GB内存的原因

VR/AR

2020

09/06

19:15

新浪VR

来源：新浪VR

在Reddit问答中，NVIDIA回答了游戏玩家和新闻界最棘手的问题，包括SM结构，内存缓冲区，RTX IO等。第一个问题是相对于RTX 3080基本上没有变化的内存缓冲区到它的前身。

NVIDIA的贾斯汀·沃克（Justin Walker）在回答该问题时解释说，根据该公司的分析，10GB足以以4K超高速度运行所有现有和即将推出的游戏，而不会遇到任何内存瓶颈。此外，他还透露，所有最新的AAA游戏，例如《古墓丽影》，《地铁出埃及记》，《奥德赛》，《无主之地3》，在RTX 3080（4K）上只有4-6GB的内存使用情况下都能很好地运行。最后，沃克承认，拥有更多的内存总是更好，但是将其增加到10GB以上将使3080不必要地变得更高。

[Justin Walker] 我们一直在分析最新游戏的内存需求，并定期与游戏开发者进行审查，以了解他们对当前和即将推出的游戏的内存需求。3080的目标是以最高可能的价格最大化所有设置，以高达4k的分辨率提供出色的性能。

为此，您需要一个功能强大的GPU，具有高速内存和足够的内存以满足游戏需求。举几个例子-如果您看《古墓丽影》，《刺客信条：奥德赛》，《地铁出埃及记》，《德军总部》，《战争机器5》，《无主之地3》和《荒野大镖客2》，它们在3080上以4k的最大设置运行（包括任何适用的高价） res texture packs）和RTX On（如果游戏支持），您将获得60-100fps的范围，并使用4GB至6GB的任何内存。

额外的内存总是很不错，但是会增加显卡的价格，因此我们需要找到合适的平衡点。

安培流多处理器（SM）

每个SM有两个数据路径或流水线。四个分区中的每个分区都由两个ALU集群组成：一组16个FP32内核以及一组32个FP32和INT16。作为这种新分区的结果，每个Ampere SM分区可以每个时钟执行32条FP32指令，或者每个周期执行16条FP32和16条INT32指令。实际上，您要用整数性能来换取两倍的浮点功能。幸运的是，由于大多数图形工作负载都是FP32，因此应该可以发挥NVIDIA的优势。

总体而言，所有四个SM分区组合在一起可以每个时钟执行128个FP32操作或每个时钟执行64个FP32和64个INT32操作。

感谢Andreas Schilling的样机

与Turing SM相比，Ampere 30系列SM的主要设计目标之一是实现FP32操作的两倍吞吐量。为了实现此目标，Ampere SM包括针对FP32和INT32操作的新数据路径设计。每个分区中的一个数据路径由16个FP32 CUDA内核组成，每个时钟能够执行16个FP32操作。另一个数据路径包括16个FP32 CUDA内核和16个INT32内核。作为这种新设计的结果，每个Ampere SM分区每个时钟能够执行32个FP32操作，或者每个时钟能够执行16个FP32和16 INT32操作。所有四个SM分区组合在一起，每个时钟可执行128 FP32操作，是Turing SM FP32速率的两倍，或者每个时钟执行64 FP32和64 INT32操作。

要使数学吞吐量增加一倍，就需要将支持它的数据路径增加一倍，这就是为什么Ampere SM还将SM的共享内存和L1缓存性能提高一倍的原因。（每个Ampere SM为128字节/时钟，而在Turing中为64字节/时钟）。GeForce RTX 3080的总L1带宽为219 GB /秒，而GeForce RTX 2080 Super则为116 GB /秒。

GPC是主要的高级硬件模块，所有关键图形处理单元都位于GPC内部。每个GPC都有一个专用的光栅引擎，现在还包括两个ROP分区（每个分区包含八个ROP单元），这是NVIDIA Ampere Architecture GA10x GPU的新功能。有关NVIDIA Ampere架构的更多详细信息，请参见NVIDIA的Ampere架构白皮书，该白皮书将在未来几天内发布。

NVIDIA的Tony Tamasi

为了允许使用两个数据路径和2倍的FP32性能，L1缓存带宽（和相关的共享内存）也必须加倍：每个Ampere SM 128字节/时钟，而Turing中64字节/时钟。RTX 3080的L1总带宽为219 GB /秒，而RTX 2080 Super的总L1带宽为116 GB /秒。

栅格后端也被抛光。现在，每个GPC都有一个带有两个ROP分区的栅格引擎，每个分区打包八个ROP。这意味着您有16个ROP，而不是每个32位内存控制器8个。这导致RTX 3080的总ROP计数为160，而3090的总ROP计数为192。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

NVIDIA的Ampere SM详细说明以及RTX 3080限于10GB内存的原因

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 汽车电池

关注我们