Notebookcheck Logo

Djupdykning i AMD RDNA 4-arkitekturen: En monolitisk design med 64 CPU:er med allroundförbättringar för beräkning, mediakodning/avkodning, strålspårning och AI

AMD RDNA 4 är byggd för att tillgodose avancerade spel, strålspårning och ML-arbetsbelastningar. (Bildkälla: AMD)
AMD RDNA 4 är byggd för att tillgodose avancerade spel, strålspårning och ML-arbetsbelastningar. (Bildkälla: AMD)
AMD berättade om flera viktiga aspekter av RDNA 4 som lanseras officiellt idag. RDNA 4 finns i de nya Radeon RX 9070 XT och RX 9070 GPU:erna och möjliggör nästa generations spel- och innehållsupplevelser med stöd för nya ray tracing- och path tracing-funktioner, ML-baserad uppskalning med FSR 4 och nya videokodnings- och avkodningsfunktioner.

AMD erbjöd en smygtitt in i RDNA 4 på CES 2025 och bekräftade ankomsten av Radeon RX 9070 XT och RX 9070, men gav inte ens en passande kommentar om den nya arkitekturen under den faktiska keynoten.

Företaget vidhöll dock att mer information om RDNA 4 och de nya Radeon GPU:erna skulle komma snart, och här är vi nu.

Idag presenterar AMD RDNA 4 och de nya Radeon RX 9070-seriens GPU:er. RX 9070-serien kommer att finnas officiellt tillgänglig i butikerna från och med den 6 mars och prestandagranskningar kommer dagen innan.

AMD RDNA 4: Tillbaka till en monolitisk design

RDNA 4 bygger vidare på de mål som AMD satte upp med RDNA 3. Enligt AMD är RDNA 4 utformat för att tillgodose tyngre arbetsbelastningar i spel med fokus på förbättrad rasterprestanda och effektivitet.

Sedan tillkommer de sedvanliga förbättringarna av ray tracing-pipelines samt förnyat fokus på AI-funktioner och mediaavkodning/avkodning.

Prestandaökning för beräkningsenheter från RDNA 2 till RDNA 4. (Bildkälla: AMD)
Prestandaökning för beräkningsenheter från RDNA 2 till RDNA 4. (Bildkälla: AMD)

I RDNA 3 introducerades en chiplet-design för GPU:er med inspiration från Ryzen-processorer. Här såg vi separationen av minnescache-dies (MCD) från grafikberäkningsdies (GCD).

Med RDNA 4 går AMD dock tillbaka till den traditionella monolitiska designen. Komponenterna är i princip desamma, men det finns inga MCD-GCD-sammankopplingar eftersom minnet och beräkningen nu är direkt sammankopplade via Infinity Cache.

RDNA 4 GPU, Radeon RX 9070 XT i det här fallet, har fyra shader-motorer med åtta arbetsgruppsprocessorer (WGP) vardera. Varje WGP består av totalt åtta beräkningsenheter (CU:er), vilket ger totalt 64 CU:er.

AMD säger att de nya beräkningsenheterna nu är mer kapabla än någonsin och möjliggör förbättrad ray tracing, dubbelt så hög peak throughput, stöd för de senaste matrisaccelerationsfunktionerna med bredare stöd för numeriska format.

Nytt för RDNA 4 CU, och något som vi har sett med Tensor-kärnorna i Nvidias Ampere-arkitektur, är stöd för strukturerad sparsamhet som möjliggör snabbare matrisoperationer, särskilt i fall där många av vikterna är noll.

Vi får också se förbättringar av minnessubsystemet. L2-cachen får en ökning från 6 MB i RDNA 3 till 8 MB i RDNA 4 medan Infinity Cache uppgraderas till 3:e generationen men sjunker till 64 MB från 96 MB i RDNA 3.

AMD fortsätter att förlita sig på GDDR6-minne med den nya generationen. Både RX 9070 XT och RX 9070 erbjuder ett 384-bitars 16 GB GDDR6-minnesgränssnitt som är klockat till 20 Gbps för en effektiv bandbredd på 640 GB/s. Detta är mycket lägre än den 960 GB/s bandbredd som RDNA 3 erbjöd, men AMD säger att RDNA 4:s videominnesspecifikationer valdes noggrant för att stödja nuvarande och framtida titlar.

RDNA 4-arkitektur. (Bildkälla: AMD)
RDNA 4-arkitektur. (Bildkälla: AMD)
RDNA 3-arkitektur för jämförelse. (Bildkälla: AMD)
RDNA 3-arkitektur för jämförelse. (Bildkälla: AMD)

Förbättrat stöd för mediamotor och flip-metering av hårdvara

Videokodning var ett av de största problemen med RDNA 3, och AMD utlovar betydande förbättringar i det här avseendet. Företaget utlovar stora förbättringar i H.264- och AV1-kodning och mindre blockeringsartefakter för samma datamängd.

Förbättringarna gäller även videoavkodning, med minskad strömförbrukning och ökad prestanda vid avkodning av format som AV1 och VP9.

Radiance Display Engine förbrukar nu mycket mindre ström i FreeSync-konfigurationer med dubbla bildskärmar. Nytt är också stöd för hardware flip queue i Windows Display Driver Model (WDDM) 3.0 för videouppspelning.

Detta frigör CPU-resurser genom att avlasta bildschemaläggningen till GPU:n. MFG-tekniken (multi-frame generation) i Nvidia Blackwell GPU:er bygger också på hårdvaruflippmätning.

RDNA 4: Förbättringar av mediamotorn. (Bildkälla: AMD)
RDNA 4: Förbättringar av mediamotorn. (Bildkälla: AMD)
Radiance Display Engine har nu stöd för flipmätning i hårdvara. (Bildkälla: AMD)
Radiance Display Engine har nu stöd för flipmätning i hårdvara. (Bildkälla: AMD)

En titt på beräkningsenheten RDNA 4

Till att börja med skiljer sig inte strukturen i en RDNA 4 CU så mycket från vad vi har sett med RDNA 3. Det finns dock prestanda- och effektivitetsförbättringar i var och en av CU-komponenterna.

WMMA-operationer (Wave Matrix Multiply Accumulate) har förbättrats för att uppfylla kraven i den nya hårdvaran. Scaler-enheterna har uppgraderats för att hantera Float32-operationer. Schemaläggaren kan dela upp och bearbeta en stor beräkningsarbetsbelastning i delade och namngivna barriärer.

AMD säger att RDNA 4 är byggt för att tillgodose nya renderingstekniker som utvecklare använder i dagens spel. Medan uppskalning har varit på modet, kräver effektiv path tracing ML-acceleration som en del av själva renderingsprocessen och inte som en eftertanke.

RDNA 4: Beräkningsmotor. (Bildkälla: AMD)
RDNA 4: Beräkningsmotor. (Bildkälla: AMD)
ML är nu en del av kärnan i renderingsprocessen. (Bildkälla: AMD)
ML är nu en del av kärnan i renderingsprocessen. (Bildkälla: AMD)

Strålningsacceleratorer i RDNA 4

RDNA 4 erbjuder 64 strålacceleratorer av 3:e generationen i RX 9070 XT. Strukturen för en strålaccelerator i RDNA 4 liknar den i RDNA 3 men innehåller en extra intersektionsmotor för 2x så många strålbox- och stråltriangelenheter.

Det finns också en dedikerad hårdvarustråltransformator som minskar behovet av att använda shader-instruktioner för att göra jobbet, vilket minimerar overhead för stråltraversering. Ett 128 KB minne i varje dubbel CU hjälper till att hålla strålstacken för effektiv push- och sorteringsoperation.

RDNA 4 introducerar konceptet med orienterade avgränsningsboxar (OBB) som anpassar BVH-avgränsningsboxar till geometrin och därmed minimerar falskt positiva strålinteraktioner i vad som annars bara är tomt utrymme i en box. AMD säger att detta tillvägagångssätt kan förbättra prestandan för ray traversal med så mycket som 10%.

Nytt för den här gången är också stöd för "relaxed out-of-order memory requests" som effektivt minskar väntetiden för vågor som inte har nått högnivåcachen tidigare. Detta förbättrar inte bara strålspårning utan även andra arbetsbelastningar.

I RDNA 4 kan shaders dynamiskt allokera register som gör det möjligt att ta emot fler vågor under flygning med förbättrad minneslatens.

Struktur för en RDNA 4-strålningsaccelerator. (Bildkälla: AMD)
Struktur för en RDNA 4-strålningsaccelerator. (Bildkälla: AMD)
RDNA 4 introducerar OBB:s. (Bildkälla: AMD)
RDNA 4 introducerar OBB:s. (Bildkälla: AMD)
RDNA 4 tillåter en mer avslappnad ordning av vågförfrågningsströmmar. (Bildkälla: AMD)
RDNA 4 tillåter en mer avslappnad ordning av vågförfrågningsströmmar. (Bildkälla: AMD)
RDNA 4 strålacceleratorer levererar 2x så hög prestanda för stråltraversering som RDNA 3. (Bildkälla: AMD)
RDNA 4 strålacceleratorer levererar 2x så hög prestanda för stråltraversering som RDNA 3. (Bildkälla: AMD)
RDNA 4 dynamisk shaderregisterallokering. (Bildkälla: AMD)
RDNA 4 dynamisk shaderregisterallokering. (Bildkälla: AMD)
 

Spårning av väg med RDNA 4

AMD-kort har kämpat med strålspårning i allmänhet, så spårning av vägar verkade inte vara aktuellt även med toppmoderna RDNA 3-kort. RDNA 4 syftar till att ändra på detta med stöd för neural radiance caching tillsammans med en ny neural supersampling och denoising-modell.

AMD har inte tillhandahållit exakta prestandasiffror för titlar med stöd för path tracing, men vi bör få en uppfattning när vi granskar dessa kort.

RDNA 4 ger förbättrat stöd för path tracing i spel. (Bildkälla: AMD)
RDNA 4 ger förbättrat stöd för path tracing i spel. (Bildkälla: AMD)
Steg 1: Path tracing börjar med 1 prov per pixel. (Bildkälla: AMD)
Steg 1: Path tracing börjar med 1 prov per pixel. (Bildkälla: AMD)
Steg 2: Grid sampling och neural radiance caching för att approximera scenljuset. (Bildkälla: AMD)
Steg 2: Grid sampling och neural radiance caching för att approximera scenljuset. (Bildkälla: AMD)
Steg 3: Återställ direkt och global belysning. (Bildkälla: AMD)
Steg 3: Återställ direkt och global belysning. (Bildkälla: AMD)
Steg 4: Neural supersampling och denoising. (Bildkälla: AMD)
Steg 4: Neural supersampling och denoising. (Bildkälla: AMD)
 

AI-funktioner som bygger på Radeon och Instinct

AMD säger att RDNA 4 har dedikerade matematiska pipelines för ML-acceleration med fokus på hög prestanda med smalare datatyper. Nytt för RDNA 4 är stöd för FP8 och BF8 för högpresterande inferens med hög precision.

AMD demonstrerade SDXL 1.5-bildgenerering och visade hur den RDNA 4-baserade Radeon RX 9070 XT erbjuder dubbelt så hög FP16-prestanda per CU jämfört med den RDNA 3-baserade RX 7900 XT.

RDNA 4:s nya AI-funktioner utnyttjas av FSR 4, som är en end-to-end pipeline som tränats på AMD:s GPU:er. FSR 4 använder FP8 för optimal användning av bandbredd, prestanda och kraft.

AMD visade upp till 3,7x fps-förbättringar med FSR 4 i kombination med frame interpolation och Radeon Anti-Lag med bibehållen hög bildkvalitet.

RDNA 4 erbjuder dedikerade matematiska pipelines för ML (Bildkälla: AMD)
RDNA 4 erbjuder dedikerade matematiska pipelines för ML (Bildkälla: AMD)
2x FP16-prestanda per CU jämfört med RDNA 3. (Bildkälla: AMD)
2x FP16-prestanda per CU jämfört med RDNA 3. (Bildkälla: AMD)
FSR 4 använder sig av RDNA 4:s FP8-kapacitet. (Bildkälla: AMD)
FSR 4 använder sig av RDNA 4:s FP8-kapacitet. (Bildkälla: AMD)
Betydande fps-ökning med FSR 4 och frame-interpolation vid 4K. (Bildkälla: AMD)
Betydande fps-ökning med FSR 4 och frame-interpolation vid 4K. (Bildkälla: AMD)

Källa(n)

AMD:s pressmeddelande

Please share our article, every link counts!
Mail Logo
> Bärbara datorer, laptops - tester och nyheter > Nyheter > Nyhetsarkiv > Nyhetsarkiv 2025 02 > Djupdykning i AMD RDNA 4-arkitekturen: En monolitisk design med 64 CPU:er med allroundförbättringar för beräkning, mediakodning/avkodning, strålspårning och AI
Vaidyanathan Subramaniam, 2025-02-28 (Update: 2025-02-28)