AMD RDNA 3, nycklarna till arkitekturen

AMD RDNA 3, nycklarna till arkitekturen

Igår presenterade AMD en revolution inom konsumentgrafikkort, som gav många detaljer om RX 7000, med två toppmodeller som t.ex-. RX 7900 XTX och RX 7900 XT. Det bästa av allt var att inte känna till specifikationerna eller priserna från första hand, det bästa var utan tvekan arkitektursprånget som AMD har tagit med dessa kort, eftersom nyheterna är fantastiska och intressanta att analysera, liksom de teknologier de har använt att skapa dem. Därför kommer vi att veta var de lämnade oss RDNA 3-arkitekturfyller i vissa data och luckor som ignorerades eller passerades.

Det som förväntades är en utveckling av RDNA 2-arkitekturen med vissa förbättringar, men verkligheten är mycket mer komplex och har krävt stora förändringar till den grad att pipelinen för den ena och den andra inte är kontinuerlig. Detta beror på de interna förändringarna av minimienheterna och ett fokus mer på vad NVIDIA och Intel har gjort, fast med nyanser förstås. Av denna anledning är den här arkitekturen så intressant, eftersom den också har tagit steget till LCM med GCD och GCDvilket ändrar spelets regler.

RDNA 3-arkitektur, en prestanda per watt-hopp på 54 %

Det är utan tvekan den snabba sammanfattningen av vad vi ska hitta. Detta antal 54 % överträffar företagets förväntningar som lanserades för mer än ett år sedan, där det talades om en femtio%så arbetet har varit mer än bra.

En del av denna bedrift har mycket att göra med de arkitektoniska förändringarna av formarna. Nu har vi ett MCM-system med två typer av chiplets med mycket intressanta data att hantera, eftersom en del av den “låga” förbrukningen och det “justerade” priset (jämfört med NVIDIA är de mycket bra, men de är fortfarande höga jämfört med föregående generation) kommer just på grund av denna förändring.

Så med det sagt är det vettigt att börja utifrån och in. Redo? Nåväl, låt oss åka dit.

Den första MCM GPU:n någonsin för stationära datorer

Att gå från en monolitisk tärning som NVIDIA fortfarande har till flera inom samma paket har fördelar och nackdelar. Om du lyckas lösa eller lindra problemen med den här typen av arkitektur, så kommer du att hitta en större fördel gentemot dina rivaler på många områden, och vi kan nu säga att AMD har uppnått det.

Skalbarhet, spårbarhet, balans och kostnader, för att inte tala om konsumtion är några av fördelarna som vi kommer att ha här med Navi 31 XTX och Navi 31 XT jämfört med tidigare versioner som heter Navi 21. På väg till jobbet kan vi säga att vi har 7 chips på samma anslutningssubstrat:

  • 1 x GCD eller Graphics Compute Die.
  • 6 x GCD eller Memory Cache Die, även känd som Memory Compute Die, även om den första termen är den korrekta.

Vad innebär var och en? Tja, GCD är det traditionella chippet för livet, som rymmer inuti all hårdvara relaterad till datorenheter, ALU, SIMD, CU och för första gången, AI-enheter på skrivbordet och andra generationen av RT Acceleratornågot som vi får se senare.

De uppgifter som tillhandahålls av AMD talar om 300 mm2 i det GCD tillverkade detta till 5nm av TSMC, och å andra sidan, från 37 mm2 För varje dcmtillverkade dessa till 6nm Även av taiwaneserna. Detta innebär att GCD är tätare, mycket mer, också dyrare naturligtvis, snabbare transistor för transistor och dessutom förbrukar mindre för samma område, även om detta avsnitt fortfarande är lite kontroversiellt på grund av data som vi saknar, eftersom frekvenserna och effekttätheten är olika mellan de två.

MCD:n blir i alla fall billigare att tillverka och har förbättringarna implementerade jämfört med TSMC:s N7, men framför allt innebär det att felfrekvensen i wafers är lägre eftersom det är en process som redan klassats som mycket mogen av tillverkaren. så många fler färdighetschips ges än i fallet med GCD.

MCD, den stora nyheten i RDNA 3-arkitekturen

Denna MCD integrerar två intressanta enheter:

  • En 64-bitars drivrutin (2 x 32-bitars) av DCM.
  • De Infinity cache andra generationens AMD med en storlek på 16 MB per GCD.

Med den här konfigurationen uppnår du två saker förutom att minska kostnaderna:

  • Modularitet i design till ett mycket lågt pris -> The RX 7900 XTX har 6 aktiva CDMden RX 7900 XT har 5 Därför slösas inga chips och de kan byggas utan problem i samma paket, vilket senare validerar vilken MCD som ska inaktiveras för varje Navi 31 GPU.
  • han minnesdelsystemet har lokaliserats utanför huvudchippet GCD.

Först var det stipulerat att den ökning av bandbredd som vi kommer att se senare kunde lindra det faktum att L2 också skulle komma ut ur GCD, men så har inte varit fallet. Det verkar som att latensen är för hög och designen har förblivit traditionell, förutom att minneskontrollerna nu är anslutna till Infinity cachesom som vi kan se har minskat sin totala storlek i Navi 31 XTX-chippet med 96 MB för 128 MB Navi 21 XTX.

Den mest uppenbara frågan är varför minska Infinity Cache om det var det mest avgörande i RDNA 2? Om vi ​​tittar noga har de ökat storleken på databussgränssnitt 256-bitars till 384 bitar, som om vi lägger till IC ger oss i RX 6000-serien ett förhållande på 2, medan RDNA 3 fördubblas. Det vill säga att det finns mycket mer bandbredd per buss än per IC och det kan bara betyda det L2 har ökat i GCD och att åtkomsten till VRAM kommer att ske i ganska stora datablock.

Detta ses tydligt av ökningen av direkt bandbredd mellan GCD och MCD, som vi redan har kommenterat kan vara upp till 9TB/s max och att AMD har tagit till 5,3 TB/s. Vi förstår att det är poängen med störst prestanda och effektivitet, men överraskningen och vad ingen förväntade sig är att de inte använde Glink-3D. Om det misslyckas har AMD använt samma teknik som i sin Instinct MI200-grafik, dvs. Förhöjd Fanout Bridge eller EFB i hans version 2,5D.

Elevated Fanout Bridge 2.5D, alternativet till Intels EMIB

Den här tekniken är den som gör att GCD och MCD kan anslutas direkt, men till skillnad från vad Intel gör med EMIB, är sättet att göra anslutningen enklare, eftersom båda formarna inte är inuti substratet som är sammanfogade med TSV, är skillnaden att de 7 formarna är på substratetpå en kommunikationsinterposer.

Det är egentligen inte ett mellanlägg att använda, eftersom det skulle behöva inrymma de interna anslutningarna och det är därför det kallas ett substrat som en sammankopplingsdel. De 7 matriserna är direkt anslutna till detta substrat och detta ansluter samtidigt till matrissubstratet, som löds fast till PCB:n med de typiska stötarna. Det som uppnås är att spara kostnader, göra en sammankoppling enklare och långsammare, ja, men effektiv och billig. Därför har hastigheten “bara” ökat 2,7 gånger kontra vad GUC:s GLink-3D kan göra.

Till denna anslutning länk vía EFB 2.5D mellan GCD och MCD AMD kallar det Infinity Backlink, och logiskt tills de tar steget till GLink-3D (om de gör det någon gång, ifrågasätts det redan) kommer det att vara den centrala pelaren i företagets MCM-arkitekturer. Likaså var och en dcm kommer att kontakta honom GCD med en hastighet av 883 GB/svilket är mer bandbredd än RX 6950 XT hade för sig själv med GDDR6.

Vad som verkar klart är att med denna bandbredd, med 384-bitars bussen och 96 MB IC, har AMD optimerat arbetsalgoritmerna, oavsett om de är LD i hårdvara eller programvarans resurshanterare i dess drivrutiner, fortfarande inte vi vet, kanske till och med förbättringarna finns i båda och av denna anledning finns det i princip mer L2-cache, i princip och förutom överraskning med 6,144 kB jämfört med 4 096 KB för Navi 21 XTX (+50%).

Fördelningen skulle vara 24 brickor på 256KBvilket skulle ge oss det tidigare antalet 6 Totalt L2 MB.

GCD, en strukturell förändring som bryter pipelinen och det allmänna RDNA-konceptet

Det finns fortfarande mycket information att veta om GCD, men vi kan kommentera några av dem, som är viktiga och kräver uppmärksamhet. RDNA 3 som arkitektur delar likheter med sina två tidigare systrar, men det är både störande och en återgång till AMD:s förflutna, vilket är kuriöst.

Efter det korta talet som AMD höll i sin egen ordning, vad vi kan se först inom varje unified computing (innan Beräkna enheter eller CUs, nyfiken på bytet av namn och koncept). De av Lisa Su delar upp varje UC i fyra stora block, vilket förenklar hela konceptet:

  • VGPR
  • Streama processorer
  • AI-accelerator
  • RT Accelerator

Dessa avsnitt är bara grundläggande begrepp som vi kommer att behandla separat med tanke på nyheterna i var och en av dem.

Vector General Purpose Register (VGPR)

Det är en väldigt viktig förändring och samtidigt har den en hel del kontroverser tills saken bryts ner (om vi någonsin vet) och vi förklarar oss själva. RDNA-arkitekturen har CU som basenhet, nu kallad UC som vi har sett tidigare, ja, varje UC har en serie exekveringsgrupper som den drar med sig med varje förbättring:

  • Wavefront (WF)
  • SIMD Vector ALU
  • Skalär ALU
  • loggfiler
  • Minnespipeline
  • L1-datacachen för vektorer
  • Lokal datadelning (LDS)

Dessa grupper är kopplade till tre fasta delsystem som har en grundläggande del i varje UC:

  • skalär cache
  • Instruktionscache
  • L2 Data Cache eller utdata till chipets DRAM

Tja, inom alla dessa enheter kommer vi att fokusera på registerfilerna, av vilka det finns två olika enheter: Vector RF (VRF) och Scalar RF (SRF), vi är intresserade av de första eftersom det är de som AMD har förbättrat inom VRF:erna.

Varje VRF hittills innehållit 512 V.G.P.R. fördelat enligt följande:

  • 128KB av VGPR avgift för varje VRF eller SIMD Vector ALU
  • Varje VGPR distribuerades i 4 banker av SRAM (Bank 0, Bank 1, Bank 2 och Bank 3)
  • var tillåten en läsning och en skrivning per cykel och per bank.

Genom att veta detta kommer vi nu att förstå lite mer det faktum att AMD har ökat en 50 % VGPR i RDNA 3 vs. RDNA 2. Kontroversen kommer över det faktum att skalära ALU:er inte har ändrats, inte heller har deras register, eller åtminstone inte tillkännagivits som sådana. Frågan blir igen, varför gör AMD detta? Tja, återigen måste vi förstå nya förbättringar som dessa förändringar innebär och var de av Lisa Su pekar.

  • Det tar en imponerande grad av parallellisering med flera trådar i UC:erna.
  • AMD använder en stor parallellitet för att inte generera en stor latens inom varje UC.
  • Utvecklare arbetar med unika instruktioner för att uppnå parallellisering med delprocesser i SIMD.
  • några behövs större loggfiler (RF) än datacacher för att säkerställa att arkitekturen balanserar belastningar och löser dem i tid.

Efter att ha förstått allt detta med VGPR och dess ökning kommer vi nu att förstå det andra avsnittet som AMD namngav i sin presentation och som motsvarar vad det har kallat “SIMD-enheter med dubbla problem” o Dubbla “Emissions” SIMD-enheter, även översatt som dubbel förlängning.

När det gäller ROPockså viktigt i detta avsnitt, verkar det som att de kommer att fortsätta med 32 enheter per Shader Enginevilket skulle ge oss en räkning av 192 på Navi 31 XTX.

Dual Issue Stream-processorer

Det är nödvändigt att dubbla VGPR och inte skalärerna så att SIMD:erna för ny faktura med 64 SP kan arbeta med en andra uttalandet när både hårdvara och mjukvara kan extrahera från pipeline en annan att lösa. Med andra ord multipliceras nivån av instruktioner per cykel som kan bearbetas med två, vilket är känt inom GPU- och únidad central de procesamiento-arkitekturen som Parallellism eller ILP på instruktionsnivå genom dess akronymer.

Instruktionerna som kan parallelliseras är de som redan är kända som heltal (heltal) eller flyter (flytande) och det är därför som förändringen på hårdvarunivå behövs som vi ser i RDNA 3, samt en ny drivrutin, som skulle vara den mjukvarudel som vi nämnde tidigare.

Som med en únidad central de procesamiento med dess kärnor och trådar eller till och med NVIDIA GPU:er, om Dispatch inte kan hämta en instruktion från pipelinen för den interna Task Manager att skicka till en SP som ska arbetas med, är det vi har ett prestandavakuum, där vi har dubbelt så mycket många SP-enheter är helt värdelösa.

Av denna anledning och med koppling till föregående avsnitt är det faktum att AMD ökar VGPR med 50% för att säkerställa att detta stopp inträffar i högsta möjliga procent, men det kommer inte alltid att uppnås och de bästa data som stöder detta gavs av AMD själv. Det måste tas med i beräkningen att detta redan gjordes med GNC-arkitekturerna och att det kasserades med den första och andra generationen av RDNA, men för denna tredje har den kommit tillbaka och försökt dra nytta av de förändringar som beskrivits hittills.

Om vi ​​tar uppgifterna från det röda laget kommer vi att se att 64 Stream-processorer kan arbeta flexibelt med FP-, Integer- och AI-operationer och lyckas multiplicera prestandan hos RX 7900 XTX på papper jämfört med RX 6950 XT med upp till 2,6 gånger för FP32.

Men å andra sidan visade sig den faktiska prestandan vara “bara” 1,7 gånger. Det betyder att det är långt kvar i RDNA 4, eftersom ungefär 35 % parallellisering går förlorad i instruktionerna som utvinns från rörledningen till arbete, vilket också innebär mindre energieffektivitet av chipet.

Två AI-acceleratorer per CU/UC

Det finns inte många detaljer här av en enkel anledning: AMD har inte förklarat på djupet hur detta fungerar. FSR 3, det har bara visat prestandan. Logiskt sett behöver du inte vara ingenjör för att förstå att dessa två AI Accelerator-enheter De representerar en superlativ ökning när det gäller djupinlärning och supersampling som bara kommer att påverka version 3 av dess skalningsprogram.

Av denna anledning talar informationen som erbjuds av AMD om nya instruktioner för artificiell intelligens och bättre driftkapacitet. Det sägs inte, men det kan förväntas att, precis som i NVIDIA (i slutändan delar de Ray Tracing och allmänna API:er tack vare Microsoft med DX12 Ultimate) kan det förväntas att AI-acceleratorerna kommer att fungera med heltal och flyttal instruktioner som INT8 och FP16.

Därför talar AMD om dessa nya instruktioner. Precis som med NVIDIA med DLSS 3 och RTX 40 kommer RX 7000 bara att stödja FSR 3 eftersom AMD har tolkat NVIDIAs arbete på sitt eget sätt och har sett att skalningsvägen inte kan utsättas för Shaders för brute force, och inte heller kan upplösningen av de BVH för Ray Tracing. Så att inkludera två enheter per CU är ett mer än giltigt alternativ för att öka prestandan upp till 2,7 gånger enligt företaget självt. Tills de avslöjar mer information kan vi inte kommentera något annat, så låt oss gå vidare till nästa avsnitt som handlar om Ray Tracing.

2 Gen RT Accelerator för RDNA 3-arkitektur

Där AMD led mest var just i Ray Tracing-prestanda. Här kommer de ikapp mer eller mindre, men NVIDIA verkar fortsätta leda dem, men avståndet är mindre. Den huvudsakliga nyheten är att det finns nya instruktioner dedikerade till beräkningen och upplösningen av BVH, såväl som nya funktioner för Ray Box när det gäller klassificering och transversalitet i dess upplösning.

Tack vare detta ser AMD till att de kan hanteras 1,5 gånger fler strålar “i flygning”. Detta gör att varje enhet kan uppnå 50 % mer prestanda inom varje CU/UC, vilket tillsammans med FSR 3 ger ganska intressanta resultat, eftersom procenttalen sträcker sig från en +47 % upp till +84 %.

Det svåra i det här fallet är att skilja “vetet från agnarna” eftersom vi inte vet exakt hur mycket förbättring som motsvarar RT Accelerator och hur mycket som kommer från programvaran med FSR 3, och det är möjligt att om AMD inte säger så kommer vi aldrig att veta säkert.

AMD Radiance Display Engine

Det finns knappast något nytt i detta avsnitt inom GCD och RDNA 3-arkitekturen, eftersom vi redan har behandlat det i separata artiklar. Som vi såg kommer AMD att vara först med att erkänna Display Port 2.1som i sin tur bokstavligen har svalt version 2.0, så i grunden är de samma och nyheten som sådan är verkligen mindre klar.

Detta kommer att lämna oss med en bandbredd på upp till 54 Gbpsvilket inte kommer att räcka om vi tar hänsyn till att AMD pratar om upplösningar 8 K med upp 165Hz eller 4K vid 480Hz. Det mest intressanta, även om vi inte kommer att se det inom spel på många år, är det faktum att företaget erbjuder 12 bitar per färgkanaleller vad är detsamma, tills 68 biljoner färger möjligt att, om panelen följer med, kan vara representerade inför våra ögon.

Dual Media Engine på RDNA 3-arkitektur

De är en förbättring inom GCD, en uppdatering som var nödvändig för många användare. Tre tydliga och koncisa förbättringar från AMD till dess RDNA 3-arkitektur:

  • Koda och avkoda med Antes de Cristooch HEVC samtidigt.
  • Koda och avkoda med AV1 i 8K vid 60 FPS.
  • AI-förbättringar för Encode Vídeo.

Detta gör att den totala prestandan för mediamotorn har klättrat upp till en +80 %ett riktigt barbari som många kommer att veta hur man drar nytta av.

AMD RDNA 3-arkitekturöversikt

Sammanfattningen som Lisa Su företag ger oss är kort, men intressant. Man måste komma ihåg att frekvensen har ökat med 15 %, särskilt i 200MHzdär dessutom 25 % energi sparas jämfört med 2,3 GHz på RX 6000. Detta är logiskt möjligt tack vare TSMC N5-noden och delvis på grund av de förbättringar vi har sett hittills.

Å andra sidan har den interna bandbredden ökats med 2,7 gånger för att uppnå en övergripande prestanda i FP32 på 61 TFLOPSmen som vi vet är denna siffra endast jämförande med samma arkitektur och kan inte extrapoleras mot NVIDIA eller Intel.

När det gäller CU/UC har AMD introducerat två instruktioner per klockskuggning, Ray Tracing-förbättringar och AI-förbättringar, så prestandan i alla aspekter kommer att förbättras mycket och de första uppskattningarna tyder på att de är riktigt nära NVIDIA och deras RTX 4090. Slutligen och för att avsluta denna artikel om AMD RDNA 3-arkitekturhar vi en ny Display- och mediamotor, med DisplayPort 2.1 redo för 4K och 8K, för att ge den mest välbärgade spelaren prestanda och support i världsklass.

Vi hoppas att du gillade vår artikel AMD RDNA 3, nycklarna till arkitekturen
och allt som har med saker att göra inom teknikvärlden, mobiltelefoner och den tekniska världen.

 AMD RDNA 3, nycklarna till arkitekturen
  AMD RDNA 3, nycklarna till arkitekturen
  AMD RDNA 3, nycklarna till arkitekturen

Intressanta saker att veta innebörden: APP

Här lämnar vi också ämnen relaterade till:Teknologi