[ ERA: DABARTIS ]

Silicio smėlio audra: turbulentinis elektronų pasaulis spartiosiose sistemose

Silicio smėlio audra: turbulentinis elektronų pasaulis spartiosiose sistemose
Nuotrauka: Gemini Imagen

Duomenų srautas „NVIDIA GB200 NVL72“ sistemos viduje nėra tolygus upės tekėjimas; tai – chaotiškas, tačiau matematiškai suvaldytas impulsų šuolis, kurio metu 5691,25 mm² silicio audinys tampa arenos grindimis milijardams elektronų. Kiekvienas informacijos paketas, judėdamas 112 Gbps greičiu, susiduria su 18 dB signalo slopinimu, kurį sukelia odos efektas ties 28 GHz riba. Šiame mikroskopiniame greitkelyje signalas nėra abstrakcija – tai įtampa, kurią reikia išlaikyti nepakitusios formos, nepaisant 2700 vatų galios sukeliamo foninio triukšmo. Kai 8-tap feed-forward ekvalaizeriai bando ištaisyti bangos formos iškraipymus, sistema atsiduria ties riba, kurioje fizinė tikrovė tampa skaitmenine klaida.

Kiekvienas logikos lusto takelis veikia kaip užtvanka, bandanti sulaikyti 1,2 × 10^6 A/cm² srovės tankį, kurio jėga prilygsta hidrauliniam slėgiui, ardančiam vamzdyno sieneles. Čia, 5 nm kobalto-volframo-fosfido (CoWP) apsauginiame barjere, vyksta nuolatinė kova tarp elektronų srauto ir vario atomų stabilumo. Kai srovė tampa per intensyvi, atsiranda elektromigracija – atominio lygio erozija, kuri pakeičia laidininko geometriją ir sukuria nepageidaujamus vėlavimus. Tai nėra tiesiog sistemos sulėtėjimas; tai informacijos „išsikraipymas“, kai vėluojantis bitas suardo visą Reed-Solomon kodo struktūrą, priversdamas procesorių perrašyti jau atliktus skaičiavimus.

Širdies plakimo ritmu pulsuojanti 16 sluoksnių HBM4e atmintis talpina duomenų masyvus, kurie per 40 μm plonumo silicio sluoksnius keliauja į loginį branduolį per TSV kanalus. Kai 10 μm skersmens vario gyslos įkaista, jų elektrinė varža pakyla, iškreipdama 1,2 TB/s pralaidumo balansą. Tai sukelia sistemos „aritmetinį drebėjimą“, kuomet atminties kaminų bazėse integruoti jutikliai fiksuoja vietinius karščio židinius. Jei 0,15 Ω varža viename TSV kanale viršija numatytą ribą, duomenų paketas praranda sinchronizaciją, ir visos 1800 diferencialinių porų privalo persiderinti, siekdamos išvengti bitų klaidų tikimybės didėjimo virš 10^-18 ribos.

Elektros energijos paskirstymas per 4700 nF gilių tranšėjų kondensatorius primena įtampą, kylančią prieš žaibą. Kai GPU branduolys per 2 nanosekundes šoka iš ramybės į maksimalų apkrovimą, kondensatorių tranšėjos privalo akimirksniu atiduoti sukauptą krūvį, kad įtampa nenukristų žemiau kritinės ribos. Šiame procese 16 fazių reguliatoriai, dirbantys 1 MHz dažniu, atlieka nuolatinę korekciją, tačiau net ir menkiausias induktyvumo šuolis virš 1 nH sukelia „įtampos duobę“. Tokiomis akimirkomis loginiai vartai „pamiršta“ savo būseną, o skaičiavimo rezultatas tampa nebe patikimu skaičiumi, o statistine tikimybe, kurią algoritmas privalo atmesti.

Termodiodų tinklas, sudarytas iš 128 jautrių elementų, stebi sistemos temperatūrą su -2 mV/°C tikslumu, ieškodamas anomalijų, kurios galėtų peraugti į terminį bėgimą. Kai 1 kHz dažniu atnaujinami duomenys parodo staigų šuolį, 12 bitų analoginis-skaitmeninis keitiklis priima sprendimą: stabdyti ar tęsti. Tai nėra tik saugumo protokolas; tai – „skaitmeninė amputacija“. Per 10 mikrosekundžių atjungiami 256 galios domenai, kad būtų išvengta fiziškai negrįžtamo silicio matricos išsilydymo. Šiame procese sistema tampa akla savo pačios logikai, nes prarasti duomenys tampa nebeatkuriami, o procesoriaus būsena lieka „įšaldyta“ avarinio stabdymo taške.

Struktūrinis rėmas, sudarytas iš 65 proc. silicio dioksidu užpildyto epoksido, atlieka daugiau nei mechaninę funkciją; jis yra sistemos „karkasas“, užtikrinantis, kad 2450 niutonų jėga termokompresinio surinkimo metu nepažeistų kristalinės struktūros. Tačiau net ir šis molekulinis inkaras susiduria su 2,6 ppm/K šiluminio plėtimosi koeficiento ribomis. Kai temperatūra per mažiau nei sekundę pakyla 125 °C, atsiranda mikroskopinis „tempimas“, kuris pakeičia 2,5D architektūros mazgų sujungimo geometriją. Šis fizinis pokytis lemia signalo fazės poslinkį, kurio negali ištaisyti joks programinis ekvalaizeris, nes problema yra ne programinė, o grynai topologinė.

NVLink-C2C sąsajos veikimas yra nuolatinis pusiausvyros aktas, kur PAM4 moduliacija turi atskirti keturis skirtingus įtampos lygius triukšmingoje aplinkoje. Kai elektromagnetinis fonas pasiekia ribą, bitų klaidų tikimybė pradeda eksponentiškai augti, nepaisant Reed-Solomon kodų galios ištaisyti 15 klaidų viename žodyje. Tai sukuria „informacinio aklo taško“ fenomeną: sistema veikia, tačiau jos viduje esantys duomenys tampa nebeaiškūs, o skaičiavimų tikslumas prarandamas. Nėra jokių indikacijų, kad klaida įvyko, kol galutinis rezultatas neparodo loginio neatitikimo, kuris priverčia visą NVL72 mazgą persikrauti iš naujo.

Galiausiai, visa ši sudėtinga architektūra remiasi 12 metalizacijos lygių, kurie užtikrina signalų sklidimą per silicio audinį. Nors kiekvienas lygis yra preciziškai sukalibruotas, 65 nm technologinis procesas sukuria „kvantinio triukšmo“ zoną, kurioje elektronai gali tuneliuoti per izoliacinius sluoksnius. Tai sukelia nuotėkio srovę, kuri, nors ir mažesnė nei 1 nA, tampa pagrindiniu sistemos šilumos šaltiniu, kai procesorius yra „ramybės“ būsenoje. Šis inžinerinis paradoksas išlieka: kuo labiau mažiname komponentų dydį, tuo labiau didiname sistemos jautrumą atsitiktiniams fizikos dėsniams, kurie visada veikia prieš patį skaičiavimų tikslumą.

Esminis inžinerinis bottleneck'as lieka ties 350 °C temperatūros riba, kurioje hibridinis Cu-Cu sujungimas praranda savo struktūrinį vientisumą, o Kirkendall tuštumos pradeda formuotis kaip nematomos pūslės metalo jungtyse. Nors 10 nm titano nitrido barjeras sėkmingai blokuoja difuziją, jis negali sustabdyti medžiagos nuovargio, kurį sukelia nuolatiniai terminiai ciklai. Sistema veikia ne dėl to, kad ji yra tobula, o dėl to, kad jos klaidų taisymo algoritmai yra pakankamai greiti, jog užmaskuotų fizinį komponentų irimą, kuris vyksta greičiau, nei žmogaus suvokiamas laiko tėkmės matas.