News GPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel

SVΞN

Redakteur a.D.
Registriert
Juni 2007
Beiträge
22.748
  • Gefällt mir
Reaktionen: flo.murr, Onkel Föhn, Salutos und 19 andere
Dann kann SAM gleich in den Cache schreiben.
(Umweg über Vram gespart)
 
  • Gefällt mir
Reaktionen: Buchstabe_A, psYcho-edgE, aid0nex und 7 andere
Ob Nvidia dann auch sagt „ das ist zusammen geklebt“ ?

könnte der infinity cache das mikroruckler Problem lösen ?
 
  • Gefällt mir
Reaktionen: danyundsahne, psYcho-edgE, Benji18 und eine weitere Person
Nach den Chiplets in der CPUs, wäre natürlich für GPUs auch ein guter Fortschritt.
Mehr Leistung = mehr Chiplets. Schön skalierbar.
 
  • Gefällt mir
Reaktionen: LukS, Buchstabe_A, psYcho-edgE und 12 andere
Das heißt dann theoretisch könnte eine PCB auf beiden Seiten ein/mehrere Chips haben.
 
R O G E R schrieb:
Hast du dir mal die letzten Tests angeschaut.
AMD ist ebenbürtig mit Nvidia.
Das ist in den letzten 10 Jahren nicht mehr vorgekommen.

Bringt nur im Moment nix, weils die Karten nicht bezahlbar gibt.
Das ist eine Momentaufnahme. Ende des Jahres dürfte Intel gut dabei sein und es dürfte dann auch für Nvidia eng werden.

Bin schon sehr gespannt.
 
Es wird spannend, die Dürre der kleinen % Häppchen jedes Jahr ist endlich vorüber.
Neue Technologien, Ideen , Wettkampf, das kann nur gut werden , wenn schließlich das Mining wieder uninteressant wird sind wir über den Berg 😆
 
  • Gefällt mir
Reaktionen: Buchstabe_A, simosh, Sennemaa und 3 andere
Nulight schrieb:
Es wird spannend, die Dürre der kleinen % Häppchen jedes Jahr ist endlich vorüber.
Neue Technologien, Ideen , Wettkampf, das kann nur gut werden , wenn schließlich das Mining wieder uninteressant wird sind wir über den Berg 😆
Naja das wird sicher noch bissi dauern
 
  • Gefällt mir
Reaktionen: Shad82 und Kenshin_01
Hab ich das richtig verstanden..
Man baut Chiplets. Man verbindet diese mit einem Aktiven Interposer der den L3 Cache besitzt und noch ein bisschen Logik hat.
Auf diesem Interposer müssen alle Chiplets platziert werden.

Das heißt ja ich brauche für die Chips eine High End Fertigung die kleine bis mittelgroße Chips ausspuckt.
Zusätzlich braucht man noch einen Interposer der je nach Anzahl der Chiplets riesig wird und nicht in irgendeiner Bummelfertigung gemacht werden kann, weil sonst der L3 Verbrauch und der Interconnect-Verbrauch explodiert.

Das kann ich mir eigentlich nur im Enthusiasten Bereich vorstellen. Oder eben im Professionellen Bereich.

Nach Gaming klingt das definitiv nicht, auch wenns ein super interessanter Ansatz ist.
 
  • Gefällt mir
Reaktionen: derSafran und bensen
Das wird richtig interessant für Cloud Gaming.
Wenn das nicht alles in Hardware fest steht sondern via Software partitioniert werden kann laufen da problemlos mehrere Games auf einer einzigen GPU und jede Anwendung kriegt X Chiplets und Y Anteile VRAM.
Das kann dann dynamisch zugeteilt werden wer wie viel braucht.
 
Ich dachte Chiplet-GPUs sind noch Jahre weit entfernt.

Workload Aufteilung/Synchronisation um Mikroruckler zu vermeiden als Stichwort.
Ein Chiplet design bringt ja auch nur Vorteile je mehr Chiplets es sind.... für 4 Chiplets wird sich der Aufwand kaum lohnen.

Edit: Ok ab da wohl was mit Anzahl der Chiplets und Anzahl der Kerne durcheinander gebracht.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Shad82
Che-Tah schrieb:
Ein Chiplet design bringt ja auch nur Vorteile je mehr Chiplets es sind.... für 4 Chiplets wird sich der Aufwand kaum lohnen.
Ich wage mal zu behaupten, dass es sich ab 2 Chiplets (Ryzen Desktop) lohnt. Bei Grafikkarten sollte es sich eigentlich viel mehr lohnen als bei Desktop CPUs da die GPUs echt massivst groß sind.

Das resultiert daraus, dass die Kosten nicht direkt proportional zur Fläche sind, sondern exponentiell ansteigen -> 2xklein ist viel günstiger als 1xgroß.

Nimm mal an du hast ein Chiplet mit 8 CUs. Nun kannst du für relativ wenig Geld alle Preisbereiche von der 8 CU iGPU bis zur 80 CU RX 6900 abdecken.

Sind nicht Anwendungen die sich über GPUs beschleunigen lassen sowieso sehr gut parallelisierbar? Da liegt es sehr nahe, dass man die Chips dann auch in kleine Einheiten teilt.

Edit: Weiterer Pluspunkt:
Sogar die teildefekten Chips können verwertet werden als z.B.: 6 CU Chips. Stört ja keinen wenn da 1/4 des Chips brach liegt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: simosh, el_mongo, Project 2501 und 3 andere
Hätte noch einen weiteren Vorteil: man kann schneller reagieren und Erweiterungen als gesonderten Chip umsetzen.

Beispiel: nvidias Tensor Cores, statt das komplett eigene Design abzuändern, um ähnliche Rechenwerke zu implementieren, könnte man einen eigenen Chip mit den entsprechenden Funktionseinheiten erstellen.

Die haben zwar evtl. dann nicht die gleiche Leistung, aber das kann man mit einer höheren Anzahl leicht kompensieren und die Chips werden auch relativ günstig, da weniger komplex, weniger Fehleranfällig und weniger Ausschuss.

Oder auch die relativ einfachen Caches, diese kann man so auslagern von den komplexen Bauteilen. Caches brauchen viel Platz und kleine Fehler können schnell zum Ausschuss des gesamten DIE führen.

AMD scheint die clevere Lösung der ZEN-CPUs nun endlich auf GPUs zu übertragen. Mal gespannt wie gut es funktionieren wird.
 
  • Gefällt mir
Reaktionen: danyundsahne, Onkel Föhn, Pry_T800 und 9 andere
Che-Tah schrieb:
Ein Chiplet design bringt ja auch nur Vorteile je mehr Chiplets es sind.... für 4 Chiplets wird sich der Aufwand kaum lohnen.
Warum?
Bei einer 150mm² GPU hat man doch wesentlich weniger Ausschuss als bei ner 600mm² GPU. Also lohnt es sich immens.

Dann packt man 4 drauf und man hat die selbe Leistung, also einfach betrachtet. In der Realität ist es natürlich etwas komplexer.
 
  • Gefällt mir
Reaktionen: McFritte, el_mongo, fox40phil und eine weitere Person
GerryB schrieb:
Dann kann SAM gleich in den Cache schreiben.
(Umweg über Vram gespart)

Ich glaube SAM hat damit nichts zu tun. Da geht's nur um den Zugriff auf Dateien größer als 4gb vom Vram.
Aber wenn die CPU auf den Cache zugreifen könnte weiß ich nicht ob das Vorteile von den Latenzen bringt. Es müsste von Cache zur CPU und dann von CPU wieder zurück zum Cache oder Vram.
Ich glaube eher es geht darum das Multichip Design schneller darin zu machen den System vorzugaukeln da wäre nur eine gpu.

Aber das ist nur mein aktuelles Verständnis. Wie es später sein wird weiß niemand hier.
Ich denke eher das AMD sich erstmal jede halbwegs vernünftige Idee Patentieren lässt.
 
  • Gefällt mir
Reaktionen: Col.Maybourne, GerryB und Makso
"Aber die haben kein DLSS" mimimi Wo ist der Typ wenn man ihn mal braucht!?

AMD klebt was das Zeug hält! Gefällt mir.
 
  • Gefällt mir
Reaktionen: danyundsahne, McFritte, Onkel Föhn und 8 andere
Füttert doch nicht alle den Troll. Nichts gegen ein bisschen subtile Trollerei, der hier ist aber doch relativ plump. Holzhammer und so... da muss man wirklich nicht drauf eingehen.

Bin auf jeden Fall gespannt. Wenn die das einigermaßen umsetzen könnten wäre das schon ein wichtiger Schritt. Wäre top, wenn man dadurch die Preise wieder senken könnte. Und nach einigen Generationen Chiplets bei Zen und nachdem man bei RDNA2 zumindest laut eigener Aussage auch schon von der CPU-Abteilung profitiert, Stichwort IC, hat man zumindest die Erfahrung...
 
Makso schrieb:
Das heißt dann theoretisch könnte eine PCB auf beiden Seiten ein/mehrere Chips haben.
Die Chiplets sind sehr nahe beieinander. Ich denke wenn du die auf unterschiedliche Seiten des PCBs packst, wären die Leitungen wieder zu lang. Theoretisch wäre es natürlich möglich.
Gaugaumera schrieb:
Das heißt ja ich brauche für die Chips eine High End Fertigung die kleine bis mittelgroße Chips ausspuckt.
Zusätzlich braucht man noch einen Interposer der je nach Anzahl der Chiplets riesig wird und nicht in irgendeiner Bummelfertigung gemacht werden kann, weil sonst der L3 Verbrauch und der Interconnect-Verbrauch explodiert.
Dieser aktive Interposer muss nicht groß sein. In den Abbildungen siehst du, dass der auch nur teilweise zwei Chiplets bedeckt und der Rest von Dummy-Dies bedeckt wird, um es homogen zu machen.

Im Patenttext steht auch was davon, dass der Interposer länglich aufgebaut ist und dadrauf zwei Reihen Chiplets gebaut werden. Das hatte ich aber, bis ich deinen Post gelesen habe, nicht richtig verstanden :D
Che-Tah schrieb:
Ein Chiplet design bringt ja auch nur Vorteile je mehr Chiplets es sind.... für 4 Chiplets wird sich der Aufwand kaum lohnen.
AMD spricht von Fällen ab 2 Chiplets. Kann mir schon vorstellen, dass sich das lohnen kann. Haben andere ja schon beschrieben.
 
  • Gefällt mir
Reaktionen: el_mongo, Knut Grimsrud und Che-Tah
flappes schrieb:
Beispiel: nvidias Tensor Cores, statt das komplett eigene Design abzuändern, um ähnliche Rechenwerke zu implementieren, könnte man einen eigenen Chip mit den entsprechenden Funktionseinheiten erstellen

Das ist kein Vorteil von Chiplets. Du kannst auch so einfach Rechenwerke mit auf den Die packen und musst sie nicht zwingend in die Rechenwerke integrieren. Macht Nvidia auch aktuell so. Chiplets ändern nichts daran, dass man bestimmte Funktionseinheiten entwickeln und logisch einbinden muss. AMD geht zudem eher den Weg eine möglichst felxible Architektur zu schaffen und macht genau das Gegenteil. Sie versuchen möglichst viele Funktionen zu integrieren, um den Transistoraufwand möglichst gering zu halten und von kurzen Latenzen zu profitieren.

flappes schrieb:
Die haben zwar evtl. dann nicht die gleiche Leistung, aber das kann man mit einer höheren Anzahl leicht kompensieren und die Chips werden auch relativ günstig, da weniger komplex, weniger Fehleranfällig und weniger Ausschuss.

Du erkaufst dir dafür aber auch Latenzen und ein komplexes Packaging. Und mit der Masse kann man auch nichts erschlagen, da man so fix in Energieprobleme läuft. Du musst schon ein gewisses Mittelmaß finden, wo sich Vor- und Nachteile halbwegs die Wage halten.

flappes schrieb:
Oder auch die relativ einfachen Caches, diese kann man so auslagern von den komplexen Bauteilen. Caches brauchen viel Platz und kleine Fehler können schnell zum Ausschuss des gesamten DIE führen.


Caches machen aber keinen Sinn, wenn man sie weit von der Logik unterbringt. Genau da liegt ja der Vorteil vom Cache. Kurze Wege mit wenig Energieaufwand und sehr kurzen Latenzen.

Es macht wesentlich mehr Sinn Chiplets zu entwickeln, die alle nötigen Komponenten tragen und skaliert werden können. Macht AMD bei Zen auch so. Ein Zen Chiplet enthält auch alle wesentlichen Bestandteile.

Das hat Vorteile in der Leistung und in der Fertigung. Denn so musst du nur eine Art von Chiplet fertigen und nicht 5 verschiedene. Separate Chiplets mit eigenen Funktionen würde den ganzen Ansatz zu nichte machen, da man dann wieder den Kostenvorteil auffressen würde.
 
  • Gefällt mir
Reaktionen: bensen, Schinken42, JJJT und 4 andere
DavidG schrieb:
Das ist eine Momentaufnahme. Ende des Jahres dürfte Intel gut dabei sein und es dürfte dann auch für Nvidia eng werden.

Ja nee ist klaa.
Erste Benches zeigen knapp die Leistung einer RX550 für die kleine Intel DGPU.
Und auch die Grösseren haben ein etwas schmales SI für die vielen Shader.
Grafiktreiber konnten sie noch nie....

Wie schon immer wieder über die letzten 30 Jahre versucht sich Intel mal wieder an GPUs, weil
man sowas heut halt haben muss.
Und jedes Mal sind sie mit Anlauf gescheitert.

Arg viel besser wird es auch dieses Mal nicht werden.
Wer gleich vergleichbare Leistung mit NV oder AMD erwartet, der träumt
und zwar gewaltig.
 
  • Gefällt mir
Reaktionen: Salutos, StevenB und eXe777
Zurück
Oben