Pascal-Architekturkarten. Familien von Grafikkarten Nvidia GeForce Referenzinformationen. Pascal-Anzeigekanal: HDR-Ready

Das Jahr 2016 neigt sich bereits dem Ende zu, aber sein Beitrag zur Gaming-Branche wird uns noch lange begleiten. Erstens erhielten Grafikkarten aus dem roten Lager ein unerwartet erfolgreiches Update in der mittleren Preisklasse, und zweitens bewies NVIDIA erneut, dass es nicht umsonst 70 % des Marktes einnimmt. Maxwells waren gut, die GTX 970 galt zu Recht als eine der besten Karten für das Geld, aber bei Pascal ist das eine ganz andere Sache.

Die neue Hardwaregeneration gegenüber der GTX 1080 und 1070 hat die Ergebnisse der letztjährigen Systeme und des Flaggschiffmarktes für gebrauchte Hardware buchstäblich begraben, während die „jüngeren“ Linien gegenüber der GTX 1060 und 1050 ihren Erfolg in günstigeren Preisen festigten Segmente. Die Besitzer der GTX980Ti und anderer Titanen weinen in Krokodilstränen: Ihre Superwaffen für viele tausend Rubel verloren auf einmal 50 % der Kosten und 100 % des Angebers. NVIDIA selbst behauptet, dass die 1080 schneller ist als die letztjährige TitanX, die 1070 die 980Ti locker „aufhäuft“ und die relativ preisgünstige 1060 den Besitzern aller anderen Karten schaden wird.

Ob hier wirklich die Beine einer hohen Produktivität wachsen und was man damit am Vorabend der Feiertage und plötzlichen finanziellen Freuden anfangen kann und womit man sich genau vergnügen kann, erfahren Sie in diesem langen und etwas langweiligen Artikel Artikel.

Man kann Nvidia lieben oder ... nicht lieben, aber leugnen, dass es in ist dieser Moment ist führend auf dem Gebiet der Videotechnik und wird nur ein Killer aus einem alternativen Universum sein. Da AMDs Vega noch nicht angekündigt wurde, haben wir die Flaggschiff-RXs auf Polaris noch nicht gesehen und die R9 Fury kann mit ihren 4 GB experimentellem Speicher nicht wirklich als vielversprechende Karte angesehen werden (VR und 4K wollen noch). etwas mehr, als sie hat) - wir haben, was wir haben. Während es sich bei der 1080 Ti und den bedingten RX 490, RX Fury und RX 580 nur um Gerüchte und Erwartungen handelt, haben wir Zeit, einen Blick auf die aktuelle NVIDIA-Reihe zu werfen und zu sehen, was das Unternehmen erreicht hat letzten Jahren.

Das Durcheinander und die Entstehungsgeschichte von Pascal

NVIDIA nennt regelmäßig Gründe dafür, „sich selbst nicht zu lieben“. Die Geschichte der GTX 970 und ihrer „3,5 GB Speicher“, „NVIDIA, Fuck you!“ von Linus Torvalds, völlige Pornografie im Sinne von Desktop-Grafiken, Weigerung, mit dem kostenlosen und weitaus verbreiteteren FreeSync-System zu arbeiten, zugunsten eines eigenen proprietären Systems ... Generell gibt es genug Gründe. Eines der ärgerlichsten Dinge für mich persönlich ist, was mit den letzten beiden Generationen von Grafikkarten passiert ist. Wenn wir eine grobe Beschreibung nehmen, dann stammen „moderne“ GPUs aus der Zeit der DX10-Unterstützung. Und wenn Sie heute nach dem „Großvater“ der 10. Serie suchen, dann wird der Beginn der modernen Architektur im Bereich der 400. Serie von Videobeschleunigern und der Fermi-Architektur liegen. Darin entstand die Idee eines „Block“-Designs aus dem sogenannten. „CUDA-Kerne“ in der NVIDIA-Terminologie.

Fermi

Wenn Grafikkarten der 8000er-, 9000er- und 200er-Serie die ersten Schritte zur Beherrschung des eigentlichen Konzepts der „modernen Architektur“ mit universellen Shader-Prozessoren (wie AMD, ja) waren, dann war die 400er-Serie bereits so ähnlich wie möglich zu dem, was wir haben siehe einige 1070. Ja, Fermi hatte immer noch eine kleine Legacy-Krücke aus früheren Generationen: Die Shader-Einheit arbeitete mit der doppelten Frequenz des Kerns, der für die Berechnung der Geometrie verantwortlich ist, aber das Gesamtbild einiger GTX 480 unterscheidet sich nicht wesentlich von einigen anderen 780. SM-Multiprozessoren werden geclustert, Cluster kommunizieren über einen gemeinsamen Cache mit Speichercontrollern und die Ergebnisse der Arbeit werden durch einen dem Cluster gemeinsamen Rasterisierungsblock angezeigt:


Blockdiagramm des in der GTX 480 verwendeten GF100-Prozessors.

In der 500er-Serie gab es immer noch den gleichen Fermi, leicht verbessert „innen“ und mit weniger Ehe, sodass die Top-Lösungen 512 CUDA-Kerne statt 480 bei der Vorgängergeneration erhielten. Optisch scheinen die Flussdiagramme im Allgemeinen Zwillinge zu sein:


Die GF110 ist das Herzstück der GTX 580.

An einigen Stellen haben sie die Frequenzen erhöht, das Design des Chips selbst leicht verändert, es gab keine Revolution. Trotzdem 40-nm-Prozesstechnologie und 1,5 GB Videospeicher auf einem 384-Bit-Bus.

Kepler

Mit dem Aufkommen der Kepler-Architektur hat sich viel verändert. Wir können sagen, dass es diese Generation war, die NVIDIA-Grafikkarten den Entwicklungsvektor gab, der zur Entstehung aktueller Modelle führte. Nicht nur die Architektur der GPU hat sich verändert, sondern auch die Küche für die Entwicklung neuer Hardware innerhalb von NVIDIA. Wenn sich Fermi darauf konzentrierte, eine Lösung zu finden, die eine hohe Leistung bietet, dann setzte Kepler auf Energieeffizienz, vernünftige Ressourcennutzung, hohe Frequenzen und einfache Optimierung der Spiel-Engine für die Fähigkeiten einer Hochleistungsarchitektur.

Beim Design der GPU wurden gravierende Änderungen vorgenommen: Als Basis diente nicht das „Flaggschiff“ GF100/GF110, sondern das „Budget“ GF104/GF114, das in einer der damals beliebtesten Karten – der GTX – zum Einsatz kam 460.


Die gesamte Prozessorarchitektur wurde durch die Verwendung von nur zwei großen Blöcken mit vier einheitlichen Shader-Multiprozessormodulen vereinfacht. Das Layout der neuen Flaggschiffe sah in etwa so aus:


GK104 in GTX 680 verbaut.

Wie Sie sehen, hat jede der Recheneinheiten im Vergleich zur vorherigen Architektur deutlich an Gewicht gewonnen und trägt den Namen SMX. Vergleichen Sie die Struktur des Blocks mit dem, was oben im Fermi-Abschnitt gezeigt wird.


Multiprozessor-SMX-GPU GK104

Die sechshundertste Serie hatte keine Grafikkarten auf einem vollwertigen Prozessor mit sechs Rechenmodulblöcken, das Flaggschiff war die GTX 680 mit installiertem GK104, und nur die „zweiköpfige“ 690 war kühler als sie, auf der gerade Es wurden zwei Prozessoren mit allen notwendigen Bindungen und Speicher gezüchtet. Ein Jahr später wurde aus dem Flaggschiff GTX 680 mit geringfügigen Änderungen die GTX 770, und die Krone der Weiterentwicklung der Kepler-Architektur waren Grafikkarten auf Basis des GK110-Kristalls: GTX Titan und Titan Z, 780Ti und die übliche 780. Innen - immerhin 28 Nanometer, die einzige qualitative Verbesserung (die NICHT bei Consumer-Grafikkarten auf Basis von GK110 zu finden ist) - Leistung bei Operationen mit doppelter Präzision.

Maxwell

Die erste Grafikkarte, die auf der Maxwell-Architektur basierte, war… NVIDIA GTX 750Ti. Wenig später traten ihre Kürzungen gegenüber der GTX 750 und 745 auf (die nur als integrierte Lösung geliefert wurden), und zum Zeitpunkt ihres Erscheinens wirbelten Low-End-Karten den Markt für preiswerte Videobeschleuniger wirklich auf. Die neue Architektur wurde auf dem GK107-Chip getestet: einem winzigen Teil zukünftiger Flaggschiffe mit riesigen Kühlkörpern und einem erschreckenden Preis. Es sah ungefähr so ​​aus:


Ja, es gibt nur eine Recheneinheit, aber wie viel komplizierter sie ist als ihr Vorgänger, vergleichen Sie selbst:


Anstelle eines großen SMX-Blocks, der als grundlegender „Baustein“ bei der Erstellung der GPU verwendet wurde, werden neue, kompaktere SMM-Blöcke verwendet. Keplers grundlegende Recheneinheiten waren gut, litten jedoch unter einer schlechten Kapazitätsauslastung – einem banalen Hunger nach Anweisungen: Das System konnte Anweisungen nicht auf eine große Anzahl von Aktoren verteilen. Der Pentium 4 hatte ungefähr die gleichen Probleme: Der Strom war im Leerlauf und ein Fehler bei der Verzweigungsvorhersage war sehr teuer. Bei Maxwell war jedes Rechenmodul in vier Teile unterteilt, von denen jeder seinen eigenen Befehlspuffer und Warp-Scheduler erhielt – die gleiche Art von Operationen für eine Gruppe von Threads. Dadurch ist die Effizienz gestiegen, die GPUs selbst sind flexibler geworden als ihre Vorgänger und vor allem haben sie auf Kosten von wenig Blut und einem recht einfachen Kristall eine neue Architektur erarbeitet. Die Geschichte dreht sich spiralförmig, hehe.

Vor allem mobile Lösungen haben von Innovationen profitiert: Die Fläche des Kristalls ist um ein Viertel gewachsen, die Zahl der Ausführungseinheiten von Multiprozessoren hat sich fast verdoppelt. Wie es der Zufall wollte, waren es die 700. und 800. Serien, die für den größten Durcheinander in der Wertung sorgten. Allein im 700 gab es Grafikkarten, die auf der Kepler-, Maxwell- und sogar Fermi-Architektur basierten! Deshalb erhielten die Desktop-Maxwells, um sich vom Sammelsurium früherer Generationen zu lösen, eine gemeinsame 900er-Serie, aus der später die GTX 9xx M-Mobilkarten hervorgingen.

Pascal – logische Weiterentwicklung der Maxwell-Architektur

Was in Kepler festgelegt und in der Maxwell-Generation fortgesetzt wurde, blieb in Pascals bestehen: Die ersten Consumer-Grafikkarten wurden auf Basis des nicht sehr großen GP104-Chips veröffentlicht, der aus vier Grafikverarbeitungsclustern besteht. Der vollwertige GP100 mit sechs Clustern ging an eine teure semiprofessionelle GPU unter der Marke TITAN

Leistungsverbesserung

Gründung der Fundamente

Maxwell wurde zur Grundlage der neuen Architektur, das Diagramm vergleichbarer Prozessoren (GM104 und GP104) sieht fast gleich aus, der Hauptunterschied besteht in der Anzahl der in Clustern verpackten Multiprozessoren. Kepler (700. Generation) verfügte über zwei große SMX-Multiprozessoren, die in Maxwell jeweils in 4 Teile unterteilt waren und für die nötige Umreifung sorgten (Namensänderung in SMM). In Pascal wurden zu den bisherigen acht im Block zwei weitere hinzugefügt, so dass es nun 10 waren, und die Abkürzung wurde erneut unterbrochen: Jetzt heißen einzelne Multiprozessoren wieder SM.


Der Rest ist eine völlige visuelle Ähnlichkeit. Zwar gab es im Inneren noch mehr Veränderungen.

Motor des Fortschritts

Es gibt unangemessen viele Änderungen innerhalb des Multiprozessorblocks. Um nicht auf die sehr langweiligen Details einzugehen, was neu gemacht wurde, wie es optimiert wurde und wie es vorher war, werde ich die Änderungen ganz kurz beschreiben, sonst gähnt einiges schon.

Zunächst korrigierte Pascal den Teil, der für die geometrische Komponente des Bildes verantwortlich ist. Dies ist für Konfigurationen mit mehreren Monitoren und die Arbeit mit VR-Helmen erforderlich: Mit der richtigen Unterstützung durch die Spiel-Engine (und diese Unterstützung wird bald durch die Bemühungen von NVIDIA verfügbar sein) kann die Grafikkarte die Geometrie einmal berechnen und für jeden mehrere Geometrieprojektionen erhalten der Bildschirme. Dies reduziert die Belastung in VR nicht nur im Bereich der Arbeit mit Dreiecken (hier beträgt die Steigerung nur das Doppelte), sondern auch bei der Arbeit mit der Pixelkomponente deutlich.

Der bedingte 980Ti liest die Geometrie zweimal (für jedes Auge), füllt sie dann mit Texturen und führt eine Nachbearbeitung für jedes der Bilder durch. Dabei werden insgesamt etwa 4,2 Millionen Punkte verarbeitet, von denen etwa 70 % tatsächlich verwendet werden. der Rest wird abgeschnitten oder fällt in den Bereich, der einfach nicht für jedes der Augen angezeigt wird.

1080 verarbeitet die Geometrie einmal und Pixel, die nicht in das endgültige Bild fallen, werden einfach nicht berechnet.


Mit der Pixelkomponente ist tatsächlich alles noch cooler. Da eine Erhöhung der Speicherbandbreite nur an zwei Fronten erfolgen kann (Erhöhung der Frequenz und Bandbreite pro Takt) und beide Methoden Geld kosten, wird der „Hunger“ der GPU nach Speicher im Laufe der Jahre aufgrund der zunehmenden Auflösung immer ausgeprägter und die Entwicklung von VR bleibt die Verbesserung „kostenloser“ Methoden zur Erhöhung der Bandbreite. Wenn Sie den Bus nicht erweitern und die Frequenz erhöhen können, müssen Sie die Daten komprimieren. In früheren Generationen war die Hardwarekomprimierung bereits implementiert, in Pascal wurde sie jedoch auf ein neues Niveau gehoben. Auch hier verzichten wir auf langweilige Mathematik und nehmen ein vorgefertigtes Beispiel von NVIDIA. Links - Maxwell, rechts - Pascal, werden die Punkte, deren Farbkomponente einer verlustfreien Komprimierung unterzogen wurde, mit Rosa gefüllt.


Anstatt bestimmte Kacheln mit 8x8 Punkten zu übertragen, enthält der Speicher die „durchschnittliche“ Farbe + eine Matrix von Abweichungen davon. Solche Daten nehmen ½ bis ⅛ des ursprünglichen Volumens ein. Bei realen Aufgaben sank die Belastung des Speichersubsystems von 10 auf 30 %, abhängig von der Anzahl der Farbverläufe und der Gleichmäßigkeit der Füllungen in komplexen Szenen auf dem Bildschirm.


Dies schien den Ingenieuren nicht genug, und für die Flaggschiff-Grafikkarte (GTX 1080) wurde Speicher mit erhöhter Bandbreite verwendet: GDDR5X überträgt doppelt so viele Datenbits (keine Anweisungen) pro Takt und produziert gleichzeitig mehr als 10 Gbit/s Gipfel. Die Übertragung von Daten mit solch einer unglaublichen Geschwindigkeit erforderte ein völlig neues Speicherlayout auf der Platine und insgesamt erhöhte sich die Speichereffizienz im Vergleich zu den Flaggschiffen der vorherigen Generation um 60–70 %.

Reduzieren Sie Verzögerungen und Ausfallzeiten

Grafikkarten beschäftigen sich seit langem nicht nur mit der Grafikverarbeitung, sondern auch mit damit verbundenen Berechnungen. Die Physik ist oft an Animationsframes gebunden und bemerkenswert parallel, was bedeutet, dass die Berechnung auf der GPU viel effizienter ist. Der größte Problemgenerator der letzten Zeit ist jedoch die VR-Branche. Viele Spiel-Engines, Entwicklungsmethoden und eine Reihe anderer Technologien zur Arbeit mit Grafiken waren einfach nicht für VR konzipiert, der Fall, dass die Kamera bewegt oder die Position des Kopfes des Benutzers während des Renderns des Frames geändert wurde, wurde einfach nicht verarbeitet. Wenn Sie alles so lassen, wie es ist, führt die Desynchronisation des Videostreams und Ihrer Bewegungen zu Seekrankheitsanfällen und beeinträchtigt lediglich das Eintauchen in die Spielwelt, sodass „falsche“ Frames nach dem Rendern und Starten einfach weggeworfen werden müssen arbeite wieder. Und das sind neue Verzögerungen bei der Darstellung des Bildes auf dem Display. Es hat keinen positiven Einfluss auf die Leistung.

Pascal berücksichtigte dieses Problem und führte einen dynamischen Lastausgleich und die Möglichkeit asynchroner Interrupts ein: Jetzt können Ausführungseinheiten entweder die aktuelle Aufgabe unterbrechen (die Arbeitsergebnisse im Cache speichern), um dringendere Aufgaben zu verarbeiten, oder einfach den unterzeichneten Rahmen zurücksetzen und Starten Sie ein neues, wodurch Verzögerungen bei der Bilderzeugung erheblich reduziert werden. Der Hauptnutznießer hier sind natürlich VR und Spiele, aber diese Technologie kann auch bei allgemeinen Berechnungen helfen: Die Partikelkollisionssimulation erhielt eine Leistungssteigerung von 10–20 %.

Boost 3.0

NVIDIA-Grafikkarten erhielten schon vor langer Zeit, in der 700. Generation auf Basis der Kepler-Architektur, eine automatische Übertaktung. Bei Maxwell wurde die Übertaktung verbessert, war aber gelinde gesagt immer noch mittelmäßig: Ja, die Grafikkarte arbeitete etwas schneller, sofern das Wärmepaket dies zuließ, zusätzlich 20-30 Megahertz für den Kern und 50 -100 für den Speicher, ab Werk verkabelt, ergab eine Steigerung, aber eine kleine . Es hat so funktioniert:


Selbst wenn es einen Spielraum für die GPU-Temperatur gab, stieg die Leistung nicht. Mit dem Aufkommen von Pascal wirbelten Ingenieure diesen staubigen Sumpf auf. Boost 3.0 funktioniert an drei Fronten: Temperaturanalyse, Erhöhung der Taktrate und Erhöhung der On-Chip-Spannung. Jetzt wird der gesamte Saft aus der GPU gepresst: Standard-NVIDIA-Treiber tun dies nicht, aber mit der Software des Anbieters können Sie mit einem Klick eine Profilierungskurve erstellen, die die Qualität Ihrer jeweiligen Grafikkarteninstanz berücksichtigt.

EVGA war einer der ersten auf diesem Gebiet. Sein Dienstprogramm Precision

Fügen Sie hier eine neue Prozesstechnologie, einen Hochgeschwindigkeitsspeicher, alle möglichen Optimierungen und eine Reduzierung des Wärmepakets der Chips hinzu, und das Ergebnis wird einfach unanständig sein. Aus 1500 „Basis“-MHz lässt sich die GTX 1060 auf über 2000 MHz herausquetschen, wenn ein gutes Exemplar rüberkommt und der Anbieter bei der Kühlung keine Fehler macht.

Verbesserung der Bildqualität und Wahrnehmung der Spielwelt

Die Leistung wurde an allen Fronten gesteigert, doch es gibt eine Reihe von Punkten, in denen es seit einigen Jahren keine qualitativen Veränderungen gibt: bei der Qualität des angezeigten Bildes. Dabei geht es nicht um grafische Effekte, die werden von Spieleentwicklern bereitgestellt, sondern darum, was genau wir auf dem Monitor sehen und wie das Spiel für den Endbenutzer aussieht.

Schnelle vertikale Synchronisierung

Das wichtigste Feature von Pascal ist der dreifache Puffer für die Frame-Ausgabe, der gleichzeitig für extrem geringe Verzögerungen beim Rendern sorgt und die vertikale Synchronisation gewährleistet. Das Ausgabebild wird in einem Puffer gespeichert, der zuletzt gerenderte Frame wird im anderen gespeichert und der aktuelle wird im dritten gezeichnet. Auf Wiedersehen horizontale Streifen und Risse, hallo Höchstleistung. Es gibt keine Verzögerungen, die klassisches V-Sync hier bietet (da niemand die Leistung der Grafikkarte einschränkt und sie immer mit der höchstmöglichen Bildrate zeichnet), und nur vollständig geformte Bilder werden an den Monitor gesendet. Ich denke, dass ich nach dem neuen Jahr einen separaten großen Beitrag über V-Sync, G-Sync, Free-Sync und diesen neuen schnellen Synchronisierungsalgorithmus von Nvidia schreiben werde, da sind zu viele Details.

Normale Screenshots

Nein, die Screenshots, die es jetzt gibt, sind einfach nur schade. Fast alle Spiele verwenden eine Menge Technologie, um das Bild in Bewegung erstaunlich und atemberaubend zu machen, und Screenshots sind zu einem echten Albtraum geworden: Anstelle eines atemberaubend realistischen Bildes, das aus Animationen und Spezialeffekten besteht, die die Besonderheiten des menschlichen Sehens ausnutzen, sieht man einige Irgendwie eckig, ich verstehe nicht was, mit seltsamen Farben und einem absolut leblosen Bild.

Die neue NVIDIA Ansel-Technologie löst das Problem mit Screenshots. Ja, seine Implementierung erfordert die Integration von speziellem Code von Spieleentwicklern, aber es gibt ein Minimum an echten Manipulationen, aber der Gewinn ist riesig. Ansel weiß, wie man das Spiel pausiert, die Kontrolle über die Kamera auf Ihre Hände überträgt und dann – Raum für Kreativität. Sie können einfach ein Bild ohne GUI und Ihren Lieblingswinkel aufnehmen.


Sie können eine vorhandene Szene in ultrahoher Auflösung rendern, 360-Grad-Panoramen aufnehmen, sie zu einer Ebene zusammenfügen oder sie in 3D belassen, um sie in einem VR-Helm anzuzeigen. Machen Sie ein Foto mit 16 Bit pro Kanal, speichern Sie es als eine Art RAW-Datei und spielen Sie dann mit Belichtung, Weißabgleich und anderen Einstellungen, damit die Screenshots wieder attraktiv werden. Wir erwarten in ein oder zwei Jahren jede Menge coole Inhalte von Spielefans.

Videotonverarbeitung

Die neuen NVIDIA Gameworks-Bibliotheken bieten Entwicklern zahlreiche Funktionen. Sie zielen hauptsächlich auf VR und die Beschleunigung verschiedener Berechnungen sowie auf die Verbesserung der Bildqualität ab, aber eine der Funktionen ist die interessanteste und erwähnenswerteste. VRWorks Audio bringt die Arbeit mit Ton auf ein völlig neues Niveau, indem es den Ton nicht anhand banaler Durchschnittsformeln je nach Entfernung und Dicke des Hindernisses zählt, sondern eine vollständige Audiosignalverfolgung durchführt, bei der alle Reflexionen aus der Umgebung, Nachhall und Schallabsorption berücksichtigt werden Verschiedene Materialien. NVIDIA hat ein gutes Videobeispiel dafür, wie diese Technologie funktioniert:


Mit Kopfhörern besser schauen

Rein theoretisch steht der Ausführung einer solchen Simulation auf Maxwell nichts im Wege, aber Optimierungen im Hinblick auf die asynchrone Ausführung von Anweisungen und ein neues in Pascals integriertes Interrupt-System ermöglichen die Durchführung von Berechnungen ohne großen Einfluss auf die Bildrate.

Insgesamt Pascal

Tatsächlich gibt es sogar noch mehr Änderungen, und viele davon sind so tief in der Architektur verankert, dass man über jede davon einen langen Artikel schreiben könnte. Die wichtigsten Neuerungen sind das verbesserte Design der Chips selbst, eine Optimierung auf niedrigster Ebene in Bezug auf Geometrie und asynchronen Betrieb mit vollständiger Interrupt-Verarbeitung, viele Funktionen, die auf die Arbeit mit hohen Auflösungen und VR zugeschnitten sind, und natürlich wahnsinnige Frequenzen frühere Generationen von Grafikkarten konnten nicht davon träumen. Vor zwei Jahren überschritt die 780 Ti knapp die 1-GHz-Schwelle, heute läuft die 1080 teilweise auf zwei: Und hier liegt der Verdienst nicht nur in der reduzierten Prozesstechnik von 28 nm auf 16 oder 14 nm: Vieles wird bei optimiert die unterste Ebene, beginnend mit dem Design der Transistoren, endend mit ihrer Topologie und der Ummantelung im Inneren des Chips selbst.

Für jeden Einzelfall

Die Reihe der NVIDIA-Grafikkarten der 10er-Serie erwies sich als wirklich ausgewogen und deckt alle Gaming-Anwenderfälle ziemlich dicht ab, von der Option „Strategie und Diablo spielen“ bis hin zu „Ich möchte Top-Spiele in 4K“. Die Spieletests wurden nach einer einfachen Technik ausgewählt: mit der kleinstmöglichen Menge an Tests ein möglichst breites Testspektrum abzudecken. BF1 ist ein großartiges Beispiel für eine gute Optimierung und ermöglicht es Ihnen, die Leistung von DX11 und DX12 unter denselben Bedingungen zu vergleichen. Aus dem gleichen Grund wurde DOOM ausgewählt, nur um OpenGL und Vulkan zu vergleichen. Der dritte „Witcher“ fungiert hier als mittelmäßig optimiertes Spielzeug, bei dem die maximalen Grafikeinstellungen es ermöglichen, jedes Flaggschiff einfach aufgrund des Scheißcodes zu vermasseln. Es verwendet den klassischen DX11, der sich in den Treibern bewährt und perfekt ausgearbeitet hat und Spieleentwicklern vertraut ist. Overwatch steht bei allen „Turnier“-Spielen mit gut optimiertem Code an erster Stelle, tatsächlich ist es interessant, wie hoch die durchschnittliche FPS in einem Spiel ist, das aus grafischer Sicht nicht sehr umfangreich ist und für die Arbeit im „ „Durchschnittliche“ Konfiguration, die weltweit verfügbar ist.

Ich möchte gleich einige allgemeine Anmerkungen machen: Vulkan ist in Bezug auf den Videospeicher sehr unersättlich, für ihn ist diese Eigenschaft einer der Hauptindikatoren, und Sie werden sehen, dass sich diese These in Benchmarks widerspiegelt. DX12 verhält sich auf AMD-Karten deutlich besser als auf NVIDIA, wenn die „grünen“ einen durchschnittlichen FPS-Rückgang bei neuen APIs zeigen, dann zeigen die „roten“ im Gegenteil einen Anstieg.

Juniorenabteilung

GTX 1050

Der jüngere NVIDIA (ohne die Buchstaben Ti) ist nicht so interessant wie seine aufgeladene Schwester mit den Buchstaben Ti. Seine Bestimmung ist eine Gaming-Lösung für MOBA-Spiele, Strategiespiele, Turnier-Shooter und andere Spiele, bei denen Details und Bildqualität für niemanden von Interesse sind und der Arzt eine stabile Bildrate für minimales Geld verordnet hat.


In allen Bildern gibt es keine Kernfrequenz, da diese für jede Instanz individuell ist: 1050 ohne zusätzliche. Die Leistung reicht möglicherweise nicht aus, und ihre Schwester mit 6-Pin-Anschluss kann problemlos die bedingten 1,9 GHz bewältigen. In Bezug auf Leistung und Länge werden die beliebtesten Optionen angezeigt. Sie können immer eine Grafikkarte mit einer anderen Schaltung oder einer anderen Kühlung finden, die nicht den angegebenen „Standards“ entspricht.

DOOM 2016 (1080p, ULTRA): OpenGL – 68 FPS, Vulkan – 55 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks aus): DX11 – 38 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 49 FPS, DX12 – 40 FPS;
Overwatch (1080p, ULTRA): DX11 – 93 FPS;

Die GTX 1050 verfügt über einen GP107-Grafikprozessor, der von der älteren Karte übernommen wurde, jedoch mit einer leichten Beschneidung der Funktionsblöcke. 2 GB Videospeicher lassen Sie nicht wild werden, aber für E-Sport-Disziplinen und das Spielen einiger Panzer ist es perfekt, da der Preis für eine Junior-Karte bei 9,5 Tausend Rubel beginnt. Zusätzlicher Strom ist nicht erforderlich, die Grafikkarte benötigt lediglich 75 Watt vom Mainboard über den PCI-Express-Steckplatz. Zwar gibt es in diesem Preissegment auch eine AMD Radeon RX460, die mit den gleichen 2 GB Speicher günstiger ist und qualitativ fast nicht minderwertig ist, und für etwa das gleiche Geld bekommt man eine RX460, allerdings mit 4 GB Ausführung. Nicht, dass sie ihm viel geholfen hätten, aber eine Art Reserve für die Zukunft. Die Wahl des Anbieters ist nicht so wichtig, Sie können nehmen, was verfügbar ist, und müssen nicht zusätzliche tausend Rubel aus der Tasche ziehen, die Sie besser für die geschätzten Buchstaben Ti ausgeben.

GTX 1050 Ti

Ungefähr 10.000 für den üblichen 1050 sind nicht schlecht, aber für die aufgeladene (oder volle, wie Sie wollen) Version verlangen sie etwas mehr (im Durchschnitt 1-1,5.000 mehr), aber die Füllung ist viel interessanter . Übrigens wird die gesamte 1050-Serie nicht aus dem Schneiden/Aussortieren von „großen“ Spänen hergestellt, die nicht für 1060 geeignet sind, sondern als völlig eigenständiges Produkt. Es verfügt über einen kleineren Herstellungsprozess (14 nm), eine andere Anlage (die Kristalle werden von der Samsung-Fabrik gezüchtet) und es gibt äußerst interessante Exemplare mit zusätzlichen. Stromversorgung: Das Wärmepaket und der Grundverbrauch sind immer noch die gleichen 75 W, aber das Übertaktungspotenzial und die Möglichkeit, über das Erlaubte hinauszugehen, sind völlig anders.


Wenn Sie weiterhin mit FullHD-Auflösung (1920 x 1080) spielen, kein Upgrade planen und Ihre restliche Hardware nicht älter als 3–5 Jahre ist, ist dies eine großartige Möglichkeit, die Leistung von Spielzeugen mit geringen Verlusten zu steigern. Man sollte sich auf ASUS- und MSI-Lösungen mit zusätzlicher 6-Pin-Stromversorgung konzentrieren, Optionen von Gigabyte sind nicht schlecht, aber der Preis ist nicht so ermutigend.

DOOM 2016 (1080p, ULTRA): OpenGL – 83 FPS, Vulkan – 78 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks aus): DX11 – 44 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 58 FPS, DX12 – 50 FPS;
Overwatch (1080p, ULTRA): DX11 – 104 FPS.

Mittelklasse

Grafikkarten der 60er-Reihe gelten seit langem als die beste Wahl für alle, die nicht viel Geld ausgeben und gleichzeitig alles, was in den nächsten Jahren auf den Markt kommt, mit hohen Grafikeinstellungen spielen möchten. Es begann mit der GTX 260, die es in zwei Versionen gab (einfacher, 192 Stream-Prozessoren und dicker, 216 „Steine“), setzte sich in der 400., 500. und 700. Generation fort, und nun gelangte NVIDIA wieder in eine nahezu perfekte Kombination aus Preisen und Qualität. Wieder sind zwei „mittlere“ Versionen verfügbar: GTX 1060 mit 3 und 6 GB Videospeicher unterscheiden sich nicht nur in der Menge des verfügbaren Arbeitsspeichers, sondern auch in der Leistung.

GTX 1060 3 GB

Königin des E-Sports. Angemessener Preis, erstaunliche Leistung für FullHD (und im eSport wird selten eine höhere Auflösung verwendet: Ergebnisse sind dort wichtiger als schöne Dinge), eine angemessene Menge an Speicher (3 GB für eine Minute gab es vor zwei Jahren im Flaggschiff GTX 780). Ti, was unanständiges Geld kostet). In puncto Leistung übertrifft die jüngere 1060 die letztjährige GTX 970 mit beachtlichen 3,5 GB Speicher deutlich und zerrt das vorletzte Super-Flaggschiff 780 Ti locker an den Ohren.


DOOM 2016 (1080p, ULTRA): OpenGL – 117 FPS, Vulkan – 87 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks aus): DX11 – 70 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 92 FPS, DX12 – 85 FPS;
Overwatch (1080p, ULTRA): DX11 – 93 FPS.

Hier ist der absolute Favorit in Sachen Preis und Leistung die Version von MSI. Gute Frequenzen, leises Kühlsystem und vernünftige Abmessungen. Für sie verlangen sie überhaupt nichts, etwa 15.000 Rubel.

GTX 1060 6 GB

Die 6-GB-Version ist die preisgünstige Eintrittskarte für VR und hohe Auflösungen. Es wird nicht an Speicher mangeln, es ist in allen Tests etwas schneller und wird die GTX 980 souverän übertreffen, bei der die Grafikkarte des letzten Jahres nicht über genügend 4 GB Videospeicher verfügt.


DOOM 2016 (1080p, ULTRA): OpenGL – 117 FPS, Vulkan – 121 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks aus): DX11 – 73 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 94 FPS, DX12 – 90 FPS;
Overwatch (1080p, ULTRA): DX11 – 166 FPS.

Ich möchte noch einmal auf das Verhalten von Grafikkarten bei Verwendung der Vulkan-API hinweisen. 1050 mit 2 GB Speicher – FPS-Abfall. 1050 Ti mit 4 GB – fast gleichauf. 1060 3 GB - Inanspruchnahme. 1060 6 GB - Ergebniswachstum. Ich denke, der Trend ist klar: Vulkan benötigt 4+ GB Videospeicher.

Das Problem ist, dass beide 1060er keine kleinen Grafikkarten sind. Es scheint, dass das Wärmepaket angemessen ist und die Platine dort wirklich klein ist, aber viele Anbieter haben sich entschieden, das Kühlsystem einfach zwischen 1080, 1070 und 1060 zu vereinheitlichen. Jemand hat Grafikkarten mit einer Höhe von 2 Steckplätzen, aber einer Länge von 28+ Zentimetern, jemand hat sie hergestellt sie kürzer, aber dicker (2,5 Schlitze). Wähle mit Bedacht.

Leider kosten zusätzliche 3 GB Videospeicher und eine entsperrte Recheneinheit etwa 5.000 bis 6.000 Rubel zusätzlich zum Preis der 3-GB-Version. In diesem Fall bietet Palit hinsichtlich Preis und Qualität die interessantesten Optionen. ASUS hat monströse 28-cm-Kühlsysteme herausgebracht, die auf 1080, 1070 und 1060 ausgelegt sind, und eine solche Grafikkarte passt nirgendwo hin, Versionen ohne werkseitige Übertaktung kosten fast das gleiche und die Abgase sind geringer, und sie verlangen danach mehr für ein relativ kompaktes MSI als die Konkurrenz bei etwa gleicher Qualität und werkseitiger Übertaktung.

Erste Liga

Im Jahr 2016 um alles Geld zu spielen ist schwierig. Ja, der 1080 ist wahnsinnig cool, aber Perfektionisten und Hardware-Fans wissen, dass NVIDIA die Existenz des Super-Flaggschiffs 1080 Ti verbirgt, der unglaublich cool sein sollte. Die ersten Spezifikationen sind bereits online durchgesickert, und es ist klar, dass die Grünen darauf warten, dass die Rot-Weißen eingreifen: eine Art Superwaffe, die vom neuen König der 3D-Grafik, dem Großen, sofort eingesetzt werden kann und mächtige GTX 1080 Ti. Nun, im Moment haben wir, was wir haben.

GTX 1070

Die letztjährigen Abenteuer der mega-populären GTX 970 und ihres nicht ganz ehrlichen 4-Gigabyte-Speichers wurden aktiv aussortiert und im gesamten Internet aufgesaugt. Das hinderte sie jedoch nicht daran, zur beliebtesten Gaming-Grafikkarte der Welt zu werden. Vor dem Jahreswechsel im Kalender belegt es den ersten Platz in der Steam Hardware & Software Survey. Das ist verständlich: Die Kombination aus Preis und Leistung war einfach perfekt. Und wenn Sie das letztjährige Upgrade verpasst haben und die 1060 nicht knallhart genug zu sein scheint, ist die GTX 1070 Ihre Wahl.

Auflösungen von 2560x1440 und 3840x2160 verdaut die Grafikkarte mit Bravour. Das Boost 3.0-Übertaktungssystem wird versuchen, Brennholz hinzuzufügen, wenn die Belastung der GPU zunimmt (d. h. in den schwierigsten Szenen, wenn die FPS unter dem Ansturm von Spezialeffekten nachlässt) und den Grafikkartenprozessor auf atemberaubende 2100+ übertaktet MHz. Der Speicher erreicht problemlos 15-18 % der effektiven Frequenz über den Werkswerten. Monstersache.


Achtung, alle Tests werden in 2,5k (2560x1440) durchgeführt:

DOOM 2016 (1440p, ULTRA): OpenGL – 91 FPS, Vulkan – 78 FPS;
The Witcher 3: Wild Hunt (1440p, MAX, HairWorks aus): DX11 – 73 FPS;
Battlefield 1 (1440p, ULTRA): DX11 – 91 FPS, DX12 – 83 FPS;
Overwatch (1440p, ULTRA): DX11 – 142 FPS.

Natürlich ist es weder mit dieser Karte noch mit 1080 möglich, Ultra-Einstellungen in 4K herauszuholen und nie unter 60 Bilder pro Sekunde zu fallen, aber Sie können mit bedingten „hohen“ Einstellungen spielen und die gefräßigsten Funktionen vollständig ausschalten oder leicht absenken Auflösung und in puncto tatsächlicher Leistung schlägt die Grafikkarte sogar die letztjährige 980 Ti, die fast doppelt so viel kostete, locker. Gigabyte hat die interessanteste Option: Sie haben es geschafft, einen vollwertigen 1070 in ein ITX-Standardgehäuse zu stopfen. Dank des bescheidenen Wärmepakets und des energieeffizienten Designs. Die Preise für Karten beginnen bei 29.000 bis 30.000 Rubel für köstliche Optionen.

GTX 1080

Ja, das Flaggschiff trägt nicht die Buchstaben Ti. Ja, es wird nicht die größte von NVIDIA verfügbare GPU verwendet. Ja, hier gibt es keinen coolen HBM 2-Speicher und die Grafikkarte sieht nicht aus wie ein Todesstern oder im Extremfall wie ein imperialer Kreuzer der Sternenzerstörer-Klasse. Und ja, es ist derzeit die coolste Gaming-Grafikkarte, die es gibt. Einer nach dem anderen nimmt DOOM auf und führt es mit 5k3k-Auflösung und 60 fps in Ultra-Einstellungen aus. Alle neuen Spielzeuge unterliegen ihm, und in den nächsten ein oder zwei Jahren wird es keine Probleme geben: bis die in Pascal eingebetteten neuen Technologien weit verbreitet sind, bis Spiel-Engines lernen, verfügbare Ressourcen effizient zu laden ... Ja, in ein paar Jahren In den letzten Jahren werden wir sagen: „Sehen Sie sich die GTX 1260 an, vor ein paar Jahren brauchten Sie ein Flaggschiff, um mit diesen Einstellungen zu spielen“, aber im Moment sind die besten Grafikkarten noch vor dem neuen Jahr zu einem sehr vernünftigen Preis erhältlich Preis.


Achtung, alle Tests werden in 4k (3840x2160) durchgeführt:

DOOM 2016 (2160p, ULTRA): OpenGL – 54 FPS, Vulkan – 78 FPS;
The Witcher 3: Wild Hunt (2160p, MAX, HairWorks aus): DX11 – 55 FPS;
Battlefield 1 (2160p, ULTRA): DX11 – 65 FPS, DX12 – 59 FPS;
Overwatch (2160p, ULTRA): DX11 – 93 FPS.

Es bleibt nur die Entscheidung: Brauchen Sie es oder können Sie Geld sparen und 1070 nehmen? Es gibt keinen großen Unterschied zwischen dem Spielen auf „Ultra“ oder „Hoch“-Einstellungen, da moderne Engines auch bei mittlerer Auflösung ein Bild in hoher Auflösung perfekt zeichnen Einstellungen: Schließlich handelt es sich bei uns um keine seifigen Konsolen, die nicht genug Leistung für ehrliches 4K und stabile 60fps bieten können.

Wenn wir die günstigsten Optionen verwerfen, wird Palit in der GameRock-Version erneut die beste Kombination aus Preis und Qualität haben (ca. 43-45.000 Rubel): Ja, das Kühlsystem ist „dick“, 2,5 Steckplätze, aber die Grafikkarte ist kürzer als die Konkurrenz, und ein Paar 1080 wird selten verbaut. SLI stirbt langsam, und selbst die lebensspendende Injektion von Hochgeschwindigkeitsbrücken hilft ihm nicht viel. Die ASUS ROG-Option ist nicht schlecht, wenn Sie viele Extras installiert haben. Sie möchten keine zusätzlichen Erweiterungssteckplätze verdecken: Ihre Grafikkarte ist genau 2 Steckplätze dick, benötigt aber von der Rückwand bis zum Festplattenkorb 29 Zentimeter freien Platz. Ich frage mich, ob Gigabyte dieses Monster im ITX-Format veröffentlichen kann?

Ergebnisse

Neue NVIDIA-Grafikkarten haben gerade den Markt für gebrauchte Hardware begraben. Darauf ist nur noch die GTX 970 erhalten, die für 10-12.000 Rubel zu ergattern ist. Potenzielle Käufer von gebrauchten 7970 und R9 280 haben oft keine Möglichkeit, sie abzustellen und füttern sie einfach nicht, und viele Optionen auf dem Zweitmarkt sind einfach aussichtslos und als günstiges Upgrade für ein paar Jahre im Voraus taugen sie nicht: Es gibt wenig Speicher, neue Technologien werden nicht unterstützt. Das Schöne an der neuen Generation von Grafikkarten ist, dass selbst Spiele, die nicht für sie optimiert sind, viel besser laufen als auf den erfahrenen GPU-Charts der vergangenen Jahre, und es ist schwer vorstellbar, was in einem Jahr passieren wird, in dem Spiele-Engines lernen, das volle Potenzial auszuschöpfen Kraft neuer Technologien.

GTX 1050 und 1050Ti

Leider kann ich den Kauf des günstigsten Pascal nicht empfehlen. Die RX 460 wird normalerweise für ein oder zwei Tausend weniger verkauft, und wenn Ihr Budget so begrenzt ist, dass Sie „für die neueste“ eine Grafikkarte nehmen, dann ist die Radeon objektiv gesehen eine interessantere Investition. Andererseits ist 1050 etwas schneller, und wenn die Preise für diese beiden Grafikkarten in Ihrer Stadt fast gleich sind, nehmen Sie sie.

1050Ti wiederum ist eine tolle Option für alle, denen Story und Gameplay wichtiger sind als Schnickschnack und realistische Nasenhaare. Es gibt keinen Engpass in Form von 2 GB Videospeicher, es wird auch nach einem Jahr nicht „ausfallen“. Sie können Geld darauf setzen – tun Sie es. The Witcher auf hohen Einstellungen, GTA V, DOOM, BF 1 – kein Problem. Ja, auf einige Verbesserungen wie extra lange Schatten, komplexe Tessellation oder die „teure“ Berechnung selbstschattender Modelle mit eingeschränktem Raytracing muss man zwar verzichten, aber im Eifer des Gefechts wird man diese Schönheiten vergessen Nach 10 Minuten Spielzeit ergeben stabile 50-60 Bilder pro Sekunde einen viel intensiveren Effekt als nervöse Sprünge von 25 auf 40, jedoch mit Einstellungen auf „Maximum“.

Wenn Sie Radeon 7850-, GTX 760- oder jüngere Grafikkarten mit 2 GB Videospeicher oder weniger haben, können Sie bedenkenlos wechseln.

GTX 1060

Die jüngere 1060 wird diejenigen erfreuen, denen eine Bildrate von 100 FPS wichtiger ist als Grafikschnickschnack. Gleichzeitig ermöglicht es Ihnen, alle veröffentlichten Spielzeuge bequem in FullHD-Auflösung mit hohen oder maximalen Einstellungen und stabilen 60 Bildern pro Sekunde abzuspielen, und der Preis unterscheidet sich stark von allem, was danach kommt. Die ältere 1060 mit 6 Gigabyte Speicher ist eine kompromisslose Lösung für FullHD mit einem Leistungsspielraum von ein bis zwei Jahren, Vertrautheit mit VR und einem durchaus akzeptablen Kandidaten für das Spielen in hohen Auflösungen bei mittleren Einstellungen.

Es macht keinen Sinn, die GTX 970 gegen eine GTX 1060 zu tauschen, das dauert noch ein Jahr. Aber die lästigen 960, 770, 780, R9 280X und älteren Geräte können bedenkenlos auf 1060 aktualisiert werden.

Top-Segment: GTX 1070 und 1080

Es ist unwahrscheinlich, dass die 1070 so beliebt wird wie die GTX 970 (dennoch haben die meisten Benutzer alle zwei Jahre einen eisernen Update-Zyklus), aber preislich und qualitativ ist sie auf jeden Fall eine würdige Fortsetzung der 70er-Reihe. Es schleift Spiele einfach mit Mainstream-1080p, bewältigt problemlos 2560 x 1440, übersteht die Tortur eines nicht optimierten 21 zu 9 und ist durchaus in der Lage, 4k anzuzeigen, wenn auch nicht bei maximalen Einstellungen.


Ja, SLI kann auch so sein.

Wir verabschieden uns von allen 780 Ti, R9 390X und anderen letztjährigen 980ern, insbesondere wenn wir in High Definition spielen wollen. Und ja, das ist die beste Option für diejenigen, die gerne eine verdammt gute Box im Mini-ITX-Format bauen und Gäste mit 4K-Spielen auf einem 60-70-Zoll-Fernseher erschrecken, der auf einem Computer in der Größe einer Kaffeemaschine läuft.
GTX 1050-Grafikkartenverlauf Tags hinzufügen

NVIDIA bereitet die Veröffentlichung einer neuen Serie von Gaming-Grafikkarten vor, die mit der GeForce GTX 1080 eröffnet wird. Dieses Modell wird das erste Produkt der Gaming-Klasse sein, das auf der Pascal-Architektur basiert. Die GeForce GTX 1080 wird eine Reihe technologischer Neuerungen mit sich bringen, auf die wir in diesem Artikel eingehen. Das Material wird theoretischer Natur sein und die architektonischen Merkmale und neuen Funktionen der GeForce GTX 1080 besprechen. Tests und Vergleiche mit anderen Grafikkarten folgen später.

Die rasanten Fortschritte bei der Miniaturisierung von Siliziumchips in den letzten Jahren haben sich verlangsamt. Intel gab sogar die Tick-Tock-Strategie auf, die einen regelmäßigen Übergang zu einer dünneren Prozesstechnologie beinhaltete. Mehrere Generationen von NVIDIA- und AMD-Produkten haben sich im Rahmen einer 28-nm-Prozesstechnologie auf dem Grafikbeschleunigermarkt verändert. Dies war zum Teil von Vorteil und zwang die Hersteller, der Entwicklung der Architektur mehr Aufmerksamkeit zu schenken. Dieser qualitative Übergang war einst deutlich sichtbar, als man von der Kepler- zur Maxwell-Architektur wechselte, als sich die neue Generation als produktiver und energieeffizienter erwies, ohne die Anzahl der Transistoren zu erhöhen oder gar die Größe der Kristalle zu verringern. Beispielsweise basiert die GeForce GTX 980 auf einem kompakteren GM204-Chip, was die Grafikkarte nicht daran hindert, eine höhere Leistung im Vergleich zur GeForce GTX 780 Ti mit einem komplexeren GK110-Chip zu zeigen.

Die neue GeForce-Generation erhält sowohl eine neue Architektur als auch eine dünnere Prozesstechnologie. Und die GeForce GTX 1080 ist in vielerlei Hinsicht ein Vorreiter. Dies ist die erste GPU mit Pascal-Architektur und GP104-GPU, die auf der 16-nm-FinFET-Prozesstechnologie basiert. Zu den wichtigen Neuerungen zählt NVIDIA den schnellen GDDR5X-Speicher. Neue technologische Funktionen ermöglichen es Ihnen, die Frequenzen auf Rekordniveau anzuheben und so ein neues Niveau der „Meisterschaft“ zu definieren. Und neue Gaming-Technologien erweitern die Möglichkeiten von GeForce, insbesondere im Bereich der Arbeit mit VR-Inhalten. Dies sind die fünf Hauptmerkmale, die der Hersteller bei einem neuen Produkt hervorhebt.

Es ist erwähnenswert, dass zunächst der spezialisierte Computerbeschleuniger Tesla P100 zum Pionier der Pascal-Architektur wurde. Es basiert auf dem GP100-Prozessor. Da sich das Produkt aber auf einen völlig anderen Anwendungsbereich konzentriert, ist die GeForce GTX 1080 der Vorreiter unter den Desktop-Grafikbeschleunigern.

GPU GP104 ist der Nachfolger von GM204, sodass Sie beim Studium der GeForce GTX 1080 auf der GeForce GTX 980 aufbauen können, obwohl der Neuling schneller ist als die GeForce GTX 980 Ti und GeForce GTX Titan X. Pascal-Prozessoren verwenden eine ähnliche Clusterstruktur ihre Vorgänger, bei denen der GPC-Cluster (Graphics Processing Cluster) im Wesentlichen eine unabhängige Recheneinheit ist. Der GP100 basiert auf sechs Clustern, der GP104 verfügt über vier Cluster und der nächste GP106-Chip soll zwei Cluster erhalten. Vier GPCs machen die neue GP104-GPU so nah wie möglich an der GM204. Und auch das Blockschaltbild dieses Chips ähnelt einem alten Prozessor.

Strukturelle Unterschiede fallen bei näherer Betrachtung auf. In der letzten Generation umfasste der Cluster vier große Multiprozessor-SMM-Einheiten. Beim GP104 sind die unteren Ausführungseinheiten in fünf SM-Multiprozessoreinheiten zusammengefasst. Jeder dieser großen Datenverarbeitungseinheiten ist eine eigene Polymorph Engine-Geometrieverarbeitungseinheit zugeordnet, von denen es jetzt 20 statt 16 beim GM204 gibt.

Ein SM ist in vier Datenverarbeitungs-Arrays mit eigener Steuerlogik unterteilt, was auch der Struktur älterer GPUs ähnelt. Und in beiden Fällen arbeitet der Multiprozessor mit 128 Streaming-Kernen (CUDA-Kernen). Der SM verfügt über 96 KB gemeinsamen Cache, einen separaten Textur-Cache und acht Textureinheiten. Infolgedessen haben wir eine Konfiguration von 2560 Stream-Prozessoren und 160 Textureinheiten. Der neue Prozessor verfügt über 64 ROPs und 2 MB L2-Cache – es gibt keine Unterschiede zum GM204.

Es gibt mehr Speichercontroller, Pascal hat das gesamte Speichersubsystem geändert. Anstelle von vier 64-Bit-Controllern sind acht 32-Bit-Controller implementiert, was eine Speicherbusbreite von 256 Bit ermöglicht. Nach der erfolgreichen GeForce GTX 980 ist ein solcher Speicherbus in einem Spitzenprodukt keine Überraschung mehr. Gleichzeitig ist die Buseffizienz der GeForce GTX 1080 durch neue Datenkomprimierungsalgorithmen höher. Für die Durchsatzsteigerung sorgen auch Mikroschaltungen des neuen GDDR5X-Standards, bei denen der effektive Datenaustauschwert einer Frequenz von 10 GHz entspricht. Herkömmlicher GDDR5-Speicher war auf Frequenzen bis 7 GHz beschränkt. Der Videopuffer wurde auf 8 GB erhöht.

Dank der neuen Prozesstechnologie ist der GP104 kompakter als der GM204 mit mehr Recheneinheiten. Gleichzeitig bietet der neue Prozessor mehr Möglichkeiten zur Frequenzerhöhung. Ursprünglich war der Basiswert auf 1607 MHz eingestellt, mit einem durchschnittlichen Boost-Takt von 1733 MHz. Die Spitzenfrequenzwerte sind sogar noch höher. Bei solchen Rekordfrequenzen passt die GeForce GTX 1080 in eine TDP von 180 W, die etwas höher ist als die GeForce GTX 980. Allerdings ist der Neuling schneller als die Top-Ti-Version, die eine spürbar höhere TDP hat.

Für einen visuellen Vergleich fassen wir die Eigenschaften der GeForce GTX 1080 und der Top-End-Grafikkarten früherer Generationen in einer Tabelle zusammen.

Videoadapter GeForce GTX 1080 GeForce GTX Titan X GeForce GTX 980 Ti GeForce GTX 980 GeForce GTX 780 Ti
Kern GP104 GM200 GM200 GM204 GK110
Anzahl der Transistoren, Millionen Stück 7200 8000 8000 5200 7100
Prozesstechnik, nm 16 28 28 28 28
Kernfläche, qm mm 314 601 601 398 561
Anzahl der Stream-Prozessoren 2560 3072 2816 2048 2880
Anzahl der Texturblöcke 160 192 176 128 240
Anzahl der Rendereinheiten 64 96 96 64 48
Kernfrequenz, MHz 1607-1733 1000-1075 1000-1075 1126-1216 875-926
Speicherbus, Bit 256 386 386 256 384
Speichertyp GDDR5X GDDR5 GDDR5 GDDR5 GDDR5
Speicherfrequenz, MHz 10010 7010 7010 7010 7010
Speichergröße, MB 8192 12288 6144 4096 3072
Unterstützte Version von DirectX 12.1 12.1 12.1 12.1 12.0
Schnittstelle PCI-E3.0 PCI-E3.0 PCI-E3.0 PCI-E3.0 PCI-E3.0
Kraft, W 180 250 250 165 250

NVIDIAs Mittelklasse- und High-End-Grafikkarten verfügen seit langem über die GPU-Boost-Technologie, die die Frequenz der GPU erhöht, bis sie Temperatur- oder Leistungsgrenzen überschreitet. Der Mindestwert für den 3D-Modus ist die Grundfrequenz, bei normaler Gaming-Last sind die Frequenzen jedoch oft immer höher. Die neuen GeForces erhielten eine verbesserte GPU-Boost-3.0-Technologie mit einem flexibleren Algorithmus zum Ändern der Frequenz abhängig von der Versorgungsspannung im Frequenzbeschleunigungsmodus. GPU Boost 2.0 hat einen festen Unterschied zwischen dem Basiswert und der Turbo-Frequenz. Mit GPU Boost 3.0 können Sie unterschiedliche Frequenzoffsets verwenden, wodurch das Potenzial der GPU besser zur Geltung kommt. Theoretisch ändert sich die Frequenz nichtlinear, wenn Parameter im Boost-Modus bei einer Erhöhung oder Verringerung der Spannung automatisch geändert werden. An einigen Stellen kann das Boost-Delta größer sein als bei GPU Boost alte Version. Den Benutzern stehen neue flexible Boost-Anpassungsoptionen zur Verfügung. Die neueste Version des EVGA Precision Utility unterstützt bereits die GeForce GTX 1080, zu seinen Features gehört ein automatischer Scanner mit Stabilitätstest, der eine nichtlineare Boost-Frequenzkurve für verschiedene Spannungen generieren kann. Durch den Übergang zu einer neuen Prozesstechnologie und die Optimierung der Kernstruktur konnte eine so deutliche Frequenzbeschleunigung erreicht werden, dass der maximale Boost gegenüber den angegebenen Werten auf 2 GHz erhöht werden kann.

Seit der Einführung von GDDR5 arbeitet NVIDIA an der nächsten Generation von Hochgeschwindigkeitsspeichern. Das Ergebnis der Interaktion mit Speicherentwicklern war das Erscheinen von GDDR5X mit einer Datenübertragungsrate von 10 Gbit/s. Die Arbeit mit einem so schnellen Speicher stellt neue Anforderungen an die Verkabelung elektrischer Schaltkreise. Daher wurden die Datenübertragungsleitungen zwischen GPU und Speicherchips neu gestaltet und die Struktur des Chips selbst geändert. All dies ermöglicht Ihnen ein effektives Arbeiten mit einem ultraschnellen Videopuffer. Zu den Vorteilen von GDDR5X gehört eine niedrigere Betriebsspannung von 1,35 V.

Bei einer effektiven Speicherfrequenz von 10.000 MHz beträgt die Steigerung der Bandbreite gegenüber den üblichen 7012 MHz der aktuellen Generation fast 43 %. Aber die Vorteile von Pascal hören hier nicht auf. GeForce unterstützt spezielle Algorithmen zur Datenkomprimierung im Speicher, was eine effizientere Nutzung des Caches und die Übertragung von mehr Daten bei gleicher Bandbreite ermöglicht. Es werden mehrere Techniken unterstützt, je nach Datentyp wird ein anderer Komprimierungsalgorithmus ausgewählt. Eine wichtige Rolle spielt der Delta-Farbkomprimierungsalgorithmus. Dank ihm wird nicht die Farbe jedes einzelnen Pixels kodiert, sondern der Unterschied zwischen den Pixeln bei der seriellen Datenübertragung. Es werden einige durchschnittliche Kachelfarben- und Farbversatzdaten für jedes Pixel dieser Kachel berechnet.

Diese Komprimierung macht Maxwell hochproduktiv, Pascal ist jedoch noch effizienter. Die GP104-GPU unterstützt außerdem neue Algorithmen mit noch stärkerer Komprimierung für Fälle, in denen der Farbunterschied minimal ist.

Als Beispiel nennt NVIDIA zwei Folien aus dem Spiel Project CARS. Die Kacheln, auf denen die Datenkomprimierung angewendet wurde, sind rosa eingefärbt. Die obere Folie zeigt die Kompressionsarbeit bei Maxwell, die untere bei Pascal.

Wie Sie sehen, wird die Pascal-Komprimierung auch auf die Bereiche angewendet, in denen sie bei Maxwell nicht durchgeführt wird. Dadurch wurde fast der gesamte Rahmen komprimiert. Natürlich hängt die Effizienz solcher Algorithmen von der jeweiligen Szene ab. Laut NVIDIA liegt der Unterschied in dieser Effizienz zwischen der GeForce GTX 1080 und der GeForce GTX 980 zwischen 11 % und 28 %. Wenn wir 20 % als Durchschnittswert annehmen, beträgt die resultierende Steigerung des Durchsatzes unter Berücksichtigung der Erhöhung der Speicherfrequenzen etwa 70 %.

Die nächste Generation von GeForce unterstützt Async Compute mit verbesserter Rechenauslastung verschiedene Typen Aufgaben. In modernen Spielen können GPUs neben dem Rendern von Bildern auch andere Aufgaben ausführen. Dies kann die Berechnung der Physik von Körpern, Bildnachbearbeitung und eine spezielle Technik der asynchronen Zeitverzerrung (Asynchronous Time Warp) für den Virtual-Reality-Modus sein. Bei der Ausführung verschiedener Aufgaben sind nicht immer alle Recheneinheiten beteiligt und die Ausführung jeder Aufgabe kann unterschiedlich lange dauern. Wenn beispielsweise nicht-grafische Berechnungen länger dauern als grafische Berechnungen, wartet es immer noch auf den Abschluss jedes Prozesses, um zu neuen Aufgaben zu wechseln. Gleichzeitig steht ein Teil der GPU-Ressourcen im Leerlauf. Pascal führte den dynamischen Lastausgleich ein. Wenn eine Aufgabe früher abgeschlossen wurde, werden die freigewordenen Ressourcen mit einer anderen Aufgabe verknüpft.

Somit ist es möglich, Ausfallzeiten zu vermeiden und die Gesamtleistung bei gleichzeitiger Belastung der GPU zu steigern. Bei einer solchen Belastung spielt auch die Geschwindigkeit des Aufgabenwechsels eine wichtige Rolle. Pascal unterstützt Aufgabenunterbrechungen auf verschiedenen Ebenen für den schnellstmöglichen Wechsel. Wenn ein neuer Befehl empfangen wird, unterbricht der Prozessor Aufgaben auf der Pixel- und Stream-Verarbeitungsebene, speichert ihren Status zur weiteren Fertigstellung und die Recheneinheiten werden für eine neue Aufgabe übernommen. Pascal unterstützt Interrupts auf Befehlsebene, Maxwell und Kepler nur auf Thread-Ebene.

Durch die Unterbrechung auf verschiedenen Ebenen können Sie den Zeitpunkt des Aufgabenwechsels genauer bestimmen. Dies ist wichtig für die Asynchronous Time Warp-Technik, die ein bereits erstelltes Bild verformt, bevor es zur Korrektur entsprechend der Position des Kopfes ausgegeben wird. Bei Asynchronous Time Warp ist eine schnelle Umschaltung unbedingt erforderlich, bevor das Bild angezeigt wird, da sonst Artefakte in Form von „Jitter“ des Bildes möglich sind. Pascal meistert diese Aufgabe am besten.

Pascal führte Hardware-Unterstützung für die Multiprojektionstechnologie ein, die es ermöglicht, gleichzeitig mit verschiedenen Bildprojektionen zu arbeiten. Sonderblock Die gleichzeitige Mehrfachprojektion innerhalb der PolyMorph Engine ist für die Generierung unterschiedlicher Projektionen bei der Verarbeitung eines einzelnen Geometriestroms verantwortlich. Dieser Block verarbeitet gleichzeitig Geometrie für 16 Projektionen mit einem oder zwei perspektivischen Zentren. Dies erfordert keine erneute Geometrieverarbeitung und ermöglicht die Replikation von Daten bis zu 32 Mal (16 Projektionen durch zwei Punkte).

Dank der Technologie können Sie bei Konfigurationen mit mehreren Monitoren das richtige Bild erhalten. Bei Verwendung von drei Monitoren wird das Bild für eine Projektion gerendert. Wenn die Randmonitore leicht gedreht werden, um einen Ambience-Effekt zu erzeugen, entsteht eine falsche Geometrie in den Seitenzonen. Durch die Mehrfachprojektion wird das richtige Bild erzeugt und entsprechend dem Winkel des Monitors die richtige Projektion erstellt. Die einzige Bedingung für diesen Modus ist, dass die Anwendung selbst ein breites Sichtfeld unterstützt.

Diese Bildgebungstechnik ermöglicht die effizienteste Nutzung gebogener Panels und eröffnet auch Möglichkeiten für die korrekte Darstellung auf anderen Anzeigegeräten, sogar auf einem sphärischen Bildschirm.

Diese Technologie erweitert die Fähigkeiten von Pascal bei der Bildung eines Stereobildes und in Virtual-Reality-Systemen (VR). Im Stereomodus werden für jedes Auge zwei Bilder derselben Szene erzeugt. Durch die Hardware-Unterstützung für Simultaneous Multi-Projection können Sie jede Projektion für Ihr Auge mit einer einzigen Geometrieverarbeitung mithilfe der Single Pass Stereo-Technologie erstellen. Und es beschleunigt die Arbeit in diesem Modus erheblich.

In VR-Systemen verwendet der Benutzer eine Brille mit speziellen Linsen, die bestimmte Verzerrungen hervorrufen. Um dies zu kompensieren, wird das Bild an den Rändern leicht verformt, und der Benutzer sieht schließlich das durch das Objektiv korrigierte Bild. Doch zunächst skizziert die Grafikkarte das Bild in der üblichen Flachprojektion, dann verschwindet ein Teil des Randbildes.

Die Lens Matched Shading-Technologie kann ein Bild in vier Quadranten aufteilen und dann Pixel abtasten. Das heißt, das Bild wird zunächst auf mehrere Ebenen projiziert, die die gekrümmte Form der Linse simulieren.

Das endgültige Bild wird mit einer niedrigeren Auflösung gerendert, unnötige Bereiche werden abgeschnitten. Anfänglich hat das Oculus Rift-Bild 1,1 Megapixel pro Auge, die ursprüngliche flache Projektion wird jedoch mit 2,1 Megapixeln gerendert. Dank Lens Matched Shading beträgt das Ausgangsbild 1,4 Megapixel. Dadurch können Sie die Leistung im VR-Modus deutlich steigern.

Virtuelle Realität ist eine vielversprechende Richtung, die das Erlebnis der Interaktion mit der virtuellen Umgebung erweitert und den Spielern neue Eindrücke vermittelt. NVIDIA unterstützt aktiv die Entwicklung von VR. Einer der limitierenden Faktoren für die Popularisierung von VR-Systemen sind die hohen Leistungsanforderungen des Grafikbeschleunigers. Spezielle Technologien und Hardwareoptimierung tragen zu einer qualitativen Leistungssteigerung in dieser Richtung bei. Das Unternehmen hat einen umfassenden Satz VRWorks aus speziellen APIs, Bibliotheken und Software-Engines veröffentlicht. Es enthält Werkzeuge für die Arbeit mit Single Pass Stereo und Lens Matched Shading. Es enthält außerdem die MultiRes Shading-Technologie, mit der Sie die Auflösung in den Seitenzonen während des VR-Renderings ändern können, um die Belastung zu reduzieren.

Die Wirkung von Präsenz wird nicht nur mit visuellen Empfindungen, sondern auch mit anderen Sinnen in Verbindung gebracht. Auch der Ton spielt eine wichtige Rolle. Aus diesem Grund hat NVIDIA die VRWorks Audio-Technologie entwickelt, um realistischen Klang basierend auf der Position der Quelle zu erzeugen. Schallwellen und Reflexionen von Oberflächen. Die Technologie nutzt die OptiX-Engine, die ursprünglich zum Rendern von Beleuchtung mithilfe der Raytracing-Methode verwendet wurde. Verfolgt den Weg der Schallstrahlen von der Quelle zu den reflektierenden Oberflächen und zurück. Mit dieser progressiven Methode können Sie unter Berücksichtigung der akustischen Eigenschaften des virtuellen Raums und unter Einbeziehung reflektierter Klänge einen realistischen Klang erzeugen. Erfahren Sie mehr über NVIDIA VRWorks Audio im Video:

Sie können den Immersionseffekt verstärken, indem Sie mit der virtuellen Umgebung interagieren. Jetzt wird Interaktivität durch Positionsverfolgung und Verfolgung von Handcontrollern implementiert. Basierend auf PhysX wurde ein Mechanismus erstellt, der bestimmt, ob es beim virtuellen Kontakt mit dem einen oder anderen Objekt zu einer Interaktion kommt. Außerdem können Sie mit PhysX physikalisch zuverlässige Effekte implementieren, wenn Sie einer virtuellen Umgebung ausgesetzt sind.

Die neue Generation von Grafikkarten unterstützt VR SLI. Dieser Modus sieht vor, dass im VR-Modus eine separate GPU das Bild für jedes Auge verarbeitet. Diese Methode eliminiert Verzögerungen während des SLI-Betriebs und sorgt für eine bessere Leistung. Die Unterstützung für VR SLI wird in Unreal Engine 4 und Unity implementiert, was uns auf eine stärkere Popularisierung dieser Technologie mit zunehmender Verfügbarkeit von Virtual-Reality-Systemen hoffen lässt.

Auch die Simple-SLI-Technologie wurde aktualisiert. Ältere GeForce-Grafikkarten hatten immer zwei Anschlüsse für SLI-Brücken. Diese Brücken werden benötigt, um alle Grafikkarten im 3-Wege- und 4-Wege-SLI-Modus miteinander zu schalten. Beim einfachen SLI können nun zwei Grafikkarten zwei Kommunikationsschnittstellen gleichzeitig nutzen, wodurch der Gesamtdurchsatz erhöht wird.

Die neue Schaltmethode erfordert neue SLI HB-Doppelbrücken. Die Unterstützung für den Shared-Modus bei Verbindung über eine einfache einzelne Bridge bleibt erhalten. Die Dual Bridge empfiehlt sich für hohe Auflösungen – 4K-, 5K- und Multi-Monitor-Systeme. Speed ​​Bridging wird auch bei 2K mit einem 120-Hz-Monitor oder schneller empfohlen. In einfacheren Modi können Sie mit einer Brücke im alten Stil auskommen.

Die GeForce GTX 1080 hat die Geschwindigkeit der Schnittstelle selbst erhöht – von 400 MHz auf 650 MHz. Es kann mit neuen Bridges und einigen Versionen des alten Formats implementiert werden. Die Erhöhung der Datenrate in SLI sorgt für sanftere Bildwechsel und eine gewisse Leistungssteigerung in schweren Modi.

Die Multi-GPU-Rendering-Funktionen in DirectX 12 wurden verbessert. Mit solchen Konfigurationen werden zwei Haupttypen von Arbeiten unterstützt: Multi Display Adapter (MDA) und Linked Display Adapter (LDA). Mit der ersten können Sie mit verschiedenen GPUs zusammenarbeiten und dabei das Potenzial integrierter und externer Grafiken kombinieren. LDA ist darauf ausgelegt, ähnliche Lösungen zu teilen. Implizites LDA wird im Wesentlichen in SLI verwendet, was eine breite Kompatibilität mit Anwendungen auf Softwareebene bietet. Explizites LDA und MDA bieten Entwicklern mehr Optionen, es liegt jedoch an ihnen, diesen Modus in jeder Anwendung sicherzustellen.

Erwähnenswert ist auch, dass die SLI-Unterstützung offiziell nur in einer Konfiguration mit zwei GeForce GTX 1080 angekündigt wird. Komplexere Konfigurationen sind theoretisch in den Modi Explicit LDA und MDA möglich. Interessanterweise bietet NVIDIA gleichzeitig an, den 3-Wege- und 4-Wege-Modus mit einem speziellen Code für Enthusiasten freizuschalten. Dazu müssen Sie auf der Website des Unternehmens eine spezielle Anfrage nach der Kennung Ihrer GPU stellen.

Der GP104-GPU wurde Fast-Sync-Unterstützung hinzugefügt. Diese Technologie ist eine Alternative zum Ein- oder Ausschalten von V-Sync. Bei rasanten Spielen (insbesondere Multiplayer-Spielen) sorgen hohe Bildraten für maximale Reaktionsfähigkeit auf Benutzeraktionen. Wird jedoch die Bildwiederholfrequenz des Monitors überschritten, sind Artefakte in Form von Bildbrüchen möglich. Dadurch wird die vertikale Synchronisierung neutralisiert, was zu einer gewissen Verzögerung führt. Mit Fast Sync können Sie die maximale Anzahl an Bildern ohne mögliche Lücken anzeigen. Dies wird durch Hardwareänderungen in der Bildausgabepipeline bereitgestellt. Anstelle des herkömmlichen Doppelpuffers wird ein Dreifachpuffer verwendet und nur der vollständig gerenderte Frame wird ausgegeben.

Mit Fast Sync können Sie auf einem normalen Monitor mit 100–200 fps ohne visuelle Artefakte und mit minimalen Verzögerungen spielen, wie im normalen Modus mit deaktiviertem VSync. Nachfolgend finden Sie die Ergebnisse einer Studie zu Verzögerungen bei der Anzeige eines Bildes verschiedene Modi im Spiel Counter-Strike: Global Offensive.

Wie Sie sehen, gibt es einen leichten Unterschied zwischen Fast Sync und deaktiviertem VSync, dieser ist jedoch nicht mit Frame-Ausgabeverzögerungen bei aktivem VSync zu vergleichen.

Wenn wir nicht von maximaler Reaktionsfähigkeit, sondern von maximaler Bildglätte sprechen, dann sorgt dafür die G-Sync-Technologie, die in Verbindung mit speziellen Monitoren umgesetzt wird. G-Sync sorgt für eine vollständige Hardware-Synchronisierung der angezeigten Frames mit der Bildschirmaktualisierungsrate.

Die GeForce GTX 1080 kann über DVI, HDMI und DisplayPort ausgeben. DisplayPort 1.2 und HDMI 2.0b mit HDCP 2.2 werden unterstützt, die Grafikkarte ist aber auch für DisplayPort 1.3/1.4 vorbereitet. Bei letzterem kann über zwei DisplayPort-1.3-Kabel 4K bei 120Hz oder 8K (7680x4320) bei 60Hz ausgegeben werden. Zum Vergleich ist zu beachten, dass die GeForce GTX 980 bei Umschaltung über zwei DisplayPort-Kabel nur 5120x3200 ausgeben kann.

Die GeForce GTX 1080 ist in der Standardversion mit drei DisplayPort-Anschlüssen, einem HDMI und einem Dual-Link-DVI ausgestattet.

Der GP104-Prozessor erhielt einen verbesserten Video-Dekodierungs-/Kodierungsblock mit Unterstützung für den PlayReady 3.0-Standard (SL3000) und HEVC-Hardware-Dekodierung mit Unterstützung für hochwertiges 4K/8K-Video. Die vollständigen Fähigkeiten der GeForce GTX 1080 im Vergleich zur GeForce GTX 980 sind in der folgenden Tabelle aufgeführt.

In der Liste der Neuerungen steht die GeForce GTX 1080-Unterstützung für HDR-Inhalte und -Anzeigen. Dieser Standard stellt einen großen technologischen Durchbruch dar und bietet eine Abdeckung des sichtbaren Farbraums von 75 % anstelle von 33 % für RGB bei 10/12 Bit Farbtiefe. Solche Displays zeigen mehr Farbtöne an, haben eine höhere Helligkeit und einen stärkeren Kontrast, sodass Sie subtilere Farbnuancen erkennen können. Derzeit sind bereits HDR-fähige Fernseher auf dem Markt, Monitore werden nächstes Jahr erwartet.

Zusätzlich zur HDR-Dekodierung wird auch Hardware-Kodierung unterstützt, die es Ihnen ermöglicht, Videos dieses Standards aufzunehmen. Und die HDR-Streaming-Funktion für die Shield-Spielekonsole wird in Kürze hinzugefügt.

NVIDIA arbeitet mit Entwicklern zusammen, um HDR auf PC-Spiele zu übertragen. Infolgedessen erhalten Rise of the Tomb Raide, Tom Clancy’s The Division, The Talos Principle, Paragon, der zweite Teil von Shadow Warrior und andere Spiele HDR-Unterstützung.

Das moderne Gaming verändert sich, die Spieler zeigen neue Interessen und den Wunsch, ihr Lieblingsspiel aus einem neuen Blickwinkel zu betrachten. Manchmal wird aus einem gewöhnlichen Screenshot mehr als nur ein einfacher Frame aus dem Spiel. Und mit NVIDIA Ansel kann jeder Screenshot außergewöhnlich sein. Dabei handelt es sich um eine neue Technologie zur Bildaufnahme mit einer Reihe besonderer Funktionen. Mit Ansel können Sie Filter anwenden, das Bild verbessern, eine kostenlose Kamera verwenden und Panoramen erstellen. Für die volle Funktionalität ist Anwendungsunterstützung erforderlich. Zu diesem Zweck bietet Ansel eine einfache Integration. Um beispielsweise Ansel in The Witcher 3 zu integrieren, fügten die Entwickler nur 150 Zeilen Code hinzu, und das Logikspiel Witness benötigte 40 Zeilen Code.

Ansel versetzt das Spiel in den Pausenmodus und ermöglicht Ihnen dann die Durchführung verschiedener Vorgänge. Sie können beispielsweise die Kamera wechseln und einen beliebigen Blickwinkel wählen. Einige Einschränkungen sind nur möglich, wenn die Entwickler die Bewegung der freien Kamera bewusst einschränken.

Sie können die Auflösung des endgültigen Bildes erhöhen und den LOD-Level erhöhen, um maximale Klarheit in allen Details zu erreichen. Für den besten Effekt wird die Hochskalierung mit zusätzlichem Anti-Aliasing kombiniert.

Darüber hinaus können Sie mit Ansel riesige Bilder mit bis zu 4,5 Gigapixeln erstellen. Solche Bilder werden aus einzelnen Fragmenten zusammengefügt, was auf Hardwareebene erfolgt. Außerdem können verschiedene Nacheffekte auf das endgültige Bild angewendet werden. Das Bild kann im RAW-Format oder EXR mit 16-Bit-Farbkodierung gespeichert werden. Dies bietet zahlreiche Möglichkeiten für eine spätere Zusammenarbeit mit ihm.

Sie können Stereopanoramen und 360-Grad-Aufnahmen erstellen, die dann in einer Virtual-Reality-Brille betrachtet werden können.

Es gibt eine Vielzahl von Effekten, die auf das aufgenommene Bild angewendet werden können – Körnung, Blüte, Sepia, Linseneffekte und viele mehr, bis hin zur Erstellung eines Bildes mit Fischaugeneffekt. Die vielfältigen Möglichkeiten von Ansel sind erstaunlich. Der Spieler erhält Möglichkeiten, die es vorher einfach nicht gab.

Nachdem wir die Architektur und neue Technologien studiert haben, müssen wir uns die GeForce GTX 1080 selbst ansehen. Die Referenzversion sieht aus wie frühere Modelle mit einem leicht aktualisierten Design und schärferen Konturen.

Die Rückseite ist durch zwei Platten geschützt, was der „Buchung“ der GeForce GTX 980 ähnelt.

Das gesamte Kühldesign blieb unverändert. Der Kühler funktioniert nach dem Prinzip einer Turbine. Es gibt eine große Basis, einen gerippten Kühlkörper zur Kühlung der GPU und einen zusätzlichen Kühlkörper in der Nähe des Stromknotens zur besseren Kühlung der Leistungselemente.

Alle weiteren Nuancen werden wir in einem separaten Artikel betrachten und gleichzeitig Vergleichstests durchführen. Wenn wir über die vorläufigen Schätzungen des Herstellers sprechen, vergleicht NVIDIA das neue Produkt mit der GeForce GTX 980 und spricht von einem Vorsprung von etwa 70 % bei einfachen Spielen und einem Abstand von mehr als dem 2,5-fachen im VR-Modus. Der Unterschied zur GeForce GTX 980 Ti wird geringer ausfallen, über einige konkrete Werte können wir aber nach Praxistests sprechen.

Schlussfolgerungen

Es ist an der Zeit, unsere theoretische Bekanntschaft mit der GeForce GTX 1080 zusammenzufassen. Diese Grafikkarte ist derzeit das technologisch fortschrittlichste Produkt unter den Grafikbeschleunigern. Die GeForce GTX 1080 verfügt erstmals über einen 16-nm-Pascal-Prozessor und neuen GDDR5X-Speicher. Die Architektur selbst ist eine Weiterentwicklung von Maxwell mit Optimierungen und neuen Funktionen für DirectX 12. Architekturverbesserungen werden durch eine deutliche Erhöhung der GPU- und Speicherfrequenzen erheblich verstärkt. Sehr bedeutender Fortschritt im Bereich VR-Rendering aufgrund neuer Technologien, die die Arbeit in diesem Modus beschleunigen. Eine fortschrittliche Innovation ist die Unterstützung von HDR-Displays und zugehörigen Inhalten. Dank der neuen Videoverarbeitungseinheit ergeben sich noch mehr Möglichkeiten zum Abspielen und Aufzeichnen von hochauflösenden Videos, einschließlich der Arbeit mit dem HDR-Format. Fans ultradynamischer Multiplayer-Spiele werden die Fast-Sync-Technologie zu schätzen wissen. Kenner virtueller Schönheit werden von den Möglichkeiten von Ansel begeistert sein. Wenn Sie eine GeForce GTX 1080 kaufen, erhalten Sie nicht nur den derzeit schnellsten Videobeschleuniger, sondern auch den funktionellsten.

Offiziell wird dieses Modell ab dem 27. Mai für Kunden erhältlich sein. Die Referenzdesign-Versionen der Founders Edition werden zuerst in den Handel kommen. Sie werden einen höheren Preis haben. Etwas später werden nicht standardmäßige Optionen veröffentlicht, deren Kosten um 100 US-Dollar niedriger sind. Nun, bis die GeForce GTX 1080 auf dem heimischen Markt erscheint, werden wir im Rahmen eines großen Tests versuchen, ihr Potenzial im Vergleich zu bestehenden Top-End-Grafikkarten voll auszuschöpfen.

Nvidia GeForce GTX 1080 Pascal Test | Lernen Sie die GP104-GPU kennen

Am Vorabend der Computex beschloss Nvidia, seine lang erwartete Neuheit vorzustellen – die für Gamer angepasste Pascal-Architektur. In den neuen Grafikkarten GeForce GTX 1080 und 1070 verbaut der Hersteller den Grafikprozessor GP104. Heute testen wir das ältere Modell, das jüngere soll Anfang Juni in unseren Händen sein.

Die Pascal-Architektur verspricht schneller und mehr effiziente Arbeit, mehr Rechenmodule, weniger Chipfläche und schnellerer Speicher mit einem aktualisierten Controller. Es eignet sich besser für VR, 4K-Gaming und andere leistungsintensive Anwendungen.

Wie immer werden wir versuchen, die Versprechen des Herstellers zu verstehen und in der Praxis zu testen. Lasst uns beginnen.

Wird die GeForce GTX 1080 die Kräfteverhältnisse im High-End-Segment verändern?

Die Nvidia GeForce GTX 1080 ist die schnellste der beiden Anfang des Monats angekündigten Gaming-Grafikkarten. Beide verwenden die GP104-GPU, die übrigens bereits die zweite Pascal-Mikroarchitektur-GPU ist (die erste war die GP100, die im April auf der GTC erschien). Ren-Sun Huan, CEO von Nvidia, neckte Enthusiasten, als er das neue Produkt der breiten Öffentlichkeit vorstellte, und behauptete, dass die GeForce GTX 1080 zwei 980er in SLI übertreffen würde.

Er stellte außerdem fest, dass die GTX 1080 bei höherer Leistung einen geringeren Stromverbrauch aufweist als die 900er-Serie. Sie ist doppelt so schnell und dreimal so effizient wie das frühere Flaggschiff GeForce Titan Doch auch wenn sich diese Versprechen nur teilweise bestätigen, stehen uns dennoch sehr interessante Zeiten im Hinblick auf die Entwicklung von High-End-Spielen auf dem PC bevor.

Die virtuelle Realität gewinnt langsam an Bedeutung, doch die hohen Hardwareanforderungen an das Grafiksubsystem stellen eine erhebliche Hürde für den Zugang zu diesen Technologien dar. Darüber hinaus wissen die meisten heute verfügbaren Spiele nicht, wie sie die Vorteile des Multiprozessor-Renderings nutzen können. Das heißt, Sie sind normalerweise auf die Fähigkeiten eines schnellen Videoadapters mit einer GPU beschränkt. Die GTX 1080 ist in der Lage, zwei 980er zu übertreffen und sollte mit heutigen VR-Spielen keine Probleme haben, sodass in Zukunft keine Multiprozessorkonfigurationen mehr erforderlich sind.

Das 4K-Ökosystem schreitet ebenso schnell voran. Schnittstellen mit höherer Bandbreite wie HDMI 2.0b und DisplayPort 1.3/1.4 sollten bis Ende dieses Jahres die Tür zu 4K-Monitoren mit 120-Hz-Panels und Unterstützung für dynamische Bildwiederholraten öffnen. Während frühere Generationen der Top-End-GPUs von AMD und Nvidia als 4K-Gaming-Lösungen vermarktet wurden, mussten Benutzer Kompromisse bei der Qualität eingehen, um akzeptable Bildraten aufrechtzuerhalten. Die GeForce Nvidia GTX 1080 könnte die erste Grafikkarte sein, die schnell genug ist, um hohe Bildraten bei einer Auflösung von 3840 x 2160 bei maximalen Grafikdetaileinstellungen aufrechtzuerhalten.

Wie ist die Situation bei Multi-Monitor-Konfigurationen? Viele Gamer sind bereit, drei Monitore mit einer Auflösung von 1920 x 1080 zu installieren, allerdings unter der Voraussetzung, dass das Grafiksystem der Belastung standhält, denn in diesem Fall muss die Karte eine halbe Million Pixel rendern, da die Auflösung 7680 x 1440 beträgt. Es gibt sogar Enthusiasten, die bereit sind, drei 4K-Displays mit einer kombinierten Auflösung von 11520 x 2160 Pixeln mitzunehmen.

Letztere Option ist selbst für eine neue Gaming-Flaggschiff-Grafikkarte zu exotisch. Der Nvidia GP104-Prozessor ist jedoch mit einer Technologie ausgestattet, die eine Verbesserung des Erlebnisses für typische Aufgaben des neuen Modells, also 4K und Surround, verspricht. Doch bevor wir zu neuen Technologien übergehen, werfen wir einen genaueren Blick auf den GP104-Prozessor und die ihm zugrunde liegende Pascal-Architektur.

Woraus besteht GP104?

Seit Anfang 2012 nutzen AMD und Nvidia die 28-nm-Prozesstechnologie. Durch die Umstellung machten beide Unternehmen einen großen Sprung nach vorne und stellten uns die Grafikkarten Radeon HD 7970 und GeForce GTX 680 vor. In den nächsten vier Jahren mussten sie jedoch viel ausweichen, um mehr Leistung aus der vorhandenen Technologie herauszuholen. Die Leistungen der Grafikkarten Radeon R9 Fury X und GeForce GTX 980 Ti sind angesichts ihrer Komplexität wahre Wunder. Der erste von Nvidia im 28-nm-Verfahren gebaute Chip war der GK104, der aus 3,5 Milliarden Transistoren bestand. Der GM200 in der GeForce GTX 980 Ti und Titan X verfügt bereits über acht Milliarden Transistoren.

Der Übergang zur 16-nm-TSMC-FinFET-Plus-Technologie ermöglichte es den Nvidia-Ingenieuren, neue Ideen umzusetzen. Den technischen Daten zufolge sind 16FF+ Chips 65 % schneller, können die doppelte Dichte von 28HPM haben oder 70 % weniger Strom verbrauchen. Nvidia nutzt bei der Entwicklung seiner GPUs die optimale Kombination dieser Vorteile. TSMC behauptet, dass es auf der Technik des bestehenden 20-nm-Prozesses basierte, jedoch FinFET-Transistoren anstelle von Flachtransistoren verwendete. Das Unternehmen gibt an, dass dieser Ansatz die Ausschussmenge reduziert und die Leistung der Arbeitsplatten erhöht. Außerdem wird behauptet, dass das Unternehmen nicht über eine 20-Nanometer-Prozesstechnologie mit schnellen Transistoren verfügte. Lass es uns noch einmal machen, Frieden Computergrafik mehr als vier Jahre auf der 28-nm-Prozesstechnologie „sitzen“.


Blockdiagramm des GP104-Prozessors

Der Nachfolger des GM204 besteht aus 7,2 Milliarden Transistoren, die auf einer Fläche von 314 mm2 platziert sind. Zum Vergleich: Die GM204-Chipfläche beträgt 398 mm2 mit 5,2 Milliarden Transistoren. In der Vollversion verfügt eine einzelne GP104-GPU über vier Graphics Processing Clusters (GPCs). Jeder GPC umfasst fünf Thread/Texture Processing Clusters (TPCs) und einen Rasterizer. TPC kombiniert einen Streaming-Multiprozessor (SM) und die PolyMorph-Engine. Der SM kombiniert 128 CUDA-Kerne mit einfacher Präzision, 256 KB Registerspeicher, 96 KB gemeinsam genutzten Speicher, 48 KB L1/Textur-Cache und acht Textureinheiten. Die vierte Generation der PolyMorph-Engine enthält einen neuen Logikblock, der sich am Ende der Geometriepipeline vor dem Rasterisierungsblock befindet und die Funktion „Simultaneous Multi-Projection“ steuert (mehr dazu weiter unten). Insgesamt erhalten wir 20 SMs, 2560 CUDA-Kerne und 160 Texturverarbeitungseinheiten.


Ein Streaming-Multiprozessor (SM) im GP104

Das GPU-Backend umfasst acht 32-Bit-Speichercontroller (256-Bit-Gesamtkanalbreite), acht Rasterisierungseinheiten und 256 KB L2-Cache pro Einheit. Am Ende haben wir 64 ROPs und 2 MB gemeinsam genutzten L2-Cache. Obwohl das Blockdiagramm des Nvidia GM204-Prozessors vier 64-Bit-Controller und 16 ROPs zeigte, waren sie in Gruppen zusammengefasst und funktional gleichwertig.

Einige Strukturelemente des GP104 ähneln denen des GM204, da die neue GPU aus den „Bausteinen“ ihres Vorgängers aufgebaut wurde. Da ist nichts falsch. Wenn Sie sich erinnern, hat das Unternehmen bei der Maxwell-Architektur auf Energieeffizienz gesetzt und die vorhandenen Blöcke nicht durcheinander gebracht starker Punkt Kepler. Hier sehen wir ein ähnliches Bild.

Das Hinzufügen von vier SMs beeinträchtigt die Leistung möglicherweise nicht merklich. Allerdings hat der GP104 ein paar Tricks im Ärmel. Der erste Trumpf sind deutlich höhere Taktfrequenzen. Der Basistakt der GPU beträgt 1607 MHz. Die GM204-Spezifikationen geben zum Vergleich 1126 MHz an. Der GPU-Boost erreicht seinen Spitzenwert bei 1.733 MHz, aber wir haben unser Beispiel mithilfe des Beta-Dienstprogramms PrecisionX von EVGA auf 2.100 MHz erhöht. Woher kommt eine solche Übertaktungsreserve? Laut John Albin, Senior Vice President für GPU-Engineering, wusste sein Team, dass sich der TSMC 16FF+-Prozess auf die Architektur des Chips auswirken würde, und konzentrierte sich daher auf die Optimierung der Chip-Timings, um die Engpässe zu beseitigen, die das Erreichen höherer Taktraten verhindern. Infolgedessen erreichte die Single-Precision-Rechengeschwindigkeit des GP104 8228 GFLOPs (bei Basistakt) im Vergleich zur Obergrenze von 4612 GFLOPs der GeForce GTX 980. Die Texel-Füllrate stieg von 155,6 Gtex/s auf der 980 (mit GPU-Boost) auf 277, 3 Gtex /s.

GPU GeForce GTX 1080 (GP104) GeForce GTX 980 (GM204)
SM 20 16
Anzahl der CUDA-Kerne 2560 2048
Basis-GPU-Frequenz, MHz 1607 1126
GPU-Frequenz im Boost-Modus, MHz 1733 1216
Berechnungsgeschwindigkeit, GFLOPs (bei der Grundfrequenz) 8228 4612
Anzahl der Textureinheiten 160 128
Texel-Füllgeschwindigkeit, Gtex/s 277,3 155,6
Speicherübertragungsrate, Gbit/s 10 7
Speicherbandbreite, GB/s 320 224
Anzahl der Rasterisierungsblöcke 64 64
L2-Cache-Größe, MB 2 2
Thermopaket, W 180 165
Anzahl der Transistoren 7,2 Milliarden 5,2 Milliarden
Kristallfläche, mm2 314 398 mm
Prozesstechnik, nm 16 28

Das Backend umfasst weiterhin 64 ROPs und einen 256-Bit-Speicherbus, Nvidia hat jedoch GDDR5X-Speicher eingeführt, um die verfügbare Bandbreite zu erhöhen. Insbesondere vor dem Hintergrund des HBM-Speichers, der in diversen AMD-Grafikkarten zum Einsatz kommt, und des HBM2, den Nvidia im Tesla P100 verbaut, hat das Unternehmen große Anstrengungen unternommen, um den neuen Speichertyp voranzutreiben. Derzeit scheint auf dem Markt ein Mangel an HBM2-Speicher zu herrschen, und das Unternehmen ist nicht bereit, die HBM-Grenzwerte (vier 1-GB-Stacks oder die Schwierigkeit, acht 1-GB-Stacks zu implementieren) zu akzeptieren. So bekamen wir GDDR5X-Videospeicher, dessen Angebot offenbar ebenfalls begrenzt ist, da die GeForce GTX 1070 bereits reguläres GDDR5 nutzt. Dies deckt jedoch nicht die Vorteile der neuen Lösung ab. Der GDDR5-Speicher der GeForce GTX 980 hatte eine Datenübertragungsrate von 7 Gbit/s. Dies ermöglichte eine Bandbreite von 224 GB/s über einen 256-Bit-Bus. GDDR5X beginnt bei 10 Gbit/s und erhöht den Durchsatz auf 320 GB/s (ca. 43 % Steigerung). Laut Nvidia wird die Steigerung durch ein verbessertes I/O-Schema erreicht, und zwar ohne erhöhten Stromverbrauch.

Die Maxwell-Architektur ist bei der Nutzung der Bandbreite durch die Optimierung der Cache- und Komprimierungsalgorithmen effizienter geworden, und Pascal geht mit neuen verlustfreien Komprimierungsmethoden den gleichen Weg, um die verfügbare Bandbreite des Speichersubsystems wirtschaftlicher zu nutzen. Der Delta-Farbkomprimierungsalgorithmus versucht, eine Verstärkung von 2:1 zu erreichen, und dieser Modus wurde verbessert, um häufiger verwendet zu werden. Es gibt auch einen neuen 4:1-Modus, der in Fällen verwendet wird, in denen die Unterschiede pro Pixel sehr gering sind. Schließlich führt Pascal einen weiteren neuen 8:1-Algorithmus ein, der eine 4:1-Komprimierung auf 2x2-Blöcke anwendet, deren Differenz in einem 2:1-Algorithmus verarbeitet wird.



Der Unterschied ist nicht schwer zu veranschaulichen. Das erste Bild zeigt einen unkomprimierten Screenshot von Project CARS. Das folgende Bild zeigt die Elemente, die die Maxwell-Karte komprimieren kann. Sie sind lila schattiert. In der dritten Einstellung sieht man, dass Pascal die Szene noch stärker komprimiert. Laut Nvidia bedeutet dieser Unterschied eine Reduzierung der Informationsmenge in Bytes, die für jeden Frame aus dem Speicher abgerufen werden muss, um etwa 20 %.

Nvidia GeForce GTX 1080 Pascal Test | Referenzkartendesign

Nvidia hat seinen Ansatz beim Kartendesign geändert. Anstelle von „Referenz“ nennt sie ihre eigene Version der Karte Founders Edition (Erstellerversion). Es ist nicht zu übersehen, dass das Erscheinungsbild der GeForce GTX 1080 kantiger geworden ist, allerdings kommt im Kühlsystem der gleiche altbewährte Mechanismus zum Ausstoß heißer Luft durch die Seitenleiste zum Einsatz.

Die Karte wiegt 1020 g und hat eine Länge von 27 cm. Die Haptik ist recht angenehm, da das Kühlergehäuse nicht nur wie Metall aussieht, sondern tatsächlich aus Metall, genauer gesagt Aluminium, besteht. Die mattsilbernen Teile sind lackiert und können bei unsachgemäßem Umgang mit der Karte schnell zerkratzt werden.

Die Rückplatte ist in zwei Teile geteilt. Es dient lediglich der Dekoration und hat keine Kühlfunktion. Ob das die richtige Entscheidung ist, werden wir später herausfinden. Nvidia empfiehlt, diese Platte bei Verwendung von SLI zu entfernen, um eine bessere Luftzirkulation zwischen nahe beieinander montierten Karten zu erreichen.

Auf der Unterseite gibt es nichts Interessantes, allerdings ist uns aufgefallen, dass Teile der schwarzen Abdeckung mit dem darunter liegenden Motherboard in Kontakt kommen könnten, etwa der Chipsatzkühler und die SATA-Anschlüsse.

Oben auf der Karte sehen wir einen zusätzlichen achtpoligen Stromanschluss. Angesichts der offiziellen Spezifikationen der Grafikkarte sowie der vom Motherboard-Steckplatz bezogenen Leistung von 60 W sollte ein solcher Anschluss für eine nominelle TDP von 180 W ausreichen. Selbstverständlich prüfen wir, wie viel Strom diese Karte tatsächlich verbraucht und ob sie die Stromleitungen überlastet.

Außerdem sind zwei SLI-Anschlüsse vorhanden. Neben den neuen Pascal-Grafikkarten stellte Nvidia neue Bridges mit hoher Bandbreite vor. Später werden wir sie genauer betrachten. Kurz gesagt, SLI-Konfigurationen von nur zwei Grafikkarten werden bisher offiziell unterstützt und beide Anschlüsse werden zum Betrieb der Dual-Channel-Schnittstelle zwischen der GPU verwendet.

Am I/O-Panel stehen drei vollwertige DisplayPort-Anschlüsse zur Verfügung. In den Spezifikationen ist DisplayPort 1.2 aufgeführt, es wird jedoch erwartet, dass es mit DisplayPort 1.3/1.4 kompatibel ist (zumindest der Display-Controller kann mit den neuen Standards arbeiten). Außerdem gibt es einen HDMI 2.0-Ausgang und Dual-Link-DVI-D. Sie können nicht nach analogen Anschlüssen suchen.

Am anderen Ende der Karte befinden sich ein großer Schlitz zur Lufterfassung und drei Schraubenlöcher zur zusätzlichen Fixierung der Karte im Gehäuse.

Kühleres Design und Leistung

Nachdem Sie das Erscheinungsbild sorgfältig studiert haben, ist es an der Zeit, einen Blick auf die Füllung zu werfen, die sich unter dem Aluminiumgehäuse verbirgt. Dies erwies sich als schwieriger, als es auf den ersten Blick scheinen mag. Nach der Demontage zählten wir 51 Teile auf dem Tisch, inklusive Schrauben. Wenn Sie die Lüfter entfernen, kommen 12 weitere hinzu.

Nvidia verwendet endlich wieder eine echte Dampfkammer. Die Befestigung erfolgt mit vier Schrauben auf der Oberseite der GPU.

Der Radialventilator dürfte Ihnen bekannt vorkommen. Bei der direkten Wärmeabfuhr wird die Luft an einer Stelle angesaugt, durch die Kühlerlamellen geleitet und aus dem Gehäuse herausgeführt. Das Kühlergehäuse, das gleichzeitig als Rahmen dient, stabilisiert nicht nur die Karte, sondern trägt auch zur Kühlung der Spannungswandler und Speichermodule bei.

Nachdem wir alle externen Komponenten entfernt hatten, ging es los Leiterplatte. Anders als bisherige Lösungen setzt Nvidia auf eine sechsphasige Stromversorgung. Fünf Phasen dienen der GPU und die verbleibende Phase versorgt den GDDR5X-Speicher mit Strom.

Auf der Tafel sehen Sie einen Platz für eine weitere Phase, der leer ist.

Die GP104-GPU deckt eine Fläche von 314 mm2 ab, was viel kleiner ist als beim Vorgänger. Um den Prozessor herum sind Linien anderer Schichten der Platine sichtbar. Um hohe Taktfrequenzen zu erreichen, müssen die Leiter möglichst kurz sein. Aufgrund der strengen Anforderungen werden Nvidia-Partner wahrscheinlich mehr Zeit benötigen, um die Produktion zum Laufen zu bringen.

Der GDDR5X-Speicher wird durch Micron 6HA77-Chips repräsentiert. Sie sind kürzlich in die Massenproduktion gegangen, da wir früher in der Presse auf den durchgesickerten Bildern der neuen Nvidia-Grafikkarte 6GA77-Chips gesehen haben.

Insgesamt acht Speichermodule sind über 32-Bit-Controller an den 256-Bit-Speicherbus angeschlossen. Bei einer Frequenz von 1251 MHz erreicht die Bandbreite 320 GB/s.

Die GDDR5X-Module von Micron verwenden ein 170-Pin-Gehäuse anstelle des 190-Pin-GDDR5. Außerdem sind sie etwas kleiner: 14x10 mm statt 14x12 mm. Das heißt, sie haben eine höhere Dichte und erfordern eine verbesserte Kühlung.

Als wir die Karte umdrehten, fanden wir freien Platz für den zweiten Stromanschluss. So können Nvidia-Partner einen zweiten Hilfsanschluss installieren, um die Stromversorgung zu erhöhen, oder den vorhandenen an eine andere Position verschieben.

Das Board verfügt außerdem über einen Steckplatz, der es Ihnen ermöglicht, den Stromanschluss um 180 Grad zu drehen.

Direkt unter der GPU befinden sich Kondensatoren, um mögliche Überspannungen auszugleichen. Auch auf dieser Seite der Platine befindet sich PWM (es befand sich früher bei Vorderseite). Diese Lösung gibt Nvidia-Partnern die Möglichkeit, andere PWM-Controller zu installieren.

Aber zurück zum PWM-Spannungsregler-Controller. Für die GPU-Boost-3.0-Technologie von Nvidia gelten neue Anforderungen an die Spannungsregulierung, was zu erheblichen Änderungen führt. Wir erwarteten einen Controller vom Typ IR3536A von International Rectifier gepaart mit einem 5+1-Phasen-Design, aber Nvidia verwendete den µP9511P. Für Overclocker sind das keine guten Nachrichten, da die Karte die Schnittstelle und das Protokoll von Tools wie MSI Afterburner und Gigabyte OC Guru nicht unterstützt. Der noch nicht sehr ausführlich beschriebene Umstieg auf einen neuen Controller ist höchstwahrscheinlich auf technische Besonderheiten zurückzuführen.

Da der PWM-Controller die einzelnen Phasen des Spannungswandlers nicht direkt ansteuern kann, verwendet Nvidia leistungsstarke MOSFET-Treiber mit 53603A-Chips zur Ansteuerung des Gates der MOSFETs. Aber im Vergleich zu einigen anderen Optionen sieht das Schaltungslayout ordentlich und aufgeräumt aus.

Hier gibt es verschiedene Arten von MOSFETs. Der 4C85N ist ein recht flexibler Zweikanal-Spannungswandlungs-MOSFET. Es versorgt alle sechs Phasen der Stromversorgung und verfügt über ausreichend große elektrische und thermische Reserven, um den Belastungen des Referenzdesigns standzuhalten.


Ich frage mich, wie sich Nvidias GPU-Boost-3.0-Technologie und die modifizierte Spannungsreglerschaltung auf den Stromverbrauch auswirken werden. Wir werden es uns auf jeden Fall ansehen.

Nvidia GeForce GTX 1080 Pascal Test | Simultane Multiprojektion und asynchrone Rechentechnologie

Simultane Multiprojektions-Engine

Die erhöhte Kernanzahl, Kerntaktgeschwindigkeit und 10 Gbit/s GDDR5X-Speicherleistung beschleunigen jedes Spiel, das wir getestet haben. Allerdings beinhaltet die Pascal-Architektur einige Features, die wir erst in zukünftigen Spielen zu schätzen wissen werden.

Eine der neuen Funktionen nennt Nvidia die Simultaneous Multi-Projection Engine oder Multiprojektions-Engine, dargestellt durch einen Hardwareblock, der den PolyMorph-Engines hinzugefügt wird. Die neue Engine kann aus einem einzigen Blickwinkel bis zu 16 Projektionen geometrischer Daten erstellen. Oder es kann den Blickwinkel verschieben, um ein stereoskopisches Bild zu erzeugen, indem die Geometrie 32-mal in der Hardware dupliziert wird, ohne die Leistungseinbußen, die Sie erleben würden, wenn Sie versuchen würden, diesen Effekt ohne SMP zu erzielen.


Ein-Ebenen-Projektion

Versuchen wir, die Vorteile dieser Technologie zu verstehen. Wir haben zum Beispiel drei Monitore in einer Surround-Konfiguration. Sie sind leicht nach innen gedreht, um den Benutzer zu „umhüllen“, sodass er bequemer spielen und arbeiten kann. Aber Spiele wissen davon nicht und stellen das Bild in einer Ebene dar, sodass es an der Verbindungsstelle der Monitorrahmen gekrümmt zu sein scheint und das Bild im Allgemeinen verzerrt aussieht. Für eine solche Konfiguration wäre es korrekter, eine Projektion geradeaus, eine zweite Projektion nach links, wie aus einem Panorama-Cockpit eines Flugzeugs, und eine dritte Projektion nach rechts darzustellen. Auf diese Weise erscheint ein zuvor gekrümmtes Panorama flüssiger und der Benutzer erhält einen viel größeren Betrachtungswinkel. Die gesamte Szene muss weiterhin gerastert und gezeichnet werden, aber die GPU muss die Szene nicht dreimal rendern, wodurch der Overhead entfällt.


Falsche Perspektive bei geneigten Displays



SMP-korrigierte Perspektive

Allerdings muss die Anwendung weite Betrachtungswinkeleinstellungen unterstützen und SMP-API-Aufrufe verwenden. Das heißt, bevor Sie diese Funktion nutzen können, müssen Spieleentwickler sie beherrschen. Wir sind uns nicht sicher, wie viel Aufwand sie bereit sind, für eine Handvoll Surround-Benutzer mit mehreren Monitoren zu investieren. Aber es gibt auch andere Anwendungen, bei denen es sinnvoll ist, dieses Feature so schnell wie möglich zu implementieren.


Mithilfe von Single-Pass-Stereo-Rendering erstellt SMP eine Projektion für jedes Auge

Nehmen wir als Beispiel die virtuelle Realität. Es bedarf bereits einer individuellen Projektion für jedes Auge. Heutige Spiele rendern Bilder einfach auf zwei separaten Bildschirmen, mit allen damit verbundenen Nachteilen und Effizienzverlusten. Da SMP jedoch zwei Projektionszentren unterstützt, kann die Szene mithilfe der Single Pass Stereo-Funktion von Nvidia in einem Durchgang gerendert werden. Die Geometrie wird einmal verarbeitet und SMP erstellt seine Projektion für das linke und rechte Auge. Darüber hinaus kann SMP zusätzliche Projektionen für eine Funktion namens Lens Matched Shading anwenden.


Bilder nach dem ersten Durchgang mit Lens Matched Shading-Funktionen



Die letzte Szene, die an das Headset gesendet wird

Kurz gesagt versucht Lens Matched Shading, das VR-Rendering effizienter zu gestalten, indem es die schwere Arbeit vermeidet, die beim herkömmlichen planaren Projektionsrendering normalerweise erforderlich ist, um die Geometrie zu verzerren, um sie an die Verzerrung der Headset-Linsen anzupassen (also werden Pixel dort verschwendet, wo sie vorhanden sind). größte Krümmung). Dieser Effekt kann durch die Verwendung von SMP zur Aufteilung der Fläche in Quadranten erreicht werden. Anstatt also mit einer quadratischen Projektion zu rendern und zu arbeiten, erstellt die GPU Bilder, die dem Objektivverzerrungsfilter entsprechen. Diese Methode verhindert die Erzeugung zusätzlicher Pixel. Sie werden keinen Qualitätsunterschied bemerken, solange die Entwickler die Augenabtastrate des HMD einhalten oder überschreiten.

Laut Nvidia kann die Kombination aus Single Pass Stereo- und Lens Matched Shading-Techniken im Vergleich zu Nicht-SMP-GPUs bis zu zweifache Leistungssteigerungen in VR liefern. Ein Teil davon hat mit der Pixelwiedergabe zu tun. Durch die Verwendung von Lens Matched Shading zur Vermeidung der Verarbeitung von Pixeln, die nicht gerendert werden sollten, sank die Renderrate in einer Szene mit den ausgeglichenen Voreinstellungen von Nvidia von 4,2 MP/s (Oculus Rift) auf 2,8 MP/s, wodurch die Shader-Last auf der GPU um eins und eins sank ein halbes Mal. Die Single Pass Stereo-Technologie, die die Geometrie nur einmal rendert (anstatt sie für das zweite Auge erneut zu rendern), eliminiert effektiv die Hälfte der Geometrieverarbeitung, die heute durchgeführt werden muss. Jetzt ist klar, was Ren-Sun meinte, als er „eine zweifache Leistungssteigerung und eine dreifache Effizienzsteigerung im Vergleich zur Titan X“ behauptete.

Asynchrones Rechnen

Die Pascal-Architektur beinhaltet auch einige Änderungen in Bezug auf asynchrones Computing, die aus mehreren Gründen mit DirectX 12, VR und dem architektonischen Vorteil von AMD zusammenhängen.

Nvidia unterstützt seit der Maxwell-Architektur die statische GPU-Ressourcenfreigabe für Grafik- und Rechenlasten. Theoretisch ist dieser Ansatz dann gut, wenn beide Blöcke gleichzeitig aktiv sind. Nehmen wir jedoch an, dass 75 % der Prozessorressourcen für die Grafik aufgewendet werden und er seinen Teil der Aufgabe schneller erledigt. Dann ist dieser Block inaktiv und wartet darauf, dass der Rechenblock seinen Teil der Arbeit abschließt. Somit gehen alle möglichen Vorteile der gleichzeitigen Ausführung dieser Aufgaben verloren. Pascal behebt dieses Manko mit dynamischem Lastausgleich. Wenn der Treiber feststellt, dass eine der Partitionen nicht ausreichend genutzt wird, kann er seine Ressourcen wechseln, um einer anderen zu helfen, wodurch Leerlaufzeiten vermieden werden, die sich negativ auf die Leistung auswirken.

Nvidia hat auch die Interrupt-Fähigkeiten von Pascal verbessert, also die Möglichkeit, die aktuelle Aufgabe anzuhalten, um eine „dringlichere“ Aufgabe mit sehr kurzer Ausführungszeit zu lösen. Wie Sie wissen, handelt es sich bei GPUs um hochparallelisierte Maschinen mit großen Puffern, die darauf ausgelegt sind, ähnliche Ressourcen nebeneinander zu beschäftigen. Ein inaktiver Shader ist nutzlos und muss daher unbedingt in den Workflow einbezogen werden.


Für VR ist es besser, Interrupt-Anfragen so spät wie möglich zu senden, um die neuesten Tracking-Daten zu erfassen

Ein gutes Beispiel ist die Asynchronous Time Warp (ATW)-Funktion, die Oculus mit der Rift eingeführt hat. Für den Fall, dass die Grafikkarte auf einem 90-Hz-Display nicht alle 11 ms ein neues Bild erzeugen kann, generiert ATW ein Zwischenbild unter Verwendung des letzten Bilds und angepasster Kopfposition. Für die Erstellung eines solchen Rahmens muss jedoch genügend Zeit zur Verfügung stehen, und leider ist die grafische Unterbrechung nicht sehr genau. Tatsächlich unterstützen die Fermi-, Kepler- und Maxwell-Architekturen eine Unterbrechung auf Zeichnungsebene, was bedeutet, dass Frames innerhalb eines Zeichnungsaufrufs gewechselt werden können, was möglicherweise die ATW-Technik erstickt.

Pascal implementiert einen Interrupt auf Pixelebene für Grafiken, sodass GP104 den aktuellen Vorgang auf Pixelebene stoppen, seinen Status speichern und zu einem anderen Kontext wechseln kann. Anstelle des Millisekunden-Interrupts, über den Oculus schrieb, gibt Nvidia weniger als 100 Mikrosekunden an.

In der Maxwell-Architektur wurde das Äquivalent eines Interrupts auf Pixelebene in einer Recheneinheit über einen Interrupt auf Thread-Ebene implementiert. Auch Pascal behielt diese Technik bei, fügte jedoch Unterstützung für Interrupts auf Befehlsebene in CUDA-Rechenaufgaben hinzu. Derzeit enthalten Nvidia-Treiber diese Funktion nicht, sie wird jedoch bald zusammen mit der Unterbrechung auf Pixelebene verfügbar sein.

Nvidia GeForce GTX 1080 Pascal Test | Ausgabepipeline, SLI und GPU Boost 3.0

Pascal-Anzeigekanal: HDR-Ready

Letztes Jahr trafen wir uns mit AMD in Sonoma, Kalifornien, wo sie einige Details ihrer neuen Polaris-Architektur teilten, wie zum Beispiel eine Bildausgabepipeline, die Inhalte mit hohem Dynamikbereich und zugehörige Anzeigen unterstützt.

Es überrascht nicht, dass die Nvidia-Pascal-Architektur voller solcher Funktionen ist, von denen einige sogar in Maxwell verfügbar waren. Beispielsweise erhielt der Display-Controller im GP104 Unterstützung für 12-Bit-Farbe, den breiten Farbraum BT.2020, die elektrooptische Übertragung SMPTE 2084 und HDMI 2.0b mit HDCP 2.2.

Zu dieser Liste fügt Pascal eine beschleunigte 4K60p-HEVC-Dekodierung mit 10/12-Bit-Farbe über einen dedizierten Hardwareblock hinzu, der angeblich den HEVC-Version-2-Standard unterstützt. Zuvor verwendete Nvidia einen hybriden Ansatz unter Verwendung von Softwareressourcen. Darüber hinaus war die Kodierung auf acht Bit Farbinformationen pro Pixel beschränkt. Wir glauben jedoch, dass Microsoft PlayReady 3.0 zur Unterstützung der umstrittenen Spezifikation eine schnellere und effizientere Lösung benötigte.

Die Architektur unterstützt auch HEVC-Kodierung in 10-Bit-Farbe bei 4K60p für Aufnahme oder Streaming in HDR, Nvidia hat dafür sogar eine eigene App. Mit der Kodierung des GP104-Prozessors und der bald erscheinenden GameStream HDR-Software können Sie Spiele mit hohem Dynamikumfang auf Shield-Geräte streamen, die an einen HDR-kompatiblen Fernseher angeschlossen sind. Das Shield ist mit einem eigenen HEVC-Decoder mit Unterstützung für 10-Bit-Farbe pro Pixel ausgestattet, was die Bildausgabepipeline weiter entlastet.

GeForce GTX 1080 GeForce GTX 980
H.264-Kodierung Ja (2x 4K60p) Ja
HEVC-Kodierung Ja (2x 4K60p) Ja
HEVC-Kodierung 10-Bit Ja Nein
H.264-Dekodierung Ja (4K120p bis zu 240 Mbit/s) Ja
HEVC-Dekodierung Ja (4K120p/8K30p bis zu 320 Mbit/s) Nein
VP9-Dekodierung Ja (4K120p bis zu 320 Mbit/s) Nein
HEVC 10/12-Bit-Dekodierung Ja Nein

Zusätzlich zur HDMI 2.0b-Unterstützung ist die GeForce GTX 1080 DisplayPort 1.2-zertifiziert und DP 1.3/1.4-kompatibel. In dieser Hinsicht übertrifft es bereits das noch unveröffentlichte Polaris, dessen Display-Controller bisher nur DP 1.3 unterstützt. Zum Glück für AMD enthalten die Spezifikationen der Version 1.4 keinen schnelleren Übertragungsmodus, und die Obergrenze liegt immer noch bei 32,4 Gbit/s, die durch den HBR3-Modus festgelegt wird.

Wie bereits erwähnt, ist die GeForce GTX 1080 Founders Edition mit drei Display-Port-Ausgängen, einem HDMI 2.0b-Anschluss und einem digitalen DVI-Dual-Link-Ausgang ausgestattet. Wie die GTX 980 ist die Neuheit in der Lage, ein Bild gleichzeitig auf vier unabhängigen Monitoren anzuzeigen. Aber im Vergleich zur Auflösung von 5120 x 3200 über zwei DP 1.2-Kabel beträgt die maximale Auflösung der GTX 1080 7680 x 4320 Pixel bei einer Bildwiederholfrequenz von 60 Hz.

SLI unterstützt jetzt offiziell nur noch zwei GPUs

Traditionell sind High-End-Nvidia-Grafikkarten mit zwei Anschlüssen ausgestattet, um zwei, drei oder sogar vier Beschleuniger in einem SLI-Bundle anzuschließen. Die beste Skalierung wird in der Regel in Dual-GPU-Konfigurationen erreicht. Darüber hinaus rechtfertigen sich die Kosten oft nicht, da viele Fallstricke auftauchen. Einige Enthusiasten verwenden jedoch immer noch drei oder vier Grafikkarten, um jedes zusätzliche Bild zu erhalten und die Möglichkeit zu haben, vor Freunden anzugeben.

Aber die Situation hat sich geändert. Aufgrund von Leistungsskalierungsproblemen in neueren Spielen, die zweifellos mit DirectX 12 zusammenhängen, unterstützt die GeForce GTX 1080 laut Nvidia offiziell nur Dual-GPU-SLI-Konfigurationen. Warum benötigt die Karte also zwei Anschlüsse? Dank der neuen SLI-Brücken können beide Anschlüsse gleichzeitig für die Datenübertragung im Zweikanalmodus genutzt werden. Neben dem Dual-Channel-Modus verfügt die Schnittstelle auch über eine erhöhte I/O-Frequenz von 400 MHz auf 650 MHz. Dadurch verdoppelt sich der Durchsatz zwischen den Prozessoren mehr als.


Frame-Renderzeit in Mittelerde: Mordors Schatten mit neuer (blaue Linie im Diagramm) und alter (schwarzer) SLI-Brücke

Viele Spieler werden jedoch nicht in den Genuss der Vorteile eines schnelleren Kanals kommen. Dies wird vor allem bei hohen Auflösungen und Bildwiederholraten relevant sein. Nvidia hat eine FCAT-Aufnahme von zwei GeForce 1080 GTXs gezeigt, auf denen Mittelerde: Mordors Schatten auf drei 4K-Displays läuft. Das Verbinden zweier Karten mit einer alten Bridge führte zu ständigen Frame-Time-Sprüngen, die zu vorhersehbaren Timing-Problemen führten, die sich in Rucklern äußerten. Mit der neuen Brücke ist die Anzahl der Sprünge zurückgegangen und weniger ausgeprägt.

Laut Nvidia unterstützen nicht nur SLI-HB-Bridges den Dual-Channel-Modus. Die bereits bekannten LED-Bridges können bei Anschluss an Pascal-Karten auch Daten mit einer Frequenz von 650 MHz übertragen. Flexible oder herkömmliche Brücken sollten Sie am besten meiden, wenn Sie in 4K oder höher arbeiten möchten. Genaue Information zur Kompatibilität finden Sie in der von Nvidia bereitgestellten Tabelle:

1920 x 1080 bei 60 Hz 2560 x 1440 bei 120 Hz+ 2560x1440 4K 5K Umgeben
Standardbrücke X X
LED-Brücke X X X X
High Data Rate Bridge (HB) X X X X X X

Was war der Grund für die Ablehnung von Drei- und Vier-Chip-Konfigurationen? Schließlich ist das Unternehmen stets bestrebt, mehr zu verkaufen und eine höhere Produktivität zu erzielen. Es ist zynisch zu sagen, dass Nvidia nicht die Verantwortung für den Vorteilsverlust bei der Verbindung von zwei oder vier Karten in SLI übernehmen will, wenn der moderne Videospielmarkt immer subtilere und komplexere Rendering-Ansätze verwendet. Das Unternehmen besteht jedoch darauf, dass es im besten Interesse der Käufer handelt, da Microsoft Spieleentwicklern mehr Kontrolle über Multiprozessorkonfigurationen gibt, die wiederum neue Technologien wie Single-Frame-Co-Rendering anstelle des aktuellen Frame-by-Frame-Renderings erforschen Rendering (AFR).

Enthusiasten, denen es nur um Geschwindigkeitsrekorde geht und die oben beschriebenen Faktoren kein Interesse haben, können mit der alten Software immer noch drei oder vier GTX 1080 im SLI koppeln. Sie müssen mithilfe eines Programms von Nvidia eine eindeutige „Hardware“-Signatur generieren, die einen „Entsperr“-Schlüssel anfordern kann. Natürlich funktionieren die neuen HB-SLI-Brücken nicht mit mehr als zwei GPUs, sodass Sie sich auf die alten LED-Brücken beschränken müssen, um die Arbeit von drei/vier GP104 bei 650 MHz zu kombinieren.

Kurz zum GPU Boost 3.0

Um noch mehr Leistung aus seinen GPUs herauszuholen, hat Nvidia seine GPU-Boost-Technologie erneut verbessert.

In der Vorgängergeneration (GPU Boost 2.0) wurde die Taktrate durch Verschieben eines bestimmten Wertes der abfallenden Linie der Spannungs-/Frequenzabhängigkeit eingestellt. Der potenzielle Spielraum oberhalb dieser Linie blieb normalerweise ungenutzt.


GPU Boost 3.0 – Einstellen der Frequenzerhöhung pro Schritt der Spannungserhöhung

Mit GPU Boost 3.0 können Sie jetzt die Frequenzverstärkung für einzelne Spannungswerte einstellen, die nur durch die Temperatur begrenzt sind. Darüber hinaus müssen Sie nicht experimentieren und die Stabilität der Karte über den gesamten Wertebereich der Kurve überprüfen. Nvidia verfügt über einen integrierten Algorithmus zur Automatisierung dieses Prozesses, der eine für Ihre GPU einzigartige Spannungs-/Frequenzkurve erstellt.

Nvidia GeForce GTX 1080 Pascal Test | Lernen Sie die GP104-GPU kennen

Am Vorabend der Computex beschloss Nvidia, seine lang erwartete Neuheit vorzustellen – die für Gamer angepasste Pascal-Architektur. In den neuen Grafikkarten GeForce GTX 1080 und 1070 verbaut der Hersteller den Grafikprozessor GP104. Heute testen wir das ältere Modell, das jüngere soll Anfang Juni in unseren Händen sein.

Die Pascal-Architektur verspricht eine schnellere und effizientere Leistung, mehr Rechenmodule, eine geringere Die-Fläche und schnelleren Speicher mit einem aktualisierten Controller. Es eignet sich besser für VR, 4K-Gaming und andere leistungsintensive Anwendungen.

Wie immer werden wir versuchen, die Versprechen des Herstellers zu verstehen und in der Praxis zu testen. Lasst uns beginnen.

Wird die GeForce GTX 1080 die Kräfteverhältnisse im High-End-Segment verändern?

Die Nvidia GeForce GTX 1080 ist die schnellste der beiden Anfang des Monats angekündigten Gaming-Grafikkarten. Beide verwenden die GP104-GPU, die übrigens bereits die zweite Pascal-Mikroarchitektur-GPU ist (die erste war die GP100, die im April auf der GTC erschien). Ren-Sun Huan, CEO von Nvidia, neckte Enthusiasten, als er das neue Produkt der breiten Öffentlichkeit vorstellte, und behauptete, dass die GeForce GTX 1080 zwei 980er in SLI übertreffen würde.

Er stellte außerdem fest, dass die GTX 1080 bei höherer Leistung einen geringeren Stromverbrauch aufweist als die 900er-Serie. Sie ist doppelt so schnell und dreimal so effizient wie das frühere Flaggschiff GeForce Titan Doch auch wenn sich diese Versprechen nur teilweise bestätigen, stehen uns dennoch sehr interessante Zeiten im Hinblick auf die Entwicklung von High-End-Spielen auf dem PC bevor.

Die virtuelle Realität gewinnt langsam an Bedeutung, doch die hohen Hardwareanforderungen an das Grafiksubsystem stellen eine erhebliche Hürde für den Zugang zu diesen Technologien dar. Darüber hinaus wissen die meisten heute verfügbaren Spiele nicht, wie sie die Vorteile des Multiprozessor-Renderings nutzen können. Das heißt, Sie sind normalerweise auf die Fähigkeiten eines schnellen Videoadapters mit einer GPU beschränkt. Die GTX 1080 ist in der Lage, zwei 980er zu übertreffen und sollte mit heutigen VR-Spielen keine Probleme haben, sodass in Zukunft keine Multiprozessorkonfigurationen mehr erforderlich sind.

Das 4K-Ökosystem schreitet ebenso schnell voran. Schnittstellen mit höherer Bandbreite wie HDMI 2.0b und DisplayPort 1.3/1.4 sollten bis Ende dieses Jahres die Tür zu 4K-Monitoren mit 120-Hz-Panels und Unterstützung für dynamische Bildwiederholraten öffnen. Während frühere Generationen der Top-End-GPUs von AMD und Nvidia als 4K-Gaming-Lösungen vermarktet wurden, mussten Benutzer Kompromisse bei der Qualität eingehen, um akzeptable Bildraten aufrechtzuerhalten. Die GeForce Nvidia GTX 1080 könnte die erste Grafikkarte sein, die schnell genug ist, um hohe Bildraten bei einer Auflösung von 3840 x 2160 bei maximalen Grafikdetaileinstellungen aufrechtzuerhalten.

Wie ist die Situation bei Multi-Monitor-Konfigurationen? Viele Gamer sind bereit, drei Monitore mit einer Auflösung von 1920 x 1080 zu installieren, allerdings unter der Voraussetzung, dass das Grafiksystem der Belastung standhält, denn in diesem Fall muss die Karte eine halbe Million Pixel rendern, da die Auflösung 7680 x 1440 beträgt. Es gibt sogar Enthusiasten, die bereit sind, drei 4K-Displays mit einer kombinierten Auflösung von 11520 x 2160 Pixeln mitzunehmen.

Letztere Option ist selbst für eine neue Gaming-Flaggschiff-Grafikkarte zu exotisch. Der Nvidia GP104-Prozessor ist jedoch mit einer Technologie ausgestattet, die eine Verbesserung des Erlebnisses für typische Aufgaben des neuen Modells, also 4K und Surround, verspricht. Doch bevor wir zu neuen Technologien übergehen, werfen wir einen genaueren Blick auf den GP104-Prozessor und die ihm zugrunde liegende Pascal-Architektur.

Woraus besteht GP104?

Seit Anfang 2012 nutzen AMD und Nvidia die 28-nm-Prozesstechnologie. Durch die Umstellung machten beide Unternehmen einen großen Sprung nach vorne und stellten uns die Grafikkarten Radeon HD 7970 und GeForce GTX 680 vor. In den nächsten vier Jahren mussten sie jedoch viel ausweichen, um mehr Leistung aus der vorhandenen Technologie herauszuholen. Die Leistungen der Grafikkarten Radeon R9 Fury X und GeForce GTX 980 Ti sind angesichts ihrer Komplexität wahre Wunder. Der erste von Nvidia im 28-nm-Verfahren gebaute Chip war der GK104, der aus 3,5 Milliarden Transistoren bestand. Der GM200 in der GeForce GTX 980 Ti und Titan X verfügt bereits über acht Milliarden Transistoren.

Der Übergang zur 16-nm-TSMC-FinFET-Plus-Technologie ermöglichte es den Nvidia-Ingenieuren, neue Ideen umzusetzen. Den technischen Daten zufolge sind 16FF+ Chips 65 % schneller, können die doppelte Dichte von 28HPM haben oder 70 % weniger Strom verbrauchen. Nvidia nutzt bei der Entwicklung seiner GPUs die optimale Kombination dieser Vorteile. TSMC behauptet, dass es auf der Technik des bestehenden 20-nm-Prozesses basierte, jedoch FinFET-Transistoren anstelle von Flachtransistoren verwendete. Das Unternehmen gibt an, dass dieser Ansatz die Ausschussmenge reduziert und die Leistung der Arbeitsplatten erhöht. Außerdem wird behauptet, dass das Unternehmen nicht über eine 20-Nanometer-Prozesstechnologie mit schnellen Transistoren verfügte. Auch hier setzt die Welt der Computergrafik seit mehr als vier Jahren auf die 28-nm-Prozesstechnologie.

Blockdiagramm des GP104-Prozessors

Der Nachfolger des GM204 besteht aus 7,2 Milliarden Transistoren, die auf einer Fläche von 314 mm2 platziert sind. Zum Vergleich: Die GM204-Chipfläche beträgt 398 mm2 mit 5,2 Milliarden Transistoren. In der Vollversion verfügt eine einzelne GP104-GPU über vier Graphics Processing Clusters (GPCs). Jeder GPC umfasst fünf Thread/Texture Processing Clusters (TPCs) und einen Rasterizer. TPC kombiniert einen Streaming-Multiprozessor (SM) und die PolyMorph-Engine. Der SM kombiniert 128 CUDA-Kerne mit einfacher Präzision, 256 KB Registerspeicher, 96 KB gemeinsam genutzten Speicher, 48 KB L1/Textur-Cache und acht Textureinheiten. Die vierte Generation der PolyMorph-Engine enthält einen neuen Logikblock, der sich am Ende der Geometriepipeline vor dem Rasterisierungsblock befindet und die Funktion „Simultaneous Multi-Projection“ steuert (mehr dazu weiter unten). Insgesamt erhalten wir 20 SMs, 2560 CUDA-Kerne und 160 Texturverarbeitungseinheiten.

Ein Streaming-Multiprozessor (SM) im GP104

Das GPU-Backend umfasst acht 32-Bit-Speichercontroller (256-Bit-Gesamtkanalbreite), acht Rasterisierungseinheiten und 256 KB L2-Cache pro Einheit. Am Ende haben wir 64 ROPs und 2 MB gemeinsam genutzten L2-Cache. Obwohl das Blockdiagramm des Nvidia GM204-Prozessors vier 64-Bit-Controller und 16 ROPs zeigte, waren sie in Gruppen zusammengefasst und funktional gleichwertig.

Einige Strukturelemente des GP104 ähneln denen des GM204, da die neue GPU aus den „Bausteinen“ ihres Vorgängers aufgebaut wurde. Da ist nichts falsch. Wenn Sie sich erinnern, setzte das Unternehmen in der Maxwell-Architektur auf Energieeffizienz und rüttelte nicht an den Blöcken, die Keplers Stärken waren. Hier sehen wir ein ähnliches Bild.

Das Hinzufügen von vier SMs beeinträchtigt die Leistung möglicherweise nicht merklich. Allerdings hat der GP104 ein paar Tricks im Ärmel. Der erste Trumpf sind deutlich höhere Taktfrequenzen. Der Basistakt der GPU beträgt 1607 MHz. Die GM204-Spezifikationen geben zum Vergleich 1126 MHz an. Der GPU-Boost erreicht seinen Spitzenwert bei 1.733 MHz, aber wir haben unser Beispiel mithilfe des Beta-Dienstprogramms PrecisionX von EVGA auf 2.100 MHz erhöht. Woher kommt eine solche Übertaktungsreserve? Laut John Albin, Senior Vice President für GPU-Engineering, wusste sein Team, dass sich der TSMC 16FF+-Prozess auf die Architektur des Chips auswirken würde, und konzentrierte sich daher auf die Optimierung der Chip-Timings, um die Engpässe zu beseitigen, die das Erreichen höherer Taktraten verhindern. Infolgedessen erreichte die Single-Precision-Rechengeschwindigkeit des GP104 8228 GFLOPs (bei Basistakt) im Vergleich zur Obergrenze von 4612 GFLOPs der GeForce GTX 980. Die Texel-Füllrate stieg von 155,6 Gtex/s auf der 980 (mit GPU-Boost) auf 277, 3 Gtex /s.

GPU GeForce GTX 1080 (GP104) GeForce GTX 980 (GM204)
SM 20 16
Anzahl der CUDA-Kerne 2560 2048
Basis-GPU-Frequenz, MHz 1607 1126
GPU-Frequenz im Boost-Modus, MHz 1733 1216
Berechnungsgeschwindigkeit, GFLOPs (bei der Grundfrequenz) 8228 4612
Anzahl der Textureinheiten 160 128
Texel-Füllgeschwindigkeit, Gtex/s 277,3 155,6
Speicherübertragungsrate, Gbit/s 10 7
Speicherbandbreite, GB/s 320 224
Anzahl der Rasterisierungsblöcke 64 64
L2-Cache-Größe, MB 2 2
Thermopaket, W 180 165
Anzahl der Transistoren 7,2 Milliarden 5,2 Milliarden
Kristallfläche, mm2 314 398 mm
Prozesstechnik, nm 16 28

Das Backend umfasst weiterhin 64 ROPs und einen 256-Bit-Speicherbus, Nvidia hat jedoch GDDR5X-Speicher eingeführt, um die verfügbare Bandbreite zu erhöhen. Insbesondere vor dem Hintergrund des HBM-Speichers, der in diversen AMD-Grafikkarten zum Einsatz kommt, und des HBM2, den Nvidia im Tesla P100 verbaut, hat das Unternehmen große Anstrengungen unternommen, um den neuen Speichertyp voranzutreiben. Derzeit scheint auf dem Markt ein Mangel an HBM2-Speicher zu herrschen, und das Unternehmen ist nicht bereit, die HBM-Grenzwerte (vier 1-GB-Stacks oder die Schwierigkeit, acht 1-GB-Stacks zu implementieren) zu akzeptieren. So bekamen wir GDDR5X-Videospeicher, dessen Angebot offenbar ebenfalls begrenzt ist, da die GeForce GTX 1070 bereits reguläres GDDR5 nutzt. Dies deckt jedoch nicht die Vorteile der neuen Lösung ab. Der GDDR5-Speicher der GeForce GTX 980 hatte eine Datenübertragungsrate von 7 Gbit/s. Dies ermöglichte eine Bandbreite von 224 GB/s über einen 256-Bit-Bus. GDDR5X beginnt bei 10 Gbit/s und erhöht den Durchsatz auf 320 GB/s (ca. 43 % Steigerung). Laut Nvidia wird die Steigerung durch ein verbessertes I/O-Schema erreicht, und zwar ohne erhöhten Stromverbrauch.

Die Maxwell-Architektur ist bei der Nutzung der Bandbreite durch die Optimierung der Cache- und Komprimierungsalgorithmen effizienter geworden, und Pascal geht mit neuen verlustfreien Komprimierungsmethoden den gleichen Weg, um die verfügbare Bandbreite des Speichersubsystems wirtschaftlicher zu nutzen. Der Delta-Farbkomprimierungsalgorithmus versucht, eine Verstärkung von 2:1 zu erreichen, und dieser Modus wurde verbessert, um häufiger verwendet zu werden. Es gibt auch einen neuen 4:1-Modus, der in Fällen verwendet wird, in denen die Unterschiede pro Pixel sehr gering sind. Schließlich führt Pascal einen weiteren neuen 8:1-Algorithmus ein, der eine 4:1-Komprimierung auf 2x2-Blöcke anwendet, deren Differenz in einem 2:1-Algorithmus verarbeitet wird.



Der Unterschied ist nicht schwer zu veranschaulichen. Das erste Bild zeigt einen unkomprimierten Screenshot von Project CARS. Das folgende Bild zeigt die Elemente, die die Maxwell-Karte komprimieren kann. Sie sind lila schattiert. In der dritten Einstellung sieht man, dass Pascal die Szene noch stärker komprimiert. Laut Nvidia bedeutet dieser Unterschied eine Reduzierung der Informationsmenge in Bytes, die für jeden Frame aus dem Speicher abgerufen werden muss, um etwa 20 %.

Kürzlich veröffentlichten anekdotischen Beweisen zufolge könnte die Pascal-GPU-Familie zu einer der umfassendsten Produktpaletten von NVIDIA in den letzten Jahren werden. In nur wenigen Monaten hat das Unternehmen vier auf Pascal basierende GPUs eingeführt und wird dabei nicht aufhören. Nach Angaben des Firmenchefs wurden bei weitem nicht alle Pascal-Chips, geschweige denn echte Produkte, vorgestellt. Anscheinend warten wir in naher Zukunft auf neue Ankündigungen.

NVIDIA Pascal: acht Produkte in vier Monaten

Seit April dieses Jahres hat NVIDIA vier Pascal-basierte Chips vorgestellt: GP100 mit 16 GB HBM2-Speicher, GP102 mit GDDR5X-Unterstützung, GP104 und GP106. Gleichzeitig kündigte das Unternehmen acht Produkte an, die auf diesen GPUs basieren (ausgenommen einzelne Produkte verschiedener Arten von Sondereditionen der folgenden sowie Spezialgeräte wie DGX-1): GeForce GTX 1080/1070 (GP104), GeForce GTX 1060 (GP106), TITAN

Obwohl vier GPUs und acht Produkte in vier Monaten eine bemerkenswerte Leistung sind, fällt auf, dass das Unternehmen keine einzige neue Notebook-Lösung und keine einzige neue Grafikkarte unter 250 US-Dollar vorgestellt hat. Nach Angaben des NVIDIA-Chefs bereitet das Unternehmen neue GPUs auf Pascal-Basis vor, diese existieren bereits in Silizium, werden aber erst nach einiger Zeit auf den Markt kommen.

NVIDIA: Alle Pascals sind fertig, aber nicht alle werden vorgestellt

„Wir haben alles entworfen, überprüft und mit der Produktion begonnenGPU Architektur basiertPascal», sagte Jen-Hsun Huang, CEO von NVIDIA, während einer Telefonkonferenz mit Investoren und Finanzanalysten. „Allerdings haben wir noch nicht alle dieser GPUs eingeführt.“

Neue Konfigurationen

Allerdings sind es nicht so sehr die GP107-, GP108- und GP102-Interna, die für Gamer und Performance-Enthusiasten von Interesse sind, sondern die Tatsache, dass jeder Pascal-Chip in mindestens zwei Grundkonfigurationen existieren wird (in Bezug auf die PCIe-ID, die der NVIDIA-Treiber verwendet). ). Dies eröffnet Möglichkeiten für die Entwicklung einer Vielzahl neuer Produkte auf Basis der GP100-, GP102-, GP104- und GP106-Chips.

Daher gibt es den GP104 in den Konfigurationen GP104-A und GP104-B sowie in Versionen mit aktivierter Beschleunigung für professionelle Anwendungen – GP104GL-A und GP104GL-B. Wir wissen nicht genau, was die Buchstaben „A“ und „B“ bedeuten, aber wir können davon ausgehen, dass „A“ eine Mikroschaltung in der Maximalkonfiguration bezeichnet. GP104-A kann also mit GeForce GTX 1080 mithalten und GP104-B kann mit GeForce GTX 1070 mithalten.

Wenn man bedenkt, dass die GP102- und GP106-Mikroschaltungen auch in zwei Konfigurationen existieren (dies wird auf jeden Fall durch die AIDA64-Datenbank und die NVIDIA-Treiber angezeigt), es aber nur ein darauf basierendes Produkt gibt (GeForce GTX 1060 und TITAN X), können wir das durchaus tun erwarten, dass auf dieser Grundlage neue Lösungen entstehen. Ob diese Karten schneller oder langsamer als die bestehenden sein werden, wird die Zeit zeigen. Auf jeden Fall kann der GP102 sowohl „nach oben“ (bis zu 3840 Stream-Prozessoren) als auch „nach unten“ skalieren. Gleichzeitig kann man natürlich die hypothetische Möglichkeit des Erscheinens der dritten Version des GP102-C nicht ausschließen, falls NVIDIA diese benötigt.

Auf die eine oder andere Weise ist es offensichtlich, dass NVIDIA plant, die Familie der auf Pascal basierenden Grafikkarten zu erweitern. Obwohl die unmittelbaren Pläne eindeutig mobile und Mainstream-GPUs umfassen sollten, ist es sehr wahrscheinlich, dass wir in Zukunft neue Lösungen für leistungsstarke Gaming-PCs sehen werden.