Eine Grafikkarte kann äußerlich völlig unauffällig wirken und trotzdem unter Last instabil sein. Ich prüfe ihren Zustand deshalb nie über einen einzelnen Temperaturwert, sondern über das Zusammenspiel aus Sensoren, Lüfterverhalten, Taktstabilität und sichtbaren Fehlerbildern. In diesem Artikel zeige ich, welche Werte wirklich zählen, welche Software den besten Überblick liefert und wie man Belastungstests so einsetzt, dass sie echte Schwächen sichtbar machen, ohne die Karte unnötig zu quälen.
Die wichtigsten Punkte auf einen Blick
- Eine gesunde GPU erkennt man nicht an einem Einzelwert, sondern an stabilen Sensoren, sauberem Lüfterverhalten und fehlenden Artefakten.
- Der erste Check gelingt oft schon mit Task Manager, AMD Adrenalin oder nvidia-smi, je nach Hersteller.
- GPU-Z, HWiNFO, OCCT und 3DMark liefern deutlich mehr Tiefe, wenn du Fehler wirklich eingrenzen willst.
- Belastungstests sollten mit Stock-Settings beginnen, sonst prüfst du eher dein Overclocking als die Hardware.
- Artefakte, Abstürze unter Standardtakt oder ungewöhnliche Temperaturspitzen sind die stärksten Warnsignale.
Woran ich eine gesunde GPU erkenne
Bei vielen Karten sind im Leerlauf etwa 30 bis 50 °C normal, unter Spielen oft 65 bis 85 °C. Entscheidend ist aber nicht die Zahl allein, sondern ob sich die Werte über Zeit plausibel verhalten und nicht abrupt aus dem Rahmen fallen. Ein moderner Chip darf kurzzeitig hochboosten, sollte dabei aber weder Bildfehler noch Abstürze noch seltsame Lüfteraussetzer zeigen.
| Signal | Was ich als gut bewerte | Was mich misstrauisch macht |
|---|---|---|
| Temperatur | Leerlauf stabil, unter Last nachvollziehbar ansteigend | Sprunghafte Peaks, dauerhaftes Anstoßen ans Limit, unplausible Sprünge |
| Takt | Boost-Takt schwankt je nach Last, bleibt aber konsistent | Starkes Heruntertakten trotz moderater Last oder sauberer Kühlung |
| Lüfter | Zero-RPM im Leerlauf bei vielen Karten völlig normal | Lüfter drehen unter Last nicht hoch oder laufen dauerhaft am Anschlag |
| Bildausgabe | Sauberes Bild ohne Flackern, Streifen, Pixelmüll oder schwarze Frames | Artefakte, kurze Black Screens, Treiber-Resets, Spielabstürze |
| Systemreaktion | Stabile Frametimes und kein spürbares Ruckeln jenseits der Spielszene | Unerklärliche Einbrüche, Hänger oder wiederkehrende TDR-Fehler |
Wichtig ist außerdem die Unterscheidung zwischen Core-Temperatur und Junction- oder Hotspot-Temperatur. Die Junction ist der heißeste Punkt auf dem Chip und liegt deshalb oft deutlich über der Kerntemperatur. Das ist nicht automatisch ein Problem, aber es zeigt sehr schnell, ob der Kühler wirklich sauber arbeitet oder nur gerade noch so mithält. Genau deshalb reicht ein einziger Sensorwert für eine belastbare Einschätzung nicht aus. Der nächste Schritt ist deshalb, die passenden Werkzeuge zu wählen, statt sich auf die Standardanzeige im System zu verlassen.
Mit Bordmitteln den ersten Check machen
Für einen schnellen Vorab-Check reichen oft schon die mitgelieferten Werkzeuge. In Windows öffne ich den Task Manager, gehe auf Leistung und wähle die GPU, um Modell und Auslastung im Blick zu behalten; Microsoft führt genau diesen Weg für den schnellen Überblick. Die Temperatur wird dort nur angezeigt, wenn Treiber und Hardware sie auch wirklich bereitstellen. Auf AMD-Seite liefert Adrenalin zusätzlich Live-Metriken wie GPU Current Temperature, GPU Junction Temperature, GPU FAN Speed und ein Logging mit einem Sampling-Intervall von 0,25 bis 5 Sekunden. NVIDIA-Nutzer bekommen mit nvidia-smi auf unterstützten Karten Werte wie Temperatur, Auslastung, Power, Clocks und sogar ECC-bezogene Informationen direkt in der Konsole.
- Ich starte im Leerlauf und lasse die Karte 5 bis 10 Minuten in Ruhe.
- Dann prüfe ich, ob Temperatur, Takt und Lüfterverhalten logisch zusammenpassen.
- Als Nächstes öffne ich ein Spiel oder einen Benchmark, den die Karte sicher kennt.
- Unter Last beobachte ich, ob die Auslastung steigt, der Takt plausibel bleibt und die Lüfter reagieren.
- Wenn etwas auffällt, vergleiche ich die Werte mit einem zweiten Tool, bevor ich Schlüsse ziehe.
Gerade bei NVIDIA ist der Blick auf die Zusatzwerte interessant: ECC-Fehler und Page-Retention-Informationen spielen vor allem bei Workstation- und Datacenter-Karten eine Rolle und können ein sehr frühes Warnsignal sein. Bei AMD dagegen ist die Kombination aus Core-Temperatur, Junction-Temperatur, Lüfterdrehzahl und Leistungsaufnahme oft der schnellste Weg, um echte thermische Probleme von bloßen Anzeigeeffekten zu trennen. Für einen ersten Eindruck reicht das oft schon, aber für eine saubere Diagnose brauche ich mehr als Bordmittel.
Diese Programme geben mehr Tiefe als die Bordmittel
Wenn ich nicht nur sehen will, dass die GPU läuft, sondern warum sie sich auffällig verhält, arbeite ich mit spezialisierten Tools. Wichtig ist dabei nicht, alle Programme gleichzeitig zu öffnen, sondern das richtige Werkzeug für die konkrete Frage zu wählen. Ein gutes Monitoring-Tool misst Sensoren, ein Benchmark erzeugt Last, ein Stresstest sucht Fehler. Das ist nicht dasselbe.
| Tool | Stärke | Grenze | Wofür ich es nutze |
|---|---|---|---|
| GPU-Z | Sehr leichtgewichtig, schnelle Übersicht über GPU-Daten und Sensoren | Kein vollständiges Diagnosesystem, eher Blick auf Zustand und Basiswerte | Erster technischer Check und schnelle Plausibilitätskontrolle |
| HWiNFO | Sehr breite Sensorabdeckung und sauberes Logging | Viele Werte, die man erst richtig einordnen muss | Temperaturen, Lüfter, Spannungen und Verlauf über Zeit |
| OCCT | Stabilitätstests, 3D-Tests und Monitoring in einem Paket | Belastung kann härter sein als der Alltag im Gaming | Fehler, Instabilitäten und thermische Schwächen aufdecken |
| 3DMark | Gaming-nahe Benchmarks für realistische Last | Zeigt Performance gut, ist aber kein reiner Hardware-Fault-Tester | Prüfen, ob die Karte unter typischer Spielbelastung sauber läuft |
GPU-Z mag ich, wenn ich in zwei Minuten wissen will, ob die Karte plausible Basiswerte liefert. HWiNFO nehme ich, wenn ich einen vollständigen Verlauf brauche und nicht nur einen Momentwert. OCCT ist mein Werkzeug, wenn ich Instabilität absichtlich provozieren will. 3DMark wiederum ist der bessere Kompromiss, wenn ich möglichst nah an einem echten Spiele-Szenario bleiben möchte. Genau diese Trennung spart Zeit, weil man nicht jedes Problem mit demselben Programm erschlägt. Der eigentliche Nutzen entsteht erst dann, wenn man den Testaufbau bewusst plant.
So teste ich Stabilität ohne die Karte unnötig zu quälen
Ich starte nie mit einem aggressiven Overclocking-Test. Erst wenn die Karte auf Standardwerten stabil läuft, lohnt sich die Frage, ob auch Wärme, Lüfterkurve und Stromversorgung sauber mitspielen. Für einen schnellen Realitätscheck reichen oft 10 bis 15 Minuten Last. Für eine belastbarere Einschätzung nehme ich eher 30 bis 60 Minuten, bei seltenen Fehlerbildern auch eine längere Spielsitzung. Ein kurzer Spot-Test ist gut, aber er ersetzt keine echte Dauerbelastung.
- Alle Tuning-Änderungen zurücksetzen. Ich prüfe zuerst mit Standardtakt, Standardspannung und normaler Lüfterkurve.
- Leerlauf dokumentieren. Temperatur, Lüfterdrehzahl und Auslastung notiere ich nach einigen Minuten Ruhe.
- Eine realistische Last erzeugen. Ein bekanntes Spiel oder ein Benchmark wie 3DMark zeigt oft mehr als ein theoretischer Maximaltest.
- Dann gezielt Stress aufbauen. OCCT eignet sich, wenn ich Fehler erzwingen und nicht nur Leistung messen will.
- Logs sichern. Gerade bei sporadischen Problemen ist ein Temperatur- und Taktverlauf wertvoller als ein einzelner Screenshot.
Beim Lesen der Daten achte ich auf Muster. Wenn die Temperatur sauber steigt, der Takt stabil bleibt und die Frametimes ruhig sind, spricht das für eine gesunde Karte. Wenn die Lüfter zwar hochdrehen, die Temperatur aber trotzdem schnell wegläuft, liegt das Problem oft an Kühlung, Staub oder Wärmeleitpaste. Wenn die Temperatur dagegen unauffällig bleibt und die Karte trotzdem abstürzt, rückt die Stromversorgung, der Treiber oder die eigentliche Hardware stärker in den Fokus. Der nächste Schritt ist dann die Einordnung der Symptome, denn nicht jede Auffälligkeit bedeutet sofort einen Defekt.
Typische Fehlerbilder und was sie bedeuten
Die meisten GPU-Probleme lassen sich besser verstehen, wenn man sie nicht isoliert betrachtet. Ein einzelner Freeze kann vom Spiel kommen, ein Treiber-Reset von einer Softwarekombination, und ein sichtbares Artefakt kann genauso gut von zu heißem Speicher wie von einer instabilen Spannung verursacht werden. Ich bewerte deshalb immer das Gesamtbild aus Sensoren, Fehlermeldungen und Verhalten unter Last.
| Auffälligkeit | Wahrscheinliche Ursache | Erster sinnvoller Schritt |
|---|---|---|
| Artefakte, farbige Pixel, Streifen | VRAM-Instabilität, Überhitzung, zu hoher Speichertakt oder Hardwaredefekt | Alles auf Stock setzen, Speichertemperatur prüfen, anderen Testlauf probieren |
| Black Screen oder Treiber-Reset | Treiberproblem, instabile Spannung, Netzteil, Kabel oder Karte selbst | Treiber sauber neu installieren und die Last mit einem zweiten Tool gegenprüfen |
| Lüfter steht auf 0 RPM unter Last | Zero-Fan-Modus, falsches Auslesen oder echter Lüfterfehler | Mit einem zweiten Tool gegenprüfen und die Lüfterkurve bewusst anheben |
| Temperatur schießt sofort hoch | Schlechter Luftstrom, Staub, gealterte Wärmeleitpaste oder schlechter Kühlkontakt | Gehäuse reinigen, Airflow prüfen und die Karte erneut testen |
| Takt fällt trotz moderater Last stark ab | Power-Limit, thermische Drosselung oder zu aggressive Einstellungen | Power- und Temperaturgrenzen ansehen, Settings zurücksetzen |
Ein Punkt wird oft falsch gelesen: 0 RPM ist im Leerlauf nicht automatisch schlecht. Viele Karten schalten ihre Lüfter bewusst ab, solange die Temperatur niedrig bleibt. Kritisch wird es erst, wenn die Lüfter auch unter echter Last nicht reagieren oder wenn die Karte deutlich wärmer wird, obwohl die Drehzahl angeblich steigt. Wenn mehrere dieser Muster zusammen auftreten, wird der Verdacht auf einen echten Hardwarefehler deutlich stärker.
Die drei Signale, bei denen ich von einem echten Problem ausgehe
Wenn ich eine Karte beurteilen muss, reichen mir am Ende drei Signale als Entscheidungsgrundlage: Fehler unter Standardtakt, plausible Bestätigung durch mehrere Tools und Wiederholbarkeit in verschiedenen Lastszenarien. Treten Artefakte, Abstürze oder extreme Temperaturabweichungen nur in einem einzelnen Programm auf, bleibe ich noch vorsichtig. Sobald das Verhalten aber nach Treiberneuinstallation, mit Standardwerten und unter sauberer Dokumentation wiederkommt, ist die Wahrscheinlichkeit für ein echtes Hardwareproblem deutlich höher.
Für die Praxis halte ich mir deshalb immer ein kleines Profil fest: typische Idle-Temperatur, Last-Temperatur, Lüfterdrehzahl, Boost-Takt und Leistungsaufnahme. Wer diese Basis kennt, erkennt Abweichungen viel schneller als mit einem einzelnen Grenzwert. Genau das macht die GPU-Überprüfung verlässlich: nicht Panik bei einem Ausreißer, sondern sauberer Vergleich zwischen Normalzustand und echtem Fehlerbild.