Klima, Teil 3: Was misst die Deutschlandtemperatur wirklich?

Klima, Teil 3: Was misst die Deutschlandtemperatur wirklich?

Was besagt die globale Mittelwertstemperatur?

Globale Mittelwertstemperaturen wirken auf den ersten Blick wie eine unangreifbare Größe: eine Zahl, ein Trend, ein Diagramm, eine scheinbar nüchterne Verdichtung der Wirklichkeit. Gerade deshalb eignen sie sich besonders gut für eine Untersuchung im Geist wissenschaftlichen Zweifelns. Je größer die Autorität einer Kennzahl, desto wichtiger wird die Frage, was sie eigentlich misst, wie sie zustande kommt und welche Unsicherheiten in ihr verborgen sind.

 

Schon der Begriff „globale Mittelwertstemperatur“ wirft Fragen auf. Wie bildet man aus Milliarden lokaler, zeitlich schwankender und räumlich ungleich verteilter Messwerte überhaupt einen einzigen globalen Mittelwert? Welche Regionen sind gut erfasst, welche schlecht? Was wird direkt gemessen, was geschätzt? Was ist Rohdatenmaterial, was bereits bearbeitet? Und was bedeutet es überhaupt, wenn von einer Änderung um wenige Zehntelgrade gesprochen wird?

 

Mein Zweifel richtet sich gegen die Selbstverständlichkeit, mit der aus einer komplexen, fehleranfälligen und methodisch stark bearbeiteten Datenlandschaft eine scheinbar glatte und eindeutige globale Kennzahl gemacht wird. Genau dort beginnt die eigentliche Untersuchung. Denn ein arithmetisches Mittel ist keine magische Wahrheitsmaschine. Es ist ein mathematisches Werkzeug, das nur unter bestimmten Bedingungen sauber funktioniert. Man kann nicht einfach alles, was irgendwo als Temperatur gemessen wurde, in einen Topf werfen, umrühren und so tun, als spreche am Ende die Erde selbst.

 

Der erste Zweifel ist unerquicklich genug: Mittle ich überhaupt immer dieselbe Sache? Wenn das Stationsnetz sich über die Jahrzehnte verändert, wenn Messpunkte wegfallen, neue hinzukommen, Standorte verlegt werden oder ganze Regionen zeitweise dünn besetzt sind, dann ändert sich nicht nur die Temperatur, sondern auch die Auswahl der Daten. Dann vergleicht man unterschiedliche Stichproben und nennt das Ergebnis trotzdem „globale Mitteltemperatur“, als sei damit bereits alles geklärt.

 

Der zweite Zweifel ist noch grundsätzlicher. Ein globales Mittel setzt eine halbwegs faire globale Abdeckung voraus. Historisch ist das aber nicht gegeben. Manche Räume sind dicht beobachtet, andere schlecht, spät oder nur indirekt. Über Ozeanen, in Polarregionen und in früheren Jahrzehnten wird die Sache besonders unerquicklich. Wo Daten fehlen, muss ergänzt, geschätzt, gewichtet oder interpoliert werden. Das kann man tun. Aber man sollte dann auch offen sagen, dass die berühmte globale Zahl nicht einfach gemessen, sondern zu einem guten Teil konstruiert wurde.

 

Der dritte Zweifel heißt UHI, also Urban Heat Island. Wer ihn kleinredet, macht es sich zu leicht. Messstationen stehen nicht im zeitlosen Nirgendwo. Um viele von ihnen herum wurde gebaut, versiegelt, verdichtet, betoniert, beleuchtet und befahren. Flughäfen wachsen, Städte wachsen, Infrastruktur wächst. Mit ihr wächst die Wahrscheinlichkeit, dass ein Teil des gemessenen Signals nicht nur großräumiges Klima ist, sondern lokale Erwärmung durch menschlich veränderte Umgebung. Schon die Notwendigkeit, diesen Effekt herauszurechnen, zeigt das Problem.

 

Der vierte Zweifel betrifft die Messbedingungen selbst. Instrumente ändern sich. Beobachtungszeiten ändern sich. Stationen werden versetzt. Die Umgebung verändert sich. Vegetation kommt und geht. Aus freien Flächen werden bebaute Flächen. Aus ländlichen Rändern werden Vororte. Wer dann so spricht, als lägen hier lauter sauber vergleichbare Zahlen auf dem Tisch, täuscht eine Stabilität vor, die es in Wirklichkeit gar nicht gibt. Man muss die Daten erst bearbeiten, anpassen, homogenisieren und glätten.

 

Der fünfte Zweifel liegt in der Mischung völlig unterschiedlicher Datentypen. Landstationen, Meeresoberflächen, Schiffsdaten, Bojen, unterschiedliche historische Verfahren, unterschiedliche Fehlerquellen, unterschiedliche Dichten, unterschiedliche Korrekturen — und am Ende steht eine Zahl mit dem Anschein elementarer Klarheit. Das Problem ist nicht, dass man solche Daten zusammenführen will. Das Problem ist die Selbstverständlichkeit, mit der aus dieser Heterogenität eine einzige Kennziffer gemacht wird, die dann oft so behandelt wird, als sei sie so direkt wie das Ablesen eines Thermometers.

 

Hier liegt mein eigentlicher Einwand: Je stärker eine Größe bearbeitet, korrigiert, ergänzt und modelliert werden muss, desto vorsichtiger sollte man mit ihrer scheinbaren Eindeutigkeit sein. Es nimmt ihr die Unschuld, die der Ausdruck „arithmetisches Mittel“ oft suggeriert. Hinter dieser Zahl steckt eine ganze Kette von Entscheidungen darüber, welche Daten zählen, welche nicht, wie Lücken behandelt werden, wie Verzerrungen korrigiert werden und wie aus ungleichen Teilen am Ende doch ein Ganzes werden soll.

 

Die Gegenposition

Die naheliegende Erwiderung lautet: Die globale oder nationale Mittelwertstemperatur wird gerade nicht einfach arithmetisch aus allen Stationswerten zusammengezählt und durch ihre Anzahl geteilt. Stattdessen kommt ein deutlich komplexeres Verfahren zum Einsatz. Der DWD beschreibt dieses für Deutschland im Kern so: Zunächst werden die Stationszeitreihen homogenisiert. Dabei werden auffällige Sprünge in den Stationszeitreihen identifiziert und mit Hilfe von Metadaten und Referenzstationen eingeordnet. Diese Sprünge sind gerade nicht klimatisch bedingt, sondern entstehen etwa durch Stationsverlegung, Gerätewechsel, Beobachterwechsel oder Urbanisierung. Solche Veränderungen werden mit individuellen Korrekturwerten angepasst, wobei der DWD ausdrücklich darauf hinweist, dass sich Inhomogenitäten statistisch nicht vollständig beseitigen, wohl aber auf einen nicht mehr signifikanten Betrag verringern lassen. Anschließend wird das Deutschlandmittel nicht als bloßes arithmetisches Mittel aller korrigierten Stationenwerte gebildet, sondern über Gebietsmittelwerte und Rasterdaten. Damit soll verhindert werden, dass dicht vermessene oder methodisch anders geprägte Regionen das Ergebnis unverhältnismäßig stark beeinflussen (DWD 1997; o. J.-a).

 

Wenn in der Praxis längst mit Homogenisierung, Flächenbezug und modellierten Gebietsmitteln gearbeitet wird, läuft der oben beschriebene Einwand gegen das einfache arithmetische Mittel ins Leere. Doch genau das kann man relativ einfach überprüfen – mit einem Vergleich zwischen den Originaldaten und der offiziellen Temperaturkurve, die den globalen Temperaturverlauf oder mindestens die globale Temperaturanormalie beschreibt.

 

Leider ist es mir derzeit noch nicht möglich, den offiziellen globalen Temperaturverlauf zu prüfen. Mir fehlen dafür bislang die Originaldaten und die vollständige Verarbeitungskette; GISTEMP oder HadCRUT sind bereits aufbereitete Datensätze. Aber für Deutschland ist das anders: Hier lässt sich der Befund nachprüfen, weil der DWD die Originaldaten aufgrund gesetzlicher Vorgaben kostenfrei bereitstellen muss. Deshalb verlagere ich die Frage zunächst vom globalen Maßstab auf einen Fall, der sich methodisch offen nachbauen und kontrollieren lässt: Deutschland.

 

Der Nachbau für Deutschland

Für diese Überprüfung habe ich den Analysezeitraum von 1951 bis Ende 2024 festgelegt. Erst ab diesem Zeitraum gibt es hinreichend viele Stationen, um die notwendigen Auswertungen belastbar durchführen zu können. Für die verfügbaren DWD-Stationen habe ich feste Kriterien aufgestellt: Nur geeignete freie Stationen mit ausreichender zeitlicher Überlappung und regionaler Zuordnung, die die Temperatur und/oder die Sonnenscheindauer für mindestens 20 Jahre im Analysezeitraum berichten. Das war die klare Mehrzahl der frei zugänglichen Stationen. Der DWD arbeitet hier erfreulich offen und sauber. Die Metadaten der Stationen — also ID, Höhe und geographische Lage — sowie die Messwerte für tägliche Mitteltemperatur und Sonnenscheindauer habe ich anschließend mit Hilfe eines Skripts aus dem DWD-Open-Data-Bereich heruntergeladen und gegengecheckt.

 

Nach dem Download wurde überprüft: Sind die Dateien vorhanden? Passen sie zur jeweiligen Station? Sind die nötigen Spalten enthalten? Lassen sich die Daten für den gewählten Zeitraum sinnvoll verwenden? Auch hier war der Ausschuss sehr gering. Aus den täglichen Stationsdaten habe ich danach für jede Station Jahresreihen erzeugt, also Jahresmittelwerte und weitere zusammengefasste Größen. Diese Jahresdaten wurden mitsamt den Stationsinformationen gespeichert, sodass später nachvollziehbar bleibt, welche Station in welcher Region mit welchen Werten eingegangen ist. Auf dieser Grundlage lässt sich prüfen, wie aus einzelnen Messstationen später ein Deutschlandmittel gebildet wird.

 

Warum ein guter Fit noch keine Theorie ist

Weil ich die Daten in dieser Form gerade vorliegen hatte, habe ich mir vor der eigentlichen Überprüfung noch eine kleine Sidequest erlaubt: Wie viel der langfristigen Temperaturänderung lässt sich mit den verschiedenen verfügbaren Variablen überhaupt statistisch mitbeschreiben?

 

Mit den vorliegenden Daten konnte ich für Deutschland ein einfaches lineares Modell schätzen. Es prüft, wie gut sich die standardisierte Temperaturentwicklung durch die ebenfalls standardisierten Reihen von Sonnenscheindauer und CO2-Forcing beschreiben lässt. Das Ergebnis ist wenig überraschend: Die langfristige Temperaturreihe steigt deutlich an, das CO2-Forcing ebenfalls, und auch die Sonnenscheindauer zeigt im längerfristigen Verlauf nach oben. Entsprechend liefert das Modell positive Beiträge für Sonne und CO2. Überraschend ist das nicht. Alle drei Größen sind in den letzten 75 Jahren ziemlich kontinuierlich gestiegen.

 

 

Ein guter Fit beweist noch keine richtige Theorie. Er zeigt zunächst nur, dass sich zwei oder mehr Größen mathematisch gemeinsam beschreiben lassen. Wo mehrere Reihen über lange Zeit in dieselbe Richtung laufen, entstehen fast zwangsläufig statistische Zusammenhänge. Genau deshalb gilt es in sauberer Arbeit als schlechter Stil, einfach alles mit allem zu korrelieren und sich die passende Kausalgeschichte erst nachträglich zusammenzubauen. Eine Hypothese wird nicht dadurch stark, dass sie gut an vorhandene Daten anschließt, sondern dadurch, dass sie auf einer tragfähigen Theorie beruht, überprüfbare Erwartungen erzeugt und an der Wirklichkeit auch scheitern kann. Das gilt streng genommen für den Zusammenhang zwischen CO2 und Temperatur genauso wie für die folgende Zirkulationstheorie zur Erklärung der Erderwärmung:

 

Änderungen der geomagnetischen Aktivität und des Erdmagnetfelds beeinflussen nachweislich den Energieeintrag in die obere Atmosphäre. Joule-Heizung ist dabei ein zentraler Mechanismus der Thermosphäre, und Modellarbeiten zeigen, dass langfristige Änderungen des Erdmagnetfelds Temperatur, Winde und Dynamik der oberen Atmosphäre beeinflussen können (Wiltberger et al., 2004; Cnossen & Richmond, 2013; Cnossen et al., 2016). Solche Veränderungen in der oberen Atmosphäre prägen chemische und dynamische Prozesse in der mittleren Atmosphäre mit, etwa über NOx, Ozonverteilung, Temperaturgradienten und Wellenausbreitung. Studien zu geomagnetischer Aktivität und Teilchenniederschlag zeigen, dass solche Prozesse mit Veränderungen des stratosphärischen Polarwirbels verbunden sein können; bei hoher geomagnetischer Aktivität wurde in Arbeiten für den Spätwinter ein stärkerer stratosphärischer Polarwirbel beschrieben (Baumgaertner et al., 2011; Seppälä et al., 2013). Typischerweise geht ein stärkerer stratosphärischer Polarwirbel beziehungsweise Zirkumpolarjet eher mit einer polwärtigen Lage des troposphärischen Jets einher, ein schwächerer eher mit einer äquatorwärtigen. Solche stratosphärisch-troposphärischen Kopplungen sind in der Literatur gut belegt (Kidston et al., 2015). Zusätzlich gibt es Arbeiten, die zeigen, dass Arktiserwärmung und Meereisverlust die Lage und Dynamik des Jetstreams beeinflussen können. Zusammengefasst: Änderungen der Zirkulation prägen regionale Temperaturmuster, den Wärmetransport und damit schließlich auch Flächenmitteltemperaturen mit (Screen et al., 2022).

 

Das Ergebnis ist als methodischer Warnhinweis durchaus interessant: Auch über die Variablen „Sonnenscheindauer“ und „Breitenlage des magnetischen Nordpols“ lässt sich die Temperaturreihe statistisch sehr gut abbilden, sogar besser. Der Unterschied liegt nicht zuerst im Korrelationswert, sondern in der Qualität der zugrunde liegenden Theorie. Am Ende entscheidet also nicht die bloße Enge eines Fits darüber, welche These glaubhafter ist, sondern die Stärke der Theorie, die hinter diesem Fit steht.

 

 

Das wird später noch wichtig, wenn es um Klimamodelle geht. Klimamodelle sind nicht bloß neutrale Rechenmaschinen, sondern tragen Annahmen, Parametrisierungen und Kalibrierungen bereits in sich. In der Fachliteratur ist gut dokumentiert, dass globale Klimamodelle „getunt“ werden und dass wichtige Modellparameter die Ergebnisse mitprägen können. Das ist kein Skandal, sondern Teil der Modellpraxis. Aber es bedeutet eben auch: Ein Modell bestätigt nicht automatisch unabhängig die Hypothese, aus der es gebaut wurde. Es kann deren Annahmen bereits mittransportieren.

 

Wenn zwei Größen über lange Zeit streng oder fast monoton ansteigen, findet man oft ohne große Mühe statistische Zusammenhänge. Und mit etwas Geschick lässt sich dazu schnell auch eine plausible Geschichte formulieren. Auch Klimamodelle sind keine neutralen Richter außerhalb aller Annahmen. Sie enthalten Parametrisierungen, Kalibrierungen und teils auch abgestimmte Parameterwahl, etwa bei der Höhe der Klimasensitivität, die in CMIP6 eine Variable ist. Genau deshalb kann ein guter Modellfit für sich genommen nicht schon als Beweis der Hypothese gelten, die im Modellaufbau selbst bereits vorausgesetzt oder mitgeführt wird.

 

Aber zurück zur Überprüfung der deutschlandweiten Mittelwerttemperatur.

 

Die erste Überraschung

Nun kommt der erste Befund, der mich tatsächlich überrascht hat. Der DWD beschreibt, wie berichtet, seine offizielle Deutschland-Temperaturreihe (DWD, 2026) ausdrücklich nicht als bloßes arithmetisches Mittel einzelner Stationen, sondern als flächenbezogenes Gebietsmittel auf Basis rasterisierter Daten, das potenzielle Fehlerquellen wie Stationszusammensetzung oder Wärmeinseleffekte methodisch berücksichtigen soll. Genau deshalb hätte ich erwartet, dass ein schlichter arithmetischer Mittelwert, der jährlich über die Temperaturangaben aller in diesem Jahr verfügbaren Stationen berechnet wird, deutlich von der offiziellen Deutschlandkurve abweicht.

 

Genau das passiert aber nicht. Ich habe die offizielle DWD-Reihe für Deutschland direkt mit dem blinden Stationsmittelwert verglichen. Beide Reihen wurden auf 1951 auf 0 °C gesetzt und anschließend bis 2024 gegenübergestellt. Das Ergebnis ist erstaunlich eng: Die mittlere absolute Differenz der linearen Trendlinien liegt nur bei rund 0,017 °C, die RMSE bei etwa 0,020 °C, und selbst die maximale Abweichung erreicht nur ungefähr 0,035 °C.

 

 

Das ist bemerkenswert. Denn wenn das offizielle Verfahren des DWD die weiter oben diskutierten Probleme tatsächlich stark herausrechnen oder methodisch neutralisieren würde, dann müsste sich dieser Zusatzaufwand im Ergebnis viel deutlicher zeigen. Genau das sehe ich hier aber zunächst nicht. Das naive Drübermitteln liefert für den langfristigen Deutschlandtrend so gut wie dieselbe langfristige Temperaturentwicklung, ja sogar beinahe dieselben jährlichen Temperaturmittelwerte. Falls in den Stationsdaten ein Bias steckt, dann ist er im Deutschlandmittel offenbar weiterhin enthalten.

 

Nicht die Abweichung ist überraschend, sondern ihr Ausbleiben. Der methodische Abstand ist groß, der praktische Abstand der Temperaturkurven aber sehr klein. Und gerade deshalb ist der Zweifel an der Temperaturkurve nicht ausgeräumt, sondern nur verlagert: Wenn die offizielle Reihe dem naiven Stationsmittel so gut wie entspricht, dann muss die eigentliche Prüfung jetzt bei den Daten selbst, bei der Stationszusammensetzung und bei möglichen systematischen Einflüssen ansetzen.

 

Deshalb reicht es an dieser Stelle nicht, sich auf das offizielle Verfahren zu berufen und die Frage damit für erledigt zu erklären. Wenn die Kurven nahezu gleich verlaufen, dann müssen wir weiterrechnen.

 

Der erste Bias: wechselnde Stationszusammensetzung

Als Nächstes habe ich geprüft, ob der Wechsel im Stationsnetz selbst einen Bias erzeugt: also ob früh ausgeschiedene Stationen im Mittel kühler waren und neu hinzugekommene Stationen im Mittel wärmer, sodass allein die veränderte Stationszusammensetzung die Deutschlandkurve nach oben verschiebt.

 

Das Ergebnis ist nicht dramatisch, aber es ist auch nicht null. Stationen, die nach 1990 neu hinzukamen, liegen im Mittel um rund 0,31 °C über dem Kernnetz, also über jenen Stationen, die den gesamten Zeitraum durchlaufen. Im Stationsmittel über das Gesamtnetz ergibt sich daraus ein Artefakt von ungefähr +0,10 °C; der Median liegt in derselben Größenordnung. Das ist nicht verheerend, aber durchaus berichtenswert. Ein Zehntelgrad ist zu wenig für einen Entwarnungsruf und zu viel für ein Achselzucken.

 

 

Damit ist noch nicht alles erklärt. Der Bias durch die wechselnde Stationszusammensetzung ist vorhanden, aber er trägt den Befund nicht vollständig. Genau deshalb kann man an dieser Stelle nicht stehenbleiben. Genau deshalb muss weitergerechnet werden.

 

Der zweite Bias: Urbanisierung

Als Nächstes habe ich den Urbanisierungseffekt untersucht. Die Grundidee war einfach: Wenn sich die Umgebung der Messstationen im Lauf der Jahrzehnte unterschiedlich verändert hat, dann muss man genau diesen Effekt sichtbar machen, bevor man Temperaturreihen ernsthaft interpretiert. Der physikalische Hintergrund ist banal: Versiegelte Flächen, Beton, Asphalt und Bebauung speichern Wärme tagsüber und geben sie vor allem nachts wieder ab. Dadurch können urban geprägte Standorte systematisch wärmer erscheinen als ländliche.

 

Dafür habe ich die Stationen nach einer einheitlichen Umfeldlogik geordnet: mithilfe der GHSL-Daten. Das sind globale Siedlungs- und Bebauungsdaten, mit denen sich für verschiedene Zeitpunkte abschätzen lässt, wie stark das Umfeld eines Standorts urban geprägt ist. Für mehrere Zeitpunkte wurde bestimmt, wie stark das Umfeld jeder Station im Nahbereich und im weiteren Umkreis bebaut oder verdichtet war. Daraus entstanden robuste Gruppen wie stabil ländlich, stabil urban, stadtnah oder klar gewachsen. Entscheidend war dann nicht mehr nur die einzelne Stationsreihe, sondern der Vergleich dieser Gruppen über die Zeit.

 

Das Ergebnis finde ich ziemlich deutlich. Die Zahl der als urban eingestuften Stationen nimmt im Verlauf stark zu, während die Zahl klar ländlicher Stationen sinkt. Gleichzeitig zeigen die Temperaturreihen der einzelnen Gruppen, dass urbane Stationen über weite Strecken über den stabil ländlichen liegen — und zwar nicht nur in den Rohdaten, sondern auch nach Höhenkorrektur.

 

 

Besonders aufschlussreich ist die Leitdifferenz urban minus ländlich. Eine klassische Dekadentabelle wäre hier irreführend, weil die GHSL-Daten erst ab 1975 vorliegen und frühere Abschnitte deshalb nicht gleichwertig unterfüttert wären. Ich rechne deshalb mit zwei methodisch besser abgesicherten Vergleichszeiträumen: 1985–2000 und 2011–2025. Zwischen diesen beiden Zeitfenstern kippt die Leitdifferenz von etwa -0,38 °C auf rund +0,37 °C. Das entspricht einer Spannweite von über 0,75 °C. Im Stationsmittel bleibt davon immer noch ein Effekt von ungefähr 0,5 °C.

 

 

Und genau an diesem Punkt habe ich ein echtes Problem mit der offiziellen Behandlung: Wenn man den mittleren Temperaturanstieg zwischen 1985–2000 und 2021–2025 mit rund 1,1 °C ansetzt (DWD, 2026), dann erreicht der hier abgeschätzte Urbanisierungseffekt mit etwa 0,75 °C eine Größenordnung von knapp 70 % dieses Anstiegs. Der Effekt aus der veränderten Stationszusammensetzung liegt mit rund 0,5 °C immer noch bei etwa 45 %. Das ist kein vernachlässigbares Detail mehr. Nimmt man dann noch die ca. 10% Anteil dazu, die sich durch die berichteten Stationswechsel erklären lassen und die ebenfalls additiv wirken, ist das ein klarer Hinweis darauf, dass Veränderungen im Stationsumfeld die Temperaturreihen deutlich mitprägen. Und genau solche Effekte kann man prinzipiell herausmodellieren — zum Beispiel mit genau dem Verfahren, das ich hier angewendet habe: stabile Gruppen bilden, ihre Differenzen über die Zeit verfolgen und daraus einen Korrekturhinweis ableiten.

 

Hier wird ein systematischer Effekt sichtbar, der in einer amtlichen Deutschlandreihe nicht einfach stillschweigend mitlaufen sollte. Wenn man ihn messen kann, dann sollte man ihn auch offen ausweisen und methodisch behandeln.

 

Der Urbanisierungseffekt ist keine rhetorische Nebelkerze, sondern als Größenordnung real erkennbar. Genau deshalb reicht es nicht, sich auf die bloße Existenz einer offiziellen Mittelreihe zu berufen. Man muss prüfen, welche Teile dieser Reihe möglicherweise aus dem Klimasignal stammen und welche aus der Veränderung des Messumfelds. Genau an dieser Stelle beginnt dann die eigentliche und letzte Qualitätsfrage.

 

Die letzte und wichtigste Rechnung: das Mixed Model

Die letzte und für mich interessanteste Rechnung war dann die eigentliche Modellierung als Mixed Model. Vereinfacht gesagt ist das ein Rechenverfahren für Daten, die nicht aus gleichartigen Einzelpunkten bestehen, sondern aus vielen Messreihen, die zu verschiedenen Stationen gehören. Genau das ist hier der Fall: Jede Wetterstation misst über Jahre hinweg, und diese Stationen unterscheiden sich dauerhaft voneinander. Ein Mixed Model kann beides gleichzeitig berücksichtigen: die gemeinsamen Einflussgrößen und die stationstypischen Eigenheiten und Entwicklungen.

 

Verwendet wurde ein Random-Intercept-Modell mit der Stations-ID als zufälligem Effekt. Für Laien heißt das: Jede Station bekommt im Modell ihren eigenen Ausgangspegel. Das Modell erlaubt also, dass manche Stationen dauerhaft etwas wärmer, andere dauerhaft etwas kühler liegen — selbst dann, wenn sie sich im zeitlichen Verlauf ähnlich entwickeln.

 

Die Zielgröße war die standardisierte DWD-Temperatur. Als feste Effekte gingen drei Größen ein: die Sonnenscheindauer, ein CO2-bezogener Strahlungsantrieb und ein Urbanitätsmaß, das aus den GHSL-Strict-Gruppen abgeleitet wurde. Zusätzlich erhielt jede Station ihren eigenen Random Intercept. So konnte das Modell zwischen allgemeinen Einflüssen auf alle Stationen und den dauerhaften Unterschieden zwischen einzelnen Stationen unterscheiden.

 

Für die Rohwerte und für die höhenkorrigierten Werte wurden jeweils ein Vollmodell und mehrere reduzierte Modelle gerechnet. Dadurch ließ sich prüfen, wie stark sich das Gesamtmodell verschlechtert, wenn man einen Faktor weglässt. Aus diesen Vergleichen wurden unter anderem Likelihood-Vergleiche, AIC- und BIC-Unterschiede sowie semi-partielle R²-Werte abgeleitet. So bekommt man nicht nur ein Endergebnis, sondern auch ein Gefühl dafür, welcher Faktor im Modell wirklich etwas trägt.

 

Das zentrale Ergebnis ist aus meiner Sicht mehr als bemerkenswert. Das höhenkorrigierte Abschlussmodell erreicht ein marginales R² von etwa 0,178 und ein konditionales R² von etwa 0,747. Das bedeutet: Die festen Effekte — also Sonne, CO2 und der explizit modellierte Urbanisierungseffekt aus den GHSL-Daten — erklären zusammen rund 17,8 % der Varianz, davon CO2 etwa 7,0 % und Sonne etwa 8,0 %. Das gesamte gemischte Modell, also feste Effekte plus die stationsspezifischen Unterschiede, erklärt rund 74,7 %.

 

Die Differenz zwischen marginalem und konditionalem R² ist mit 56,9 Prozentpunkten sehr groß – und für mich der eigentliche Warnhinweis. Er zeigt, dass der langfristige Temperaturverlauf zu einem erheblichen Teil an der Struktur des Stationsnetzes hängt. Unterschiedliche Stationen bringen unterschiedliche Lagen, unterschiedliche Umfelder, unterschiedliche Mikroklimata und offenbar auch dauerhaft unterschiedliche Messcharakteristiken mit. Der Random Intercept steht deshalb nicht für einen zusätzlichen Klimafaktor, sondern für die schlichte Tatsache, dass diese Daten von vornherein nicht homogen sind.

 

Genau das verschärft meinen Zweifel eher, als dass es ihn beruhigt. Denn wenn der weitaus größere Teil der erklärten Varianz erst dadurch ins Modell kommt, dass jede Station ihren eigenen dauerhaften Ausgangspegel mitbringt, dann ist die Temperaturreihe eben keine einfache, einheitliche Klimakurve. Sie ist auch ein Produkt eines historisch gewachsenen, ungleichen und sich verändernden Messnetzes.

 

Und das ist aus meiner Sicht der entscheidende Punkt: Die Unterschiede zwischen den Stationen sind keine technische Randnotiz, die man gedanklich abhaken kann. Sie sitzen tief im Datensatz. Sie tragen massiv dazu bei, wie gut sich der Verlauf überhaupt modellieren lässt. Wer unter solchen Bedingungen eine einzige glatte Mittelreihe präsentiert, muss sehr genau erklären, warum diese Verdichtung trotz der starken stationsspezifischen Struktur noch als belastbare Klimakenngröße gelten soll.

 

Meine Zweifel sind damit jedenfalls nicht beseitigt. Im Gegenteil: Nach diesen Rechnungen erscheinen sie methodisch besser begründet als zuvor. Denn wenn ein so großer Teil der erklärten Struktur bereits in den dauerhaften Unterschieden zwischen den Stationen steckt, dann reicht es nicht, auf Standardverfahren und Endkurven zu verweisen. Dann muss offengelegt und überprüft werden, wie stark die Mittelreihe selbst noch vom Netz, vom Umfeld und von der Stationsgeschichte geprägt ist.

 

Literatur

Baumgaertner, A. J. G., Seppälä, A., Jöckel, P., & Clilverd, M. A. (2011). Geomagnetic activity related NOx enhancements and polar surface air temperature variability in a chemistry climate model: Modulation of the NAM index. Atmospheric Chemistry and Physics, 11(9), 4521–4531. https://doi.org/10.5194/acp-11-4521-2011
Cnossen, I., Liu, H., & Lu, H. (2016). The whole atmosphere response to changes in the Earth’s magnetic field from 1900 to 2000: An example of “top-down” vertical coupling. Journal of Geophysical Research: Atmospheres, 121(13), 7781–7800. https://doi.org/10.1002/2016JD024890
Cnossen, I., & Richmond, A. D. (2013). Changes in the Earth’s magnetic field over the past century: Effects on the ionosphere-thermosphere system and solar quiet (Sq) magnetic variation. Journal of Geophysical Research: Space Physics, 118(2), 849–858. https://doi.org/10.1029/2012JA018447
Deutscher Wetterdienst. (1997). Klimastatusbericht 1997. https://www.dwd.de/DE/leistungen/klimastatusbericht/publikationen/ksb_1997.pdf?__blob=publicationFile&v=3
Deutscher Wetterdienst. (2026). Regional averages DE annual air temperature mean: regional_averages_tm_year.txt. Climate Data Center (CDC). https://opendata.dwd.de/climate_environment/CDC/regional_averages_DE/annual/air_temperature_mean/regional_averages_tm_year.txt
Deutscher Wetterdienst. (o. J.-a). Vieljährige Mittelwerte. https://www.dwd.de/DE/leistungen/klimadatendeutschland/vielj_mittelwerte.html
Deutscher Wetterdienst. (o. J.-a). Beschreibung RGN_DEU_P1Y_T2M_de. Climate Data Center (CDC), Deutscher Wetterdienst. Abgerufen 16. April 2026, von https://cdc.dwd.de/sdi/pid/RGN_DEU_P1Y_T2M/BESCHREIBUNG_RGN_DEU_P1Y_T2M_de.pdf
Deutscher Wetterdienst. (o. J.-b). Überblick zu den Klimadaten. Deutscher Wetterdienst. Abgerufen 16. April 2026, von https://www.dwd.de/DE/leistungen/klimadatendeutschland/ueberblick.html?lsbId=343278
Kidston, J., Scaife, A. A., Hardiman, S. C., Mitchell, D. M., Butchart, N., Baldwin, M. P., & Gray, L. J. (2015). Stratospheric influence on tropospheric jet streams, storm tracks and surface weather. Nature Geoscience, 8(6), 433–440. https://doi.org/10.1038/ngeo2424
Screen, J. A., Eade, R., Smith, D. M., Thomson, S., & Yu, H. (2022). Net equatorward shift of the jet streams when the contribution from sea-ice loss is constrained by observed eddy feedback. Geophysical Research Letters, 49(23), e2022GL100523. https://doi.org/10.1029/2022GL100523
Seppälä, A., Lu, H., Clilverd, M. A., & Rodger, C. J. (2013). Geomagnetic activity signatures in wintertime stratosphere wind, temperature, and wave response. Journal of Geophysical Research: Atmospheres, 118(5), 2169–2183. https://doi.org/10.1002/jgrd.50236
Wiltberger, M., Wang, W., Burns, A. G., Solomon, S. C., Lyon, J. G., & Goodrich, C. C. (2004). Initial results from the coupled magnetosphere ionosphere thermosphere model: Magnetospheric and ionospheric responses. Journal of Atmospheric and Solar-Terrestrial Physics, 66(15–16), 1411–1423. https://doi.org/10.1016/j.jastp.2004.03.026
Back to blog