Energiehunger: AMDs 90 nm versus 65 nm Prozess - Seite 1

Energiehunger: AMDs 90 nm versus 65 nm Prozess












In der Microprozessorindustrie gibt es einen beständigen Wettlauf um die kleinsten Transistoren und die modernste Fertigungstechnologie. Dabei werden immer mehrere Ziele gleichzeitig verfolgt; neuere Prozessordesigns haben meistens mehr Transistoren wie ihr Vorgänger, gleichzeitig soll die Chipgröße aber nicht wachsen. Das muss mit einem feineren Prozess ausgeglichen werden. Zudem sollen die Chips, besonders im Mobilbereich, eine geringere Verlustleistung haben wie die letzte Generation, auch hier soll ein kleinerer Prozess helfen. Die Taktfrequenz ist auch heute noch ein wichtiges Performance-Kriterium, kleinere Transistoren vertragen höhere Schaltfrequenzen, das klappt zwar mit einem komplexen Chip aus hunderten Millionen Transistoren heute nicht mehr immer, was aber meistens andere Gründe hat.

Bei AMD hatte sich der 65 nm Prozess lange verzögert und die ersten fertigen Prozessoren kamen mit geringeren Taktfrequenzen wie ihre 90 nm Vorgänger auf dem Markt. Zudem wurden auch nicht alle Modelle umgestellt, die K8 Dual Cores mit 1 MiB L2 Cache pro Core gab es weiterhin nur in 90 nm Bauweise. Mit den Phenom Quad Core Prozessoren bekam AMDs 65 nm Prozess auch noch den Ruf ein Energiefresser zu sein, die Quad Cores der Konkurrenz gaben sich deutlich sparsamer.

Doch was ist dran an den Behauptungen? Gerade im Bereich der Verlustleistung werden viele Märchen geschrieben, ohne das mal jemand deren Wahrheitsgehalt nachprüft.

Für diesen Artikel wurden über 1800 Mess- und Kontrollwerte aufgenommen und in über 700 Berechnungen zu aussagefähigen Ergebnissen verarbeitet. Doch fangen wir besser erstmal am Anfang an, die Testobjekte:

Beide Prozessoren wurden normal im Handel gekauft, es sind also zufällig ausgewählte Exemplare. Rechts der Vetreter für den 90 nm Prozess: ein Athlon 64 X2 5000+ mit Windsor Kern (F2 Stepping) und Package Datum 46. Woche 2006. Links der jüngere Bruder, ein Athlon X2 4050e mit 65 nm Brisbane Kern (G2 Stepping) und Package Datum 10. Woche 2008. Die Herstellertaktfrequenzen betragen 2600 MHz bzw. 2100 MHz, ansonsten scheinen sie auf dem ersten Blick identisch zu sein. Bei etwas genauerer Betrachtung gibt es jedoch einige kleine Unterschiede:

Der 90 nm Vertreter hat einen Windsor Kern, ist also ein Prozessor mit eigentlich 1024 KiB Level 2 Cache pro Kern. Beim 5000+ sind jedoch jeweils die Hälfte der L2 Caches deaktiviert, wobei das genaue Verfahren nicht bekannt ist, man weiß also nicht ob die deaktivierte Hälfte auch komplett von der Versorgungsspannung getrennt wird oder ob sie weiterhin Verluste durch Leckströme erzeugt. Insgesamt sind auf dem Windsor Die 243 Millionen Transistoren vorhanden, davon aber nur 164 Millionen benutzt. Der Kern hat eine Fläche von 219 mm² und wurde in Fab 36 in Dresden gefertigt. Die maximale Verlustleistung gibt AMD mit 89 Watt an, die Spannung beträgt bei maximaler Taktfrequenz 1,30 Volt.

Bei der Umstellung auf 65 nm hat AMD das Design intern ein wenig überarbeitet, die Gründe dafür sind, neben den Beseitigen einiger Bugs, allerdings bis heute ungeklärt. Eine etwas vergrößerte L2 Latenz wurde mit den Plänen später noch Modelle mit deutlich größeren L2 Caches herauszubringen begründet, diese hat es aber nie gegeben. Eine bekannte Änderung ist die Möglichkeit jetzt auch halbe Zahlen als Multiplikator zu nutzen.
Der Brisbane Kern hat 512 KiB L2 Cache pro Core und ist mit 118 mm² deutlich kleiner. Die Zahl der Transistoren ist auf 221 Millionen gestiegen. Die Verlustleistung soll 45 Watt nicht übersteigen, bei einer Betriebsspannung von 1,20 Volt. Hergestellt wurde das Die ebenfalls in Fab 36.

Für einen direkten Vergleich muss also idealisierend angenommen werden, es handel sich um identische Chips, die sich nur im Herstellungsprozess unterscheiden. Ob und wie sich die größere Zahl an Transistoren im 4050e negativ auf den Verbrauch auswirkt, kann mit einer äußeren Analyse der geschlossenen Prozessor-Black-Box nicht beurteilt werden.

Wie lässt sich die Verlustleistung messen?
Heutige Mainboards haben häufig eine komplett getrennte Spannungsversorgung nur für den Prozessor, während alle anderen Teile des Mainboards eine weitere Versorgungseinheit bilden. So auch bei dem hier benutzten ASUS M3A.
Gemessen wurde die Spannung und der Strom an der Primärseite des DC-DC Spannungskonverters für den Prozessor. ASUS verwendet dafür den Controller L6740L von STMicroelectronics in einer 4+1 Konfiguration. Dabei sind 4 Phasen für V_core zuständig und eine Phase für V_northbridge. Die einzelne Phase ist deaktiviert, da die K8 Prozessoren kein Split-Power können und muss daher nicht weiter beachtet werden. Um nun auf die abgegebene Leistung an der Sekundärleistung des Kontrollers zu kommen, muss dessen Wirkungsgrad berücksichtig werden. STM hat dazu eine etwas grobe, aber für unsere Zwecke ausreichend genaue Grafik im Datenblatt untergebracht.





Wie man erkennen kann, geht der Wirkungsgrad mit 4 Phasen bei Sekundärströmen unter 20 Ampere deutlich zurück. Mit weniger Phasen kann auch im Teillastereich ein hoher Wirkungsgrad erreicht werden, was man an der blauen Linie erkennen kann. Einige Hersteller bewerben neuerdings teurere Mainbords mit entsprechenden Funktionen, um die Anzahl der Wandlerphasen lastabhängig umzuschalten. Der auf dem günstigen M3A verwendete Kontroller kann das auch, nur der entsprechende Konfigurationspin ist nicht angeschlossen und die Funktion wird nicht benutzt, wodurch dem Kunden unnötige Energiekosten entstehen und der Planet verschmutzt wird und das alles nur um den Käufern teurer Boards vorzugaukeln sie bekämen exklusiv mehr Produkt für ihr Geld.

Mit Hilfe der Eingangswerte und des Wirkungsgrads hat man nun die Ausgangsleistung am Spannungswandler, also die Leistung, die in den Prozessor fließt. Auch dabei sind natürlich wieder einige Idealisierungen vorzunehmen. Es wird angenommen, dass die Zuleitungen auf dem Mainboard und der Prozessorsockel einen unendlich kleinen Widerstand haben. Zudem wird angenommen, dass sämmtlicht Leistung auch im Prozessor umgewandelt wird (in Wärmeengergie), Energie, die in Form von Datentransfer vom Prozessor über die I/O Leitungen abgegeben wird, wird als unendlich klein angenommen.

Für die Messungen wurden zwei handelsübliche Digitalmultimeter mit einer Abtastrate von 2-3 Hz benutzt. Der Hersteller gibt dafür eine Genauigkeit von +- 0,5% + 1 Digit für die Spannung und +- 2% + 5 Digits für den Strom an. Die Spannung wurde immer auf eine Stelle hinter dem Komma gerundet, der Strom wurde auf eine Stelle hinter dem Komma gerundet, außer bei kleinen Werten unter 1 A, wenn sich zwischen zwei Messpunkten ansonsten kein Unterschied ausmachen lies, wurden zwei Stellen hinter dem Komma benutzt. Alle Endergebnisse wurden auf eine Stelle hinter dem Komma gerundet. Da alle Messungen immer Fehler enthalten und die Messpunkte nicht uninterpretiert in der Gegend herumstehen, sind alle Grafiken mit Ausgleichskurven versehen.
Die V_core wurde in 0,05 Volt Schritten variiert, etwaige Abweichungen vom eingestellten Wert waren gering und wurden im Rahmen der Genauigkeit vernachlässigt.
Während der normalen Messreihe war die Lüftersteuerung des Mainboards auf Silent eingestellt, um eine ungefähr gleichmäßige Prozessortemperatur zu bekommen, welche zwischen 300 und 320 Kelvin lag. Die Temperatur wurde bei 90 nm Prozessor mit dem K8-temp Kernelmodul direkt aus der Prozessordiode ausgelesen, bei 65 nm lagen diese Werte unterhalb der Raumtemperatur und wurden nicht verwendet. Stattdessen wurden dort die Werte des Mainboard-Monitoring-Chips genutzt. Zwischen diesen und der Prozessordiode gab es beim 5000+ bei niedrigen Temperaturen ungefähr 10 K Abweichung, bei höheren Werten gliechen sie sich langsam beide an. Das ist aber im Rahmen der Genauigkeit unerheblich, zum Einfluss der Temperatur später mehr.
Bei den Temperaturtest wurde der CPU-Lüfter per Hand geregelt, bzw. der Kühler musste ganz abmontiert werden, da der 4050e beim Nichtstun einfach nicht warm werden wollte. Beim Übertakten wurden 2 Lüfter zum Kühlen verwendet, trotzdem war der AMD boxed Kühler schnell überfordert und der 5000+ stürzte reproduzierbar beim Überschreiten von rund 360 K ab.


Nächste Seite
Seite 1 - Einleitung
Seite 2 - Mehr Einleitung
Seite 3 - ABC@home
Seite 4 - SETI@home
Seite 5 - Einstein@home
Seite 6 - QMC@home
Seite 7 - mprime
Seite 8 - ETQW, OA
Seite 9 - Overclocking, Temperature, CnQ