tec_storage2004.
Transcription
tec_storage2004.
01 2004 Jan./Feb./März 01/2004 www.tecChannel.de NEU! SONDERHEFT Okt./Nov./Dez. 04/2003 KOMPENDIUM FÜR IT-PROFIS € 9,90 Österreich €10,90 Benelux €11,40 Schweiz SFR 19,80 Grundlagen • Entscheidungshilfen • Know-How IT-PRAXIS PC: Der richtige Kaufzeitpunkt kommt Notebook: Centrino und die Alternativen Server: Umstieg auf 64 Bit WLAN: Der beste 54-Mbit-Standard DSL-Router: Kaufberatung MOBILE COMPUTING » Technologie-Wechsel und die Folgen » Aus für AGP, PCI und DDR » Auslaufmodell PC-Card » Akku-Laufzeit verlängern SERVER & STORAGE PENTIUM 4 PRESCOTT » Storage-Umbruch: Serial Attached SCSI » Itanium 2 im Detail, Opteron-Test » Bis 5 GHz: Der nächste Intel-Standard » SSE3, Features für Windows-Longhorn 4 195914 909900 CLIENT & WORKSTATION 01 ITECHNOLOGIE-RATGEBER 2004: Grundlagen, Entscheidungshilfen, Know-How ITechnologieRatgeber 2004 [ U n e n t beh rli ch für I T - P ro fi s ] tecCHANNEL.de/premium: Das Online-Angebot für IT-Profis! Ihre Premium-Vorteile auf einen Blick: tecCHANNELBuch-und Heftarchiv Im Archiv stehen Ihnen alle Ausgaben von tecCHANNEL-Compact und tecCHANNEL-Magazin als PDF zur Verfügung. Artikel im PDF-Format Alle Artikel, Testtabellen und News etc. als lesefreundliche PDFDatei zum Download. BEOHNE WER CHUNG! UNTERBRE eBooks Profitieren Sie jeden Monat von einem kostenlosen eBook! (Derzeit komplette Fachbücher aus dem Programm des Pearson-Verlages) Vollversionen Sichern Sie sich monatlich eine Vollversion gratis: Software, ArchivCDs u.v.m. Außerdem: +++Exklusives Security-Angebot +++Brockhaus Computerlexikon +++Testdaten-Konfigurator+++ Weitere Features finden Sie unter www.tecChannel.de/premium.html nenten ct-Abonis Für Compa re von sp ug rz Vo zum o/Jahr 34,90 Eu,8r0 Euro) (statt 59 Sichern Sie sich jetzt Ihre Vorteile für nur 4,99 Euro* im Monat! *(im Jahresabo) www.tecChannel.de/premium.html Editorial Editorial Aufbruch zu neuen Technologien IT-Entscheider stehen vor einer turbulenten Zukunft. Hielt man sich in der Vergangenheit mit Investitionen zurück, muss in den nächsten Jahren das IT-Equipment durch Up-to-Date-Technologien ersetzt werden. Im Server-, Desktop- und Mobile-Bereich steht ein Generationswechsel bevor. Die Einführung von PCI Express, neuen CPUs wie Prescott und Pentium M „Centrino“, der DDR2-Speichertechnologie und Serial Attached SCSI verunsichert die IT-Branche. Welche Technologien sind zukunftssicher und schützen die Investitionen? Was ist beim Umstieg wichtig? Das sind Fragen, die dieses tecCHANNEL-Compact beantwortet. Mit der Einführung von PCI Express stehen in diesem Jahr der etablierte AGPund PCI-Bus sowie die PC Card vor dem Aus. Neue Chipsätze und Grafikchips mit dieser Technologie sind bereits für Anfang 2004 angekündigt. Zusätzlich stellt Intel die Prescott-CPU mit neuer Sockelvariante vor. Die DDR2-Speichertechnologie löst im Laufe des Jahres den herkömmlichen DDR-Standard ab. Gleichzeitig ist mit der AMD-Opteron-Architektur der einfache Umstieg von 32-Bit- in das 64-Bit-Computing im Server-Bereich möglich. Wir erläutern die Technologiewechsel und die Folgen. Außerdem analysieren wir die Performance der OpteronCPU im Server-Einsatz und den Itanium 2. Auch im Mobile-Bereich wird es in den kommenden Monaten einige Überraschungen geben. Denn Intel drängt mit neuen Pentium-M-Prozessoren in das Segment. Gleichzeitig kontert AMD mit Athlon-64-CPUs für Notebooks. Mit Transmetas Efficeon versucht ein weiterer Kontrahent Marktanteile für sich zu gewinnen. Welche Mobile-Plattform hat die größten Chancen? In punkto Wireless-LAN herrscht große Verwirrung. Hier buhlen mit 802.11a und 802.11g zwei 54-Mbit-Standards um die Gunst der Käufer. Wir informieren Sie über die Unterschiede und geben Ihnen Entscheidungshilfen. Zusätzlich beraten wir Sie, welche Features ein DSL-Router haben muss, um im professionellen Einsatz zu bestehen. Ein weiteres Thema beschäftigt sich mit den Vor- und Nachteilen, Daten, Telefon und Fernsehen über eine Leitung zu übertragen. Als praktische Ratgeber und kompetente Entscheidungshilfen dienen die persönlichen Einschätzungen und Meinungen der tecCHANNEL-Redakteure zu den jeweiligen Kapitelinhalten. Viel Spaß bei der Lektüre wünscht Ihnen Bernhard Haluschak Redakteur Hardware Wir freuen uns über Kritik und Anregungen zur Compact-Ausgabe. Unter www. tecChannel.de/compact0104.html können Sie an unserer Umfrage teilnehmen. www.tecChannel.de 5 Impressum Impressum Chefredakteur: Michael Eckert, (verantwortlich, Anschrift der Redaktion) Chef vom Dienst / Textchef: Kerstin Lohr Grafik: stroemung, Michael Rupp, Oliver Eismann, Köln; h2design, München; Yvonne Reittinger, Wien Redaktion tecCHANNEL: Leopoldstraße 252b, 80807 München, Tel. 0 89/3 60 86-897, Fax: -878 Homepage: www.tecChannel.de, E-Mail: redtecchannel@idginteractive.de Autoren dieser Ausgabe: Bernhard Haluschak, Mike Hartmann, Malte Jeschke, Albert Lauchner, Jörg Luther, Hermann Strass, Christian Vilsbeck, Christian Wiegand Copyright: Das Urheberrecht für angenommene und veröffentlichte Manuskripte liegt bei der IDG Interactive GmbH. Eine Verwertung der urheberrechtlich geschützten Beiträge und Abbildungen, insbesondere durch Vervielfältigung und/oder Verbreitung, ist ohne vorherige schriftliche Zustimmung des Verlags unzulässig und strafbar, soweit sich aus dem Urheberrechtsgesetz nichts anderes ergibt. Eine Einspeicherung und/oder Verarbeitung der auch in elektronischer Form vertriebenen Beiträge in Datensysteme ist ohne Zustimmung des Verlags nicht zulässig. Anzeigen: Anzeigenleitung: Dirk Limburg, Tel.: 0 89/3 60 86-871 Leitung Anzeigendisposition: Rudolf Schuster, Tel. 0 89/3 60 86-135, Fax -328 Anzeigentechnik: Martin Mantel, Andreas Mallin Digitale Anzeigenannahme: Thomas Wilms, leitend, Tel. 0 89/3 60 86-604, Fax -328 Vertrieb / Produktion: Vertrieb: Josef Kreitmair (leitend), Katrin Elsler Vertriebsmarketing: Peter Priewasser (leitend), Stefanie Kusseler Vertrieb Handelsauflage: MZV Moderner Zeitschriften Vertrieb, Breslauer Straße 5, 85386 Eching, Tel.: 0 89/3 19 06-0, Fax: -113, E-Mail: mzv@mzv.de, Website: www.mzv.de Produktionsleitung: Heinz Zimmermann Druck: Schoder Druck, Gutenbergstraße 12, 86368 Gersthofen Haftung: Eine Haftung für die Richtigkeit der Beiträge können Redaktion und Verlag trotz sorgfältiger Prüfung nicht übernehmen. Die Veröffentlichungen im tecCHANNEL-Compact erfolgen ohne Berücksichtigung eines eventuellen Patentschutzes. Auch werden Warennamen ohne Gewährleistung einer freien Verwendung benutzt. Verlag: IDG Interactive GmbH, Leopoldstraße 252b, 80807 München, Tel.: 0 89/3 60 86-0, Fax: -501 Geschäftsführer: York von Heimburg Verlagsleitung: Frank Klinkenberg Veröffentlichung gemäß § 8, Absatz 3 des Gesetzes über die Presse vom 8.10.1949: Alleiniger Gesellschafter der IDG Interactive GmbH ist die IDG Communications Verlag AG, München, eine 100-prozentige Tochter der IDG Inc., Boston, Mass., USA. Vorstand: Keith Arnot, York von Heimburg, Pat Kenealy Aufsichtsratsvorsitzender: Patrick McGovern tecCHANNEL-Compact erscheint im Verlag der PC-WELT. Außerdem gehören zu unserer Verlagsgruppe folgende Zeitschriften: Leser- und Abo-Service: A.B.O Verlagsservice GmbH, Ickstattstraße 7, 80469 München, Tel: 0 89/20 95 91 32, Fax: 0 89/20 02 8100 6 www.tecChannel.de Inhalt Inhalt Editorial 5 Impressum 6 1. 1.1 1.1.1 1.1.2 1.1.3 1.1.4 1.1.5 1.1.6 1.1.7 Desktop Roadmap: Desktop-CPUs 2004 Athlon 64 Athlon 64 FX für Socket 939 Athlon XP für Socket 754 Pentium 4 „Prescott“ Prescott für Socket LGA775 Celeron mit Prescott-Core Pentium-4-Chipsätze mit DDR2 12 12 12 13 14 15 16 16 17 1.2 1.2.1 1.2.2 1.2.3 Roadmap: Speicher Status aktueller Speichertechnologien Entwicklung aktueller Speichertechnologien Fazit 19 19 20 22 1.3 1.3.1 1.3.2 1.3.3 1.3.4 Roadmap: Grafikchips ATI: Grafikchips im Überblick NVIDIA: Zukunftsperspektiven S3 Graphics: Comeback-Versuch XGI: Aufbruchpläne 23 23 24 25 26 1.4 1.4.1 1.4.2 1.4.3 1.4.4 1.4.5 PCI Express für Grafikkarten Grafikschnittstellen im Wandel AGP 8x und PCI Express im Vergleich Die Spannungsversorgung PCI-Express-Routing Grafikkarten und Mainboards mit PCI Express 29 29 30 31 33 35 1.5 1.5.1 1.5.2 1.5.3 1.5.4 1.5.5 1.5.6 1.5.7 1.5.8 Intel Pentium 4 Prescott Neue Cache-Größen und Sockel Mikroarchitektur-Erweiterungen SSE3-Befehlssatz-Erweiterungen Thread-Synchronisation in Hardware Designoptimierungen 90-nm-Prozess Low-k-Kupferverdrahtung Optimierte Gatterverteilung 38 38 39 41 42 44 45 47 48 1.6 1.6.1 1.6.2 1.6.3 Speichertechnologien DDR2 auf der Überholspur RDRAM auf dem Abstellgleis? “Quad Band Memory”-Technologie 50 50 52 53 www.tecChannel.de 7 Inhalt 1.6.4 1.6.5 1.6.6 1.6.7 DDR3 – Speicher der Zukunft FB-DIMM XDR-DRAM Speichertechnologien im Vergleich 55 56 57 59 1.7 Meinung 61 2. 2.1 2.1.1 2.1.2 2.2.3 2.2.4 2.2.5 Mobile Roadmap: Mobile-CPUs 2004 Mobile Athlon 64 Pentium M „Dothan“ Sonoma – der neue Centrino-Chipsatz Mobile Prescott Transmeta Efficeon 62 62 62 64 65 65 66 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7 2.2.8 2.2.9 2.2.10 Details zum mobilen Athlon 64 Details zum Core PowerNow!-Technologie Neun Ausführungseinheiten Cache- und TLB-Tuning Flush- und Sprung-Tuning Gestreckte Pipeline Speicher-Interface integriert HyperTransport-Bus Betriebsmodi des Athlon 64 Erweiterte Register 68 68 69 70 71 71 72 72 73 73 74 2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7 2.3.8 Intel Centrino Details zum Core MicroOPs Fusion Strom sparen durch bessere Vorhersagen Aggressives Clock-Gating Enhanced SpeedStep Pentium-M-Versionen Pentium-M-Chipsätze Centrino-Plattform Wireless 76 76 77 78 79 80 80 81 83 2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6 2.4.7 Transmeta Efficeon Efficeon-Modelle 256-Bit-Hardware Details zum Core Pipeline-Workflow Integrierte Northbridge CMS zweiter Generation LongRun Version 2 85 85 86 86 88 89 90 90 2.5 2.5.1 2.5.2 ExpressCard löst PC-Card ab PC-Card-Evolution ExpressCard-Technologie 92 92 93 8 www.tecChannel.de Inhalt 2.5.3 2.5.4 ExpressCard-Karten und -Slot ExpressCard-Schnittstelle 2.6 2.6.1 2.6.2 2.6.3 2.6.4 2.6.5 2.6.6 2.6.7 2.6.8 2.6.9 2.6.10 2.6.11 2.6.12 2.6.13 Akku-Technologien Funktionsweise eines Akkumulators Historie der Akku-Technologie Blei-Säure-Akku Nickel-Cadmium-Akku Der Memory-Effekt Nickel-Metallhydrid-Akku Der Lazy-Battery-Effekt Lithium-Ion-Akku Lithium-Polymer-Akku Zink-Luft-Akku Kenndaten aktueller Akku-Technologien Lagerung und Pflege von Akkus Die Brennstoffzelle 97 97 99 100 102 103 104 105 106 107 108 110 111 112 2.7 2.7.1 2.7.2 2.7.3 2.7.4 2.7.5 2.7.6 2.7.7 Notebook-Laufzeit optimieren Elektrische Leistungsverteilung in Notebooks Extended Battery Life Workgroup (EBL WG) Energieverbraucher Nr.1 – das Display Strom sparen an der USB-Schnittstelle Strom sparen mit Powermanagement Strom sparen in der Praxis Strom sparen mit WLAN und LAN 115 115 117 118 120 122 124 125 2.8 Meinung 127 3. 3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.1.5 3.1.6 3.1.7 Server Server- & Workstation-CPUs Opteron „Athens, Troy & Venus“ Xeon DP „Nocona & Jayhawk“ Xeon MP „Potomac“ Xeon MP „Tulsa“ Itanium 2 „Fanwood & Madison 9M“ Itanium 2 „Montecito“ Itanium 2 „Tanglewood“ 128 128 128 130 130 131 131 133 133 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 3.2.8 Itanium Grundlagen Eckwerte Stammbaum Register-Features Rotation mit dynamischen Registern Floatingpoint-Register Predication: Erst rechnen, dann entscheiden Rechnen in epischer Breite Drei Instruktionen pro Befehlswort 135 136 137 138 138 139 140 141 142 www.tecChannel.de 94 95 9 Inhalt 3.2.9 3.2.10 3.2.11 3.2.12 3.2.13 3.2.14 3.2.15 3.2.16 3.2.18 Tipps für die CPU Vorausschauen... ...und Spekulieren Kompatibilitäten Der Itanium 2 Speicher und Caches Details zur Pipeline: Frontend Details zur Pipeline: Backend Performance-Vergleich 143 144 145 146 147 148 149 150 153 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 3.3.7 Serial Attached SCSI Serial Attached SCSI SAS-Topologie Serielle Verkabelung Kompatibilität SCSI-Roadmap SAS – Status quo Ausblick 155 155 156 157 158 159 160 160 3.4 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6 3.4.7 3.4.8 3.4.9 AMD Opteron im Server-Einsatz Newisys 2100 Die Konkurrenz AMD Quartet Innenleben und Bedienung Die Testumgebung AIM Suite VII lmbench unixbench dbench 162 162 163 165 166 167 168 169 170 172 3.5 Meinung 175 4. 4.1 4.1.1 4.1.2 4.1.3 4.1.4 Netzwerk Shootout: 802.11a vs. 802.11g Frequenzfragen Testkonfiguration Testgeräte Testergebnisse 176 176 176 178 179 181 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.2.6 Kaufberatung: DSL-Router Basis-Features WAN-Verbindungen Dienste und Sicherheit Erweiterte Router-Features UPnP – Plug-and-Play übers Netzwerk WLAN-Funktionen 183 184 184 185 186 187 187 4.3 4.3.1 Drei Dienste – eine Leitung Benötigte Bandbreite 190 191 10 www.tecChannel.de Inhalt 4.3.2 4.3.3 4.3.4 Technische Realisierung beim Kunden Wer soll’s machen? Ausblick 192 193 194 4.4 Meinung 195 5. 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.1.6 5.1.7 5.1.8 5.1.9 5.1.10 5.1.11 5.1.12 5.1.13 5.1.14 Technologien Holographische Speichertechnik Blaulicht-Laser Blaue Variationen Geschichte holographischer Speichertechnik Holographische Speichertechnik Variationen der Holographie Holographische Medien Anwendungen Produkte und Projekte Aprilis IBM InPhase Optilink Optostor Optware 196 196 196 197 198 198 199 200 201 202 202 203 203 203 204 204 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.2.5 5.2.6 5.2.7 5.2.8 5.2.9 5.2.10 5.2.11 5.2.12 5.2.13 5.2.14 5.2.15 5.2.16 5.2.17 Zukünftige Speichertechnologien Grundlegendes Mechanische Verfahren Speicherzellen in Atomgröße 20 Atome pro Bit Millipede Molekülspeicher Biospeicher Anleihen bei der Natur FRAM/FeRAM Flash-Nachfolger OUM PFRAM/PMC 3D-Speicherung Hyper-CD-ROM Speichern auf Tesafilm MRAM BMR Moleküle an Kreuzungen 206 206 207 207 207 208 209 210 211 211 212 213 213 214 214 215 216 216 Glossar 218 Index 222 tecCHANNEL-Leserumfrage – Mitmachen und gewinnen! 225 www.tecChannel.de 11 Desktop 1. Desktop Mit Intels Prescott steht 2004 die nächste Prozessorgeneration für Desktop-PCs in den Startlöchern. Dass dieser unter Pentium-4-Flagge segelt, suggeriert Plattformstabilität. Das stimmt jedoch nur bedingt und mittelfristig. Da nebst neuem Sockel in diesem Jahr auch die Migrationen von AGP auf PCI-Express sowie von DDR auf DDR2 anstehen, bleibt für die gesamte Desktop-Welt wenig beim Alten. Da derlei Generationswechsel meist sukzessive vonstatten gehen, birgt dies das Risiko unglücklicher Kombinationen mit begrenzter Zukunftssicherheit. 1.1 Roadmap: Desktop-CPUs 2004 Die Frage nach AMDs und Intels künftigen CPUs ist geklärt: tecCHANNEL hatte Einblick in interne Hersteller-Roadmaps. Neben steigenden Taktfrequenzen und Cache-Größen stehen neue Sockel und Chipsätze an. Hersteller von Hardware müssen sich frühzeitig auf kommende Prozessoren einstellen. Schließlich kann die Entwicklung von Chipsätzen und Mainboards nicht erst zum Launch der CPUs erfolgen. AMD und Intel versorgen die Industrie deshalb frühzeitig mit detaillierten Informationen über geplante Neuerscheinungen. Diese Informationen wurden auch tecCHANNEL zugespielt – natürlich nicht von AMD und Intel. Spekulationen über Taktfrequenzen und Features weichen damit den Fakten. So wird es den Pentium-4-Nachfolger Prescott nicht nur mit höheren Taktfrequenzen geben, 2004 steht auch ein neuer Sockel an. Intels nächste Chipsatzgeneration für den Pentium 4 wird diesen bereits unterstützen – ebenso wie DDR2 (webcode: a1147) und PCI Express (webcode: p1003). Auch AMDs Athlon 64 FX wandert 2004 in einen neuen Steckplatz. Und den Athlon XP wird es dann für den Socket 754 geben. Wir weisen darauf hin, dass Informationen aus Roadmaps erfahrungsgemäß mit Vorsicht zu genießen sind. Schon öfter haben CPU-Hersteller noch kurz vor dem Launch an der Taktfrequenz gedreht oder den Start verschoben. Unsere Informationen aus verschiedenen Quellen bestätigen allerdings die Plausibilität dieser aktuellen Hersteller-Roadmaps. 1.1.1 Athlon 64 AMDs achte Prozessorgeneration (webcode: p1022) wurde am 23. September 2003 mit dem Athlon 64 3200+ (2,0 GHz) und dem Athlon 64 FX-51 (2,2 GHz) vorgestellt. Zum Mainstream-Produkt Athlon 64 gesellt sich Anfang 2004 die Variante 3400+ hinzu. Der Socket-754-Prozessor arbeitet dann mit 2,2 GHz Taktfrequenz. Im zweiten Quartal 2004 steigert AMD die Model-Number auf 3700+ bei 12 www.tecChannel.de Roadmap: Desktop-CPUs 2004 einer Taktfrequenz von vermutlich 2,4 GHz. Noch zum Jahreswechsel 2003/2004 bringt AMD den Athlon 64 „Newcastle“ auf den Markt. Die weiterhin im 0,13µm-Prozess gefertigte CPU erhält einen halbierten L2-Cache mit 512 KByte. Den Schwerpunkt bei Newcastle legt AMD auf aggressive Preise. Von Newcastle soll es in der ersten Jahreshälfte 2004 dann auch eine Socket-939-Variante geben. Die Eckdaten: ebenfalls 512 KByte L2-Cache, aber ein Dual-Channel-Speicherbus. AMD Athlon 64 FX 130 nm SOI AMD Athlon 64 130 nm SOI "Toledo" 90 nm SOI "San Diego" 90 nm SOI AMD Athlon 64 "Newcastle" 130 nm SOI AMD Athlon XP 130 nm "Winchester" 90 nm SOI "Palermo" 90 nm SOI "Paris" 130 nm SOI AMD Duron 180 nm 2H03 1H04 2H04 1H05 2H05 © tecCHANNEL Offizielle Details: AMD gibt nur die Codenamen sowie die Fertigungstechnologie seiner künftigen CPUs bekannt (Quelle: AMD). In der zweiten Jahreshälfte 2004 will AMD den Athlon 64 mit 90 nm Strukturbreite auf SOI-Basis fertigen. Damit verschiebt sich die ursprünglich für die erste Jahreshälfte 2004 geplante Umstellung des Fertigungsprozesses. Als Codenamen für den ersten 90-nm-Athlon-64 hat AMD „Winchester“ gewählt. Welche Architekturänderungen Winchester erhält, ist noch nicht bekannt. Als wahrscheinlich gilt aber ein integrierter Speicher-Controller für DDR2-SDRAM. Letzten Informationen zufolge soll der Athlon 64 im Jahr 2004 auf den Socket 939 migrieren. 1.1.2 Athlon 64 FX für Socket 939 Die Highend-Variante Athlon 64 FX-51 findet im zweiten Quartal 2004 mit dem Modell FX-53 einen Nachfolger. Der Prozessor wird voraussichtlich in zwei Sockelvarianten Platz nehmen: im bekannten Socket 940 sowie im neu kreierten Socket 939. Dieser Steckplatz soll bereits im ersten Quartal 2004 für FX-51-Modelle auf den Markt kommen. Der Socket 939 ist für günstiger zu produzierende webcode: a1179 13 Desktop 4-Layer-Mainboards optimiert. Aktuelle Athlon-FX- und Opteron-Mainboards mit dem Socket 940 brauchen aufwendigere und teurere 6-Layer-Mainboards. Außerdem benötigen die Prozessoren für den Socket 939 keine Registered DIMMs – ungepufferte DDR400-Module genügen. Den Athlon 64 FX soll es aber bis Ende 2004 parallel weiter im Socket 940 geben. In der zweiten Jahreshälfte 2004 will AMD die Fertigung des Athlon 64 FX auch auf den 90-nm-Prozess umstellen. Der Socket-939-Prozessor mit dem Codenamen „San Diego“ setzt weiterhin auf einen 1 MByte großen L2-Cache. Die Taktfrequenz des Cores soll mindestens 2,6 GHz betragen. Voraussichtlich integriert AMD in den Speicher-Controller auch die Unterstützung von DDR2-SDRAM – wie beim Winchester. Der San Diego findet in der zweiten Jahreshälfte 2005 im „Toledo“ seinen Nachfolger. Mehr Details als die Fertigung mit 90 nm Strukturbreite sind über den Toledo nicht bekannt. Am Socket 939 wird AMD festhalten. 1.1.3 Athlon XP für Socket 754 Den Athlon XP 3200+ für den Socket A lässt AMD im ersten Halbjahr 2004 weiter im Angebot – schnellere Varianten sind nicht mehr geplant. Ausschließlich für Großkunden produziert AMD mit dem „Thorton“ noch eine spezielle Version des Athlon XP. Thorton basiert auf dem Barton-Core, die Hälfte des 512 KByte großen L2-Cache ist aber deaktiviert. Er ist als günstige Variante 2200+ im Angebot. Auch vom Duron gibt es für OEMs eine spezielle Variante mit bis zu 1,8 GHz Taktfrequenz. Dieses Modell mit dem Codenamen „Applebred“ basiert im Prinzip auf dem Thoroughbred-Core älterer Athlon-XP-CPUs. Thorton und Applebred sind in AMDs offizieller Preisliste nicht zu finden. Mitte 2004 stellt AMD den Athlon-XP-Nachfolger mit Codenamen „Paris“ vor. Mit dem Athlon XP „Paris“ nimmt AMD Abschied vom Socket A. Der neue Prozessor ist für den Socket 754 der Athlon-64-CPUs ausgelegt. Der Core von „Paris“ basiert auch auf dem Athlon 64, aber mit zwei gravierenden Unterschieden: Die L2-Cache-Größe wird von 1024 auf 256 KByte reduziert – dies entspricht der ursprünglich (webcode: a936) für den Athlon 64 geplanten Cache-Dimensionierung. Zusätzlich beschneidet AMD den Athlon XP „Paris“ um den 64-Bit-Modus (webcode: p1022). Mit der Degradierung zum reinen 32-Bit-Prozessor soll eine klare Abgrenzung zum Athlon 64 erreicht werden. Die Fertigung von „Paris“ erfolgt im 0,13-µm-Prozess mit SOI-Technik. In der zweiten Jahreshälfte 2005 soll beim Athlon XP dann der Übergang auf den 90-nm-Prozess erfolgen. Als Codenamen für den entsprechenden Athlon XP hat AMD „Palermo“ gewählt. In der zweiten Jahreshälfte 2004 kann AMD für den Socket-754-Athlon-XP bereits auf eine breite Mainboard-Basis zurückgreifen. Der Übergang vom Socket A fällt somit leicht. Die neuen Einsteiger-CPUs Athlon XP „Paris“ besitzen wie der Athlon 64 einen integrierten Single-Channel-Speicher-Controller. Auch die Cool‚n‘-Quiet-Technologie zur dynamischen Anpassung von Taktfrequenz und CoreSpannung beherrschen die Paris-Prozessoren. 14 www.tecChannel.de Roadmap: Desktop-CPUs 2004 1.1.4 Pentium 4 „Prescott“ Die Pentium-4-Serie mit Northwood-Core hätte mit 3,20 GHz Taktfrequenz ihren Zenit eigentlich schon erreichen sollen. Schnellere Varianten standen nicht auf der Roadmap. Doch die Verzögerung beim Prescott bringt nun einen Pentium 4 mit 3,40 GHz für Anfang 2004 auf den Plan. Auch bei der Highend-Version Pentium 4 Extreme Edition mit 2 MByte L3-Cache steigert Intel im gleichen Zeitraum die Taktfrequenz von 3,20 auf 3,40 GHz. Prescott LGA775/FSB800 3,60/3,40/3,20/ 3,00/2,80 GHz Prescott LGA775/FSB800 3,80/3,60/3,40/ 3,20/3,00 GHz Prescott LGA775/FSB800 4,00/3,80/3,60/ 3,40/3,20/ 3,00 GHz Prescott FSB800 3,40/3,20/ 3,00/2,80 GHz Prescott FSB800 3,60/3,40/3,20/ 3,00/2,80 GHz Prescott FSB800 3,60/3,40/ 3,20/3,00 GHz Prescott FSB800 3,60/3,40/ 3,20/3,00 GHz Pentium 4 HT FSB800 3,40/3,20/3,00/ 2,80/2,60 GHz Pentium 4 HT FSB800 3,40/3,20/ 3,00/2,80 GHz Pentium 4 HT FSB800 3,00 GHz Q1'04 Q2'04 Q3'04 Q4'04 © tecCHANNEL Roadmap Pentium 4: Im Februar 2004 stellt Intel den Pentium-4-Nachfolger Prescott mit bis zu 3,40 GHz Taktfrequenz vor. Die 4-GHz-Marke soll bis Ende 2004 erreicht werden. Mit dem anstehenden Pentium-4-Nachfolger Prescott hat die Extreme Edition nichts gemein. Laut tecCHANNEL vorliegenden Roadmaps debütiert Prescott im Februar 2004. Der Name „Pentium 4“ wird dabei beibehalten. Prescott startet mit den Taktfrequenzen 2,80, 3,00, 3,20 und 3,40 GHz. Der FSB arbeitet weiterhin mit 800 MHz. Die architektonischen Highlights des Prescott sind die 13 neue Befehle umfassende SSE-Erweiterung, verdoppelte Cache-Größen sowie ein verbessertes Hyper-Threading. Zur Unterscheidung der Prescott-Varianten von den bisherigen Pentium-4-CPUs fügt Intel bei gleicher Taktzahlfrequenz ein „E“ an die Taktzahl an. Neu in der aktuellen Intel-Roadmap ist auch ein Pentium 4 2,80A. Die CPU basiert auf dem Prescott-Core, arbeitet aber mit einer FSB-Taktfrequenz von 533 statt 800 MHz. Zusätzlich deaktiviert Intel beim Pentium 4 2,80A die Hyper-Threading-Technologie. Ausführliche Details zur Architektur des Prescott-Prozessors finden Sie in diesem Artikel (webcode: a1124) bei tecCHANNEL. Intel führt mit der neuen Pentium4-Generation zudem die 90-nm-Fertigungstechnologie ein. webcode: a1179 15 Desktop Die für hohe Taktfrequenzen ausgelegte Prescott-Architektur erlaubt Intel ein zügiges Anheben der Performance: Im zweiten Quartal 2004 soll ein 3,60-GHz-Modell auf den Markt kommen. Im dritten Quartal 2004 steigt die Taktfrequenz auf 3,80 GHz an. Die 4-GHz-Marke knackt Intel den Roadmaps zufolge noch im vierten Quartal 2004. Allen Prescott-Varianten bis 3,60 GHz ist der bekannte Socket 478 des aktuellen Pentium 4 gemeinsam. 1.1.5 Prescott für Socket LGA775 Zusammen mit der Taktfrequenzsteigerung des Prescott auf 3,60 GHz im zweiten Quartal 2004 stellt Intel einen neuen Sockel vor. Mit Einführung des Sockels LGA775 will Intel künftige Prescott-Versionen für höhere FSB-Taktfrequenzen fit machen. Der Prescott mit 3,60 GHz wird der letzte Pentium 4 sein, den es gleichzeitig noch für den Socket 478 gibt. Höher getaktete Varianten (ab 3,80 GHz) soll es ausschließlich für den LGA775-Steckplatz geben. Damit vollzieht Intel das gleiche Verfahren, wie bereits beim Wechsel des Pentium 4 vom Socket 423 auf den Socket 478 im Jahr 2001. Die Prozessoren für den LGA775-Sockel verwenden ein so genanntes Land Grid Array. Auf der Unterseite der CPU befinden sich nur noch Kontaktflächen, Pins entfallen. Der Prozessor hält höheren mechanischen Belastungen stand, und die Antennenwirkung der Pins entfällt. Dies ist besonders im Hinblick auf höhere FSB-Taktfrequenzen ein entscheidender Vorteil. Außerdem erlauben LGA-Gehäuse höhere Packungsdichten als auf Pins basierende. Im ersten Quartal 2005 soll bereits der Prescott-Nachfolger Teja auf den Markt kommen. Die insgesamt 775 Kontaktflächen des LGA775-Sockels benötigt der Teja unter anderem für die Stromversorgung und zusätzliche I/O-Leitungen. Der Teja-Prozessor verfügt voraussichtlich über einen 2 MByte großen L2-Cache. 1.1.6 Celeron mit Prescott-Core Beim Celeron gibt es inklusive des ersten Quartals 2004 keine großen Überraschungen. Die aktuelle Taktfrequenz von 2,80 GHz bleibt im ersten Quartal 2004 unverändert. Intels Celeron-Prozessoren basieren auf dem Northwood-Core, können aber nur auf 128 KByte L2-Cache zurückgreifen. Die FSB-Taktfrequenz beträgt 400 MHz. Intels Hyper-Threading-Technologie (webcode: a840) bleibt den Einsteiger-CPUs verwehrt. Im zweiten Quartal 2004 stattet Intel den Celeron mit einem abgemagerten Prescott-Core aus: Der L2-Cache wird wieder auf ein Viertel reduziert – von 1024 auf 256 KByte. Den FSB-Takt legt Intel beim Prescott-Celeron auf 533 MHz fest. Die Hyper-Threading-Technologie integriert Intel beim Celeron weiterhin nicht. Eine Gemeinsamkeit mit dem Pentium-4-Prescott ist der Fertigungsprozess in 90 nm sowie der Socket 478. Die Taktfrequenzen der ersten Celerons mit Prescott16 www.tecChannel.de Roadmap: Desktop-CPUs 2004 Core betragen 2,66, 2,80 und 3,06 GHz. Den Sockel LGA775 bekommen die Celeron-Prozessoren im dritten Quartal 2004 spendiert. Dann erhöht Intel auch die Taktfrequenz der Einsteiger-CPU auf 3,20 GHz. 1.1.7 Pentium-4-Chipsätze mit DDR2 Mit der Einführung des LGA775-Sockels im zweiten Quartal 2004 stellt Intel auch eine neue Chipsatzgeneration vor. Sie trägt die Codenamen Alderwood und Grantsdale und löst Intels Dual-Channel-DDR-Chipsätze (webcode: a1065) 875P und 865G/P/PE ab. Die maximale FSB-Taktfrequenz des Alderwood/Grantsdale beträgt laut der uns vorliegenden Roadmap zum Launch 800 MHz. Die Chipsätze erhalten wieder ein Dual-Channel-DDR-Speicher-Interface. Neben der Unterstützung von DDR400SDRAM arbeitet Grantsdale erstmals mit DDR2-Speicher (webcode: a1147) bei den Taktfrequenzen 400 und 533 MHz. Alderwood unterstützt ausschließlich DDR2-SDRAM und verfügt wieder über einen „Turbo Mode“ wie der 875P. Die Grantsdale-Familie wird es im dritten Quartal 2003 auch in einer Variante mit integrierter Grafik-Engine der dritten Generation geben. Mit den Alderwood- und Grantsdale-Chipsätzen feiert die PCI-Express-Schnittstelle ihr Debüt. Die Grafikkarte nimmt dann nicht mehr in einem AGP-Slot, sondern in einem PCI-Express-x16-Connector Platz. Den klassischen I/O-Link zur Verbindung von MCH und ICH ersetzt ebenfalls eine PCI-Express-Verbindung. Für die Peripherie zeichnet beim Alderwood/Grantsdale dann der ICH6 verantwortlich. Neben PCI-Express-x1-Schnittstellen für Erweiterungskarten bietet er vier Serial-ATA-Kanäle für Festplatten. Ausführliche Details zur DDR2-Speichertechnologie können Sie in diesem Artikel (webcode: a1147) nachlesen. Grundlagen zu PCI Express (webcode: p1003) finden Sie ebenfalls bei tecCHANNEL. 1.1.8 Fazit Nach der überraschenden Vorstellung des Pentium 4 Extreme Edition (webcode: a1244) konnte Intel seinen Performance-Thron nochmals knapp verteidigen. Allerdings hat AMD mit den Athlon-64-Prozessoren gewaltig aufgeholt. Jetzt heißt es für AMD, möglichst schnell und in hohen Stückzahlen höher getaktete Versionen nachzulegen. Allerdings herrscht durch AMDs Sockelflut auch Verunsicherung: Für den Athlon 64 FX wird es bereits im ersten Quartal 2004 den neuen Socket 939 geben. Und laut unseren letzten Informationen soll auch der Athlon 64 vom Socket 754 in den Socket 939 wandern. Der mit 3,40 GHz Taktfrequenz startende Prescott hält diverse Architekturerweiterungen parat: doppelte Cache-Größen, verbessertes Hyper-Threading (webcode: p840), neue SSE-Befehle und schlauere Prefetch-Mechanismen. Dem webcode: a1179 17 Desktop FSB800 und Socket 478 bleibt der Prescott anfangs noch treu. Ab dem zweiten Quartal 2004 steht mit LGA775 aber ein neuer Sockel ins Haus. Damit ebnet Intel einer Anhebung der FSB-Taktfrequenz den Weg und ermöglicht höhere Ströme. Außerdem bereitet sich der Hersteller mit dem LGA775-Sockel auf den bereits 2005 anstehenden Nachfolger des Prescott mit dem Code-Namen Teja vor. Vor dem Teja drängen mit DDR2-SDRAM (webcode: a1147) und PCI Express (webcode: a1003) noch zwei andere neue Technologien auf den Markt. Beide unterstützt Intel mit dem Alderwood- und Grantsdale-Chipsatz, die im zweiten Quartal 2004 die 865/875-Serie ablösen sollen. Wer 2004 up to date sein will, darf damit wieder einmal kräftig in komplett neue Hardware investieren. Christian Vilsbeck tecCHANNEL-Links zum Thema Webcode Compact Roadmap: Desktop-CPUs 2004 a1179 S.12 Server- & Workstation-CPUs a1118 S.128 Prescott im Detail a1124 S.38 Desktop-Prozessoren im Detail p1248 – Alle Details zur AMD64-Architektur p1022 – Test: Athlon 64/FX vs. P4 Extreme Edition a1244 – Pentium 4 Hyper-Threading Benchmarks a1064 – Hyper-Threading im Detail p840 – PCI Express im Detail p1003 – Speicher-Roadmap a1147 S.19 Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 18 www.tecChannel.de Roadmap: Speicher 1.2 Roadmap: Speicher DDR-SDRAM gehört zum Standardarbeitsspeicher in den heutigen Rechnersystemen. Rasant vollzog sich die Entwicklung dieser neuen Speichertechnologie. Mitte 2000 erschienen erste Chipsätze mit DDR200/266-SDRAM-Unterstützung. Heute liefern Speicherhersteller bereits DDR400-Module und solche, die diese Spezifikation weit übertreffen. Aber ein Ende dieser Speichertechnologie ist bereits abzusehen, denn mit DDR2 befindet sich die nächste Generation kurz vor der Markteinführung – geplant ist das erste Quartal 2004. Die Vorteile: DDR2-Speicher arbeitet bei gleicher Bandbreite mit der halben internen Core-Taktfrequenz und verringert signifikant den Energieverbrauch gegenüber dem herkömmlichen DDR-Memory. Die erste offizielle Spezifikation JESD-79-2 für die künftige DDR2-Speichertechnologie hat das JEDEC-Komitee (www.jedec.org) im September 2003 veröffentlicht. Wie andere Firmen setzt auch der Chipsatzhersteller VIA auf die neue DDR2Speichergeneration. Aber noch vor deren Einführung möchte das taiwanische Unternehmen die Quad-Band-Memory-Technologie (QBM) an den Start bringen. Durch einen technischen Trick verdoppelt sich die Bandbreite der Speichermodule, obwohl nur Standard-DDR266/333/400-Speicherchips verwendet werden. Auch SiS beschreitet neue Wege bei der Erhöhung der Bandbreite des Speicherbusses. Der Chipsatzhersteller verwendet die von Intel lange Zeit bevorzugte RDRAM-Technologie und entwickelt sie zusammen mit Rambus weiter. In den zukünftigen Chipsätzen will SiS PC1200-Speichermodule und die Quad-Channel-Speicher-Interface-Technologie auf Basis von RDRAM einsetzen. Die Entwicklung neuer Speichertechnologien geht über 2007 hinaus. Schon jetzt sickern erste technische Eckdaten des JEDEC-Gremiums für DDR3, den DDR2Nachfolger, durch. Darüber hinaus stellen Intel und Rambus mit Fully-BufferedDIMM und XDR-RAM für 2005 neue Speichertechnologien in Aussicht. 1.2.1 Status aktueller Speichertechnologien Als Nachfolger von DDR266-SDRAM hat sich DDR333-Speicher durchgesetzt, der wiederum von DDR400-SDRAM abgelöst wurde. Chiphersteller wie Intel, VIA, SiS und NVIDIA bieten entsprechende Chipsätze für diese Speichertechnologien an. Die Standards für DDR333-SDRAM verabschiedete das JEDEC-Gremium in den JESD-79-Spezifikationen im Mai 2002. Die Geburtswehen von DDR400 begannen mit der CeBIT 2002, auf der die taiwanischen Hersteller VIA und SiS Chipsätze für diesen Speichertyp zeigten. Erster Anbieter von DDR400SDRAM-Chips war Samsung. Doch für diese frühen Speichermodule existierten keine offiziellen Spezifikationen seitens der JEDEC, so dass jeder Speicherhersteller seine eigenen technischen Standards für DDR400-Speicher festlegte. Kompatibilitätsprobleme waren nicht auszuschließen. webcode: a1147 19 Desktop DDR2 DDR DDR2-533+ DDR2-533 DDR2-400 D DDR333 DDR400 DDR266 DDR200 RDRAM PC800 PC1066 PC1200 SDRAM PC133 2002 2003 2004 2005 © tecCHANNEL Intel Memory Technology Roadmap: Der DDR400-Speicher hat sich etabliert. Mit den ersten DDR2-Speichermodulen ist ab Anfang 2004 zu rechnen. Nachdem sich Intel im September 2002 noch klar gegen DDR400-Speicher ausgesprochen hat, vollzog das Unternehmen im Frühjahr 2003 eine Kehrtwende: Die Chipsätze Canterwood und Springdale bieten Dual-Channel-DDR400-Support. Intel präsentierte sogar eigene DDR400-Spezifikationen, die Kompatibilität und ein sicheres Funktionieren des Speichers gewährleisten sollen. Die Intel-Spezifikation Revision 0.996 war beispielsweise auf den 12. März 2003 datiert. Seit Ende März 2003 liegt die finale DDR400-Spezifikation des JEDECGremiums vor. Zu den wesentlichen Neuerungen von DDR400- gegenüber DDR333-Speicher zählen ein strafferes Signal-Timing, veränderte Betriebsspannungsparameter und eine verbesserte Signalqualität auf den Leitungen. Als Nachfolger von DDR sollen Anfang 2004 DDR2-400 und DDR2-533 an den Start gehen. Bei RDRAM löste PC1200-Speicher erfolgreich den PC1066- und den PC800Speicher ab. Die einzigen Chipsätze, die diese Speichertechnologien nutzen, sind der 850E von Intel und der R658 sowie der R659 von SiS. Intel plant jedoch keine weiteren Chipsätze mit RDRAM-Support, so dass SiS künftig als einziger Chiphersteller RDRAM im Desktop-, Server- und Workstation-Bereich unterstützt. 1.2.2 Entwicklung aktueller Speichertechnologien Die DDR266-, DDR333- und DDR400-Speichertechnologien haben sich auf dem Markt etabliert. Jeder Chipsatzhersteller bietet mittlerweile ein vielfältiges Portfolio an Produkten an, die diese Speichertypen unterstützen. Die Preise differieren 20 www.tecChannel.de Roadmap: Speicher zum Beispiel für 512-MByte-Module um einstellige Euro-Beträge für das billigere DDR266. Noch sind die aktuellen Marktanteile von DDR266 und DDR333 ausbalanciert, sie werden sich aber im Laufe des Jahres 2004 deutlich zu Gunsten des schnelleren DDR333-Speichers entwickeln. DDR400-SDRAM ist seit Anfang 2003 ebenfalls stetiges Wachstum beschert. DDR200 spielt lediglich noch eine untergeordnete Rolle. Es findet Verwendung in einigen Server-Chipsätzen wie in der Grand-Champion-Familie von Broadcom. PC133-Memory verlor im Laufe des Jahres 2003 gänzlich an Marktbedeutung. © tecCHANNEL Marktentwicklung der Speichertechnologien: Der DDR333-Speicher beherrscht bereits den Markt. Erst ab Mitte 2004 hat DDR2 eine Marktbedeutung. (Quelle: Intel) Da Intel laut der aktuellen Roadmap keine weiteren Chipsätze mit RDRAM-Unterstützung entwickelt, schwindet die Marktpräsenz dieser Speichertechnologie zunehmend. Zwar hat der taiwanische Hersteller SiS den R658-Chipsatz mit PC1066-RDRAM-Support für den Pentium 4 herausgebracht, ob sich das auf den Absatz von entsprechenden Modulen entscheidend auswirkt, bleibt abzuwarten. Auch der im November 2003 vorgestellte Nachfolgerchipsatz SiS R659 mit Quad-Channel-RDRAM-Controller für PC1200-Module soll den angeschlagenen RDRAM-Markt weiter ankurbeln. Die DDR2-Speichertechnologie für Rechnersysteme befindet sich noch in der Evaluierungsphase. Erste Chipsätze mit DDR2-Support soll es ab Anfang 2004 zum Beispiel von SiS (SiS656) und VIA (Apollo PT890) und Mitte 2004 von Intel (Grantsdale) geben. Die DDR2-Technologie soll dann rasch den DDR-SDRAMSpeicher ablösen und vom Markt verdrängen. webcode: a1147 21 Desktop 1.2.3 Fazit Noch steht DDR333-Speicher in der Gunst der Käufer. Doch bereits seit Mitte 2003 drängt DDR400 in ausreichenden Stückzahlen auf den hart umkämpften Speichermarkt. DDR400 verfügt zusammen mit einem Dual-Channel Memory Controller über genügend Speicherbandbreite, um auch CPUs mit einem FSB von 800 MHz ohne Engpässe mit Daten zu versorgen. Auf Drängen von Intel wurden im März 2003 die JEDEC-Spezifikationen für DDR400 zügig verabschiedet; mittlerweile hat es sich im Markt etabliert. Mit DDR2 entwickeln die Speicherhersteller die Nachfolgetechnologie von DDRSDRAM. Die finalen Spezifikationen wurden im September 2003 veröffentlicht, und erste Muster befinden sich bereits in der Validierungsphase. Um die Zeit bis zur Einführung von DDR2-Speicher zu überbrücken, will VIA auf die Quad-Band-Memory-Technologie setzen. Diese sollte bereits im vorgestellten Pentium-4-Chipsatz VIA PT880 zum Einsatz kommen. Branchenkenner munkeln, dass VIA mit QBM-Speicher Probleme hat und deshalb die Chancen für QBM gering sind, noch rechtzeitig vor der Einführung von DDR2 Anfang 2004 auf den Markt zu kommen. Obwohl sich Intel als der Hauptbefürworter der Rambus-Technologie davon verabschiedet hat, halten immer noch Chipsatz- und Speicherhersteller an RDRAM fest. So hat SiS im November 2003 den ersten Chipsatz mit integriertem QuadChannel Memory Controller auf PC1200-RDRAM-Basis vorgestellt. Zusätzlich entwickelt das Unternehmen Rambus in Anlehnung an die RDRAM-Technologie eine neue Speichergeneration, genannt XDR-RDRAM. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact Roadmap: Speicher a1147 S.19 Speichertechnologien a1147 S.50 Test: RIMM 4200 a985 – Test: PC1066-RDRAM a925 – Test: DDR400-SDRAM a898 – Rambus im Detail a202 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 22 www.tecChannel.de Roadmap: Grafikchips 1.3 Roadmap: Grafikchips Auf dem Grafikchipmarkt buhlen ATI und NVIDIA um die Vormachtstellung. Sie bieten ein Portfolio an Produkten für jedes Preissegment an. Zusätzlich drängt die Konkurrenz wie S3 und XGI mit neuen Grafikchips auf den Markt. Für ihr Angebot haben die Grafikchiphersteller den Markt in drei Zielgruppen unterteilt: Der Highend-User oder Enthusiast erhält den schnellsten Grafikchip mit den aktuellen „State-of-the-Art-Features“ zu einem hohen Preis. Im Massenmarktbereich (Mainstream) bekommt der Kunde ein Produkt zum besten PreisLeistungs-Verhältnis. Dagegen muss der Käufer im Einsteiger- oder Value-Segment in punkto Performance und aktueller Technologie Abstriche hinnehmen – dafür ist der Preis in dieser Sparte niedrig. Um sich für ein bestimmtes Produkt zu entscheiden, sind detaillierte Kenntnisse aktueller und zukünftiger Produkte der verschiedenen Hersteller notwendig. Denn bereits ab Anfang 2004 steht mit PCI Express ein Schnittstellenwechsel an. Zusätzlich soll im Laufe des Jahres mit DDR3 eine neue Speichertechnologie für Grafikkarten eingeführt werden. Wir geben auf den folgenden Seiten einen Überblick über das Produktangebot der namhaften Grafikchiphersteller. Darüber hinaus stellen wir die zukünftigen Grafikchips der einzelnen Grafikchipschmieden vor. Trotz spärlicher Informationen seitens der Hersteller sickern dennoch erste technische Spezifikationen der Kandidaten durch. 1.3.1 ATI: Grafikchips im Überblick Der Grafikchiphersteller ATI bietet mit der RADEON 9800XT (R360) und der RADEON 9800 (R350) zwei Chipfamilien im High-Performance-Bereich an. Wie bei NVIDIA unterscheiden sich die ATI-Chips beim Chip- und Speichertakt voneinander. Die interne Architektur bleibt unverändert. Sie besteht aus einer 8x1-Pipeline-Technologie und einer 256 Bit breiten Speicherschnittstelle. Zu den Vorgängern zählen die Highend-Chipvarianten des RADEON 9700 (R300). Für den Preis-Leistungs-bewussten Kunden hält ATI mit dem RADEON 9800SE (R350), dem RADEON 9600XT (RV360) und dem RADEON 9600 (RV350) drei Grafikchipversionen parat. Alle verfügen über eine 4x1-Pipeline-Architektur und einen 128 Bit breiten Speicherbus. Zusätzlich variiert je nach Chipmodell die Frequenz für den Core und den eingesetzten Speicher. An Marktbedeutung verlieren die Chipvarianten des RADEON 9500 (R300). Im Einsteigersegment finden sich mit dem RADEON 9600SE (RV350) und dem RADEON 9200 (RV280) aktuell zwei Chipfamilien zur Auswahl. Sie verfügen über eine 4x1-Pipeline-Architektur, die allerdings im Vergleich zu den Massenmarktprodukten mit verminderter Taktfrequenz und einer Speicherbusbreite von lediglich 64 Bit arbeitet. Zu Gunsten der Nachfolger wurde die Produktion des RADEON 9100 (R200) und der RADEON-9000-Versionen (RV250) eingestellt. webcode: a1283 23 Highend RADEON 9800 PRO R350 380/340+ MHz RADEON 9800 R350 325/290 MHz (8x1 P, 256 Bit) RADEON 9800 XT R360 412/365 MHz (8x1 P, 256 Bit) Mainstream RADEON 9600 PRO RV350 400/300 MHz RADEON 9600 RV350 325/200 MHz (4x1 P, 128 Bit) RADEON 9800 SE R350 380/340 MHz RADEON 9600 XT RV360 500/300 MHz (4x1 P, 128 Bit) Value Desktop RADEON 9200 PRO RV280 400/300 MHz RADEON 9200 RV280 250/200 MHz (4x1 P, 64/128 Bit) RADEON 9600 SE RV350 325/200 MHz RADEON 9200 SE RV280 200/166 MHz (4x1 P, 64 Bit) 1H'03 R420 AGP 8x / PCI Express R380/R370 >PCI Express ??? PCI > Express 2H'03 1H'04 © tecCHANNEL ATI-Roadmap: Mit dem R420 will die kanadische Chipsatzschmiede ATI im ersten Halbjahr 2004 einen Highend-Grafikchip für den neuen PCI-Express-Slot auf den Markt bringen. Die Informationen über ATIs zukünftige Entwicklungen sind spärlich gesät. Unter dem Codenamen R420 will ATI aber im ersten Halbjahr 2004 eine PCI-ExpressLösung für den Highend-Bereich vorstellen. Der AGP-8x-Support soll wie bei NVIDIA über einen Bridge-Baustein möglich sein. Sowohl der Pixel- als auch der Vertex-Shader in den Versionen 3.0 bieten voraussichtlich DirectX-9.1-Unterstützung. Offen ist auch die Frage, ob der Grafikchip bereits DDR3-Support bietet. 1.3.2 NVIDIA: Zukunftsperspektiven Die amerikanische Chipsatzschmiede NVIDIA hat im Highend-Segment aktuell mit dem GeForceFX 5950 (NV38) und dem GeForceFX 5900 (NV35) zwei Kandidaten im Portfolio. In der Chiparchitektur unterscheiden sich die beiden Chips nicht voneinander, lediglich die Taktraten für Core und Speicher sind unterschiedlich. Der Vorgänger GeForceFX 5800 (NV 30) wird nur noch als Auslaufmodell gehandelt. Im umsatzträchtigsten Bereich stehen dem Kunden mit der GeForceFX 5700 (NV36) und der GeForce 5600 (NV 31) ebenfalls zwei Chipfamilien zur Auswahl. Sie verfügen im Vergleich zu den Topmodellen über eine abgespeckte Pipeline-Architektur und eine auf 128 Bit halbierte Speicherbusbreite. Die beiden Grafikchiptechnologien ersetzen die veralteten GeForce4-Ti-Familien (NV28/ NV25). Das Einsteigerfeld deckt NVIDIA mit der GeForceFX 5200 (NV34) ab. Der Grafikchip kann je nach Anforderungen eine 64 oder 128 Bit breite Speicherschnittstelle ansprechen. Der Core- und Speichertakt sowie die Chiparchitektur sind, wie die Roadmap zeigt, entsprechend für das Segment zugeschnitten. 24 www.tecChannel.de Highend GeForceFX 5800 U NV30 475/475 MHz GeForceFX 5800 NV30 400/400 MHz (4x2 P, 128 Bit) GeForceFX 5950 U NV38 475/475 MHz GeForceFX 5900 XT NV35 390/350 MHz (4x2 P, 256 Bit) NV40 AGP 8x/PCI Express 600/750 MHz (8x2 P, 256 Bit) Mainstream GeForceFX 5600 U NV36 400/400 MHz GeForceFX 5600 NV36 325/275 MHz (2x2 P, 128 Bit) GeForceFX 5700 U NV36 475/450 MHz GeForceFX 5600 XT NV31 235/200 MHz (2x2 P, 128 Bit) NV36X (NV36 mit PCI Express) PCI Express Value Roadmap: Grafikchips GeForceFX 5200 U NV34 325/325 MHz GeForceFX 5200 NV34 250/200 MHz (2x2 P, 64/128 Bit) GeForceFX 5200 SE ??? NV43/NV42 PCI > Express >PCI Express 1H'03 2H'03 NV45 PCI Express NV41 1H'04 © tecCHANNEL NVIDIA-Roadmap: Der NV40 soll NVIDIAs erster Grafikchip mit PCI-Express-Schnittstelle werden. Vorstellen will ihn der Hersteller im ersten Halbjahr 2004. Das Einsteigerfeld deckt NVIDIA mit der GeForceFX 5200 (NV34) ab. Der Grafikchip kann je nach Anforderungen eine 64 beziehungsweise 128 Bit breite Speicherschnittstelle ansprechen. Der Core- und Speichertakt sowie die Chiparchitektur sind, wie die Roadmap zeigt, entsprechend für das Segment zugeschnitten. Neues technisches Terrain will der Chiphersteller mit der Vorstellung des NV40 Anfang 2004 beschreiten. Dieser Grafikbaustein soll über eine PCI-ExpressSchnittstelle verfügen und neben DDR2- bereits DDR3-Speichertechnologie unterstützen. Ein spezieller AGP-Bridge-Baustein ermöglicht dann den Einsatz in den herkömmlichen AGP-8x-Slots. Zusätzlich soll der Neuling eine schnellere 8x1- oder sogar 8x2- statt 4x2-Pipeline-Architektur besitzen. Darüber hinaus enthält der NV40 voraussichtlich vollen DirectX-9.1-Support mit Pixel- und VertexShadern der Version 3.0 – aktuell unterstützen die Grafikprozessoren DirectX 9.0 mit Shadern der Version 2.0+. Auch in preissensitiven Bereichen plant NVIDIA, entsprechende PCI-Express-Pendants auf den Markt zu bringen. 1.3.3 S3 Graphics: Comeback-Versuch Auf dem Desktop-Grafikchipmarkt hatte S3 Graphics in den letzten Jahren keine Marktpräsenz, da die bisherigen Grafikchiptechnologien ausschließlich als integrierte Lösungen für den Mobile-Bereich bestimmt waren. Doch mit der neuen DeltaChrome-Generation beabsichtigt das taiwanische Unternehmen 2004 den Wiedereinstieg in das Desktop-Segment. Für den Highend-User bietet S3 Graphics dann den DeltaChrome F1 mit einer 8x1-Pipeline-Architektur und DirectX-9.0-Unterstützung an. Der Chip arbeitet mit 128-Bit-DDR2-Speichertechnologie und benötigt durch die Ultra-Low- webcode: a1283 25 Desktop Power-Technologie im Vergleich zu den Mitbewerbern deutlich weniger Strom. Das Post-Processing und das HQ-De-Interlacing sind weitere Funktionen des DeltaChrome F1. Im umsatzstärksten Sektor wird S3 Graphics den DeltaChrome S8 mit reduzierter Performance und im Vergleich zu den Highend-Modellen nahezu identischem Chipaufbau ausstatten. Für den preissensitiven Einsteigermarkt steht der DeltaChrome S4 mit vier Pipelines zur Verfügung. Beide Chips arbeiten mit herkömmlicher DDR-Speichertechnologie und 128 Bit Speicherbusbreite. Übersicht über die S3-Graphics-Grafikprozessoren GPU DeltaChrome F1 DeltaChrome S8 DeltaChrome S4 Schnittstelle AGP 8x AGP 8x AGP 8x DDR ja ja ja DDR2 ja nein nein DirectX 9.0 9.0 9.0 Pipeline 8 8 4 TMU 1 1 1 Füllrate 2,4 GByte/s 2,4 GByte/s 1,6 GByte/s Speicherbandbreite 11 GByte/s 9,6 GByte/s 9,6 Gbyte/s Der Nachfolger der DeltaChrome-Chips setzt nach einer S3-Graphics-Roadmap auf DirectX 9.0 und höher, inklusive Vertex- und Pixel-Shader der Version 3.0. Zusätzlich soll er mit DDR2-Speicher arbeiten. Mit welcher Busbreite das Speicher-Interface den Datenaustausch dann regelt, gibt der Hersteller nicht preis. 1.3.4 XGI: Aufbruchpläne Zu Beginn des Jahres 2003 formierte sich aus den Grafikchipsparten von SiS und Trident das Unternehmen eXtreme Graphics Innovation (XGI). Noch im September desselben Jahres stellte XGI auf der „Computex“ in Taipei unter dem Namen Volari eine vollständige Grafikprozessorfamilie vor. Der Hersteller adressiert mit den Versionen Volari Duo V8 Ultra und Volari Duo V5 Ultra den High-Performance-3D-User. Mit den beiden Single-Prozessor-Varianten Volari V8 Ultra und Volari V8 will XGI den Highend-Markt mit GPUs bedienen, für den Mainstream-Bereich sind der Volari V5 Ultra und der Volari V5 ebenfalls in Single-Ausführung vorgesehen. Zusätzlich soll der Volari 3 das Einsteigerfeld abdecken und der Volari XP5 das Mobile-Segment erschließen. Welche technischen Details die einzelnen DesktopGPUs voneinander unterscheiden, zeigt die folgende Tabelle: 26 www.tecChannel.de Roadmap: Grafikchips Übersicht über die XGI-Volari-Grafikprozessoren GPU Volari Duo V8 Ultra Volari Duo V5 Ultra Volari V8 Ultra Volari V8 Volari V5 Ultra Volari V5 Volari V3 AGP 8x ja ja ja ja ja ja ja Core 350 MHz 350 MHz 350 MHz 350 MHz 350 MHz 300 MHz 300 MHz DDR 375+ MHz 375+ MHz 375+ MHz 325+ MHz 375+ MHz 325 MHz 250 MHz DDR2 500 MHz 500 MHz 500 MHz 450 MHz 500 MHz 450 MHz nein DirectX 9.0 9.0 9.0 9.0 9.0 9.0 9.0 Pipeline 16 8 8 8 4 4 2 V-Shader 4 4 2 2 2 2 1 P-Shader 8 4 4 4 2 2 1 P-Shader 8 4 4 4 2 2 1 ShaderVersion 2.0 2.0 2.0 2.0 2.0 1.3 2.0 Die verschiedenen Volari-Desktop-GPUs unterstützen DDRII- oder StandardDDR-Speicher – die Mobile-GPU nur Letzteres. Um die hohe Performance bei den Volari-Duo-Versionen zu erreichen, berechnen die Prozessoren im Wechsel einen gesamten Bildaufbau. Ähnlicher Verfahren bedienten sich bereits vor Jahren erfolglos 3dfx und ATI. Auch zukünftig beabsichtigt XGI, kräftig im Grafikchipgeschäft mitzumischen. Eine interne Roadmap zeigt, welche Überraschungen der Newcomer im Grafikchipgeschäft zu bieten hat. Zukunftsaussichten: Nach XGIs Roadmap folgen bereits 2004 weitere Grafikchips des Herstellers. (Quelle: XGI) Man darf also gespannt sein, ob sich das taiwanische Unternehmen XGI mit den Volari-Chips auf dem hart umkämpften Grafikchipmarkt behaupten kann – das technische Potenzial dazu hat er. Interessant scheint der XGI Volari für den Markt webcode: a1283 27 Desktop zu sein, denn zumindest Grafikkartenhersteller Club3D hat den Grafikchip in sein Portfolio aufgenommen. Weitere nahmhafte Firmen wie Gigabyte, MSI oder Power Color wollen 2004 nachziehen und Produkte mit den Volari-Chips anbieten. 1.3.5 Fazit Jeder Grafikchiphersteller hat als Aushängeschild ein Topmodell für DesktopSysteme im Angebot. So bieten Anfang 2004 ATI mit dem RADEON 9800XT und NVIDIA mit dem GeForce FX 5950 Ultra die gefragtesten Highend-Grafikchips an. XGI will mit dem hauseigenen Flaggschiff Volari Duo V8 Ultra den etablierten Chipsatzschmieden Marktanteile streitig machen. Auch S3 Graphics plant mit dem neu entwickelten Delta Chrome F1, den Topprodukten der Konkurrenz etwas Ebenbürtiges entgegenzusetzen. Den Roadmaps zufolge haben nahezu alle Grafikchiphersteller schon für Anfang 2004 erste Modelle mit der neuen Schnittstellentechnologie PCI Express vorbereitet. Zeitgleich werden Mainboards mit entsprechenden Chipsätzen verfügbar sein. Die Spezifikationen für diese neue Technologie liegen bereits in der finalen Version vor. In der Übergangsphase können die Grafikchips jedoch per AGPBridge-Baustein an das herkömmliche AGP-8x-Interface angebunden werden. Eine höhere Performance wollen die Grafikchiphersteller durch höhere Taktfrequenz und neue Hardware-Features wie verbesserte Pixel- und Vertex-Shader erreichen. Zusätzlich soll die zukünftige DDR3-Speichertechnologie den DDR2Speicher ablösen und für den nötigen Performance-Schub sorgen. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact Roadmap: Grafikchips a1283 S.23 Test: XGI Volari Duo V8 Ultra vs. ATI und NVIDIA a1182 – Test: NVIDIA GeForceFX 5950/5700 Ultra a1268 – PCI Express für Grafikkarten a1182 S.29 PCI Express: Der Highspeed-Datenbus im Detail p1003 – Speichertechnologien a1147 S.50 Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 28 www.tecChannel.de PCI Express für Grafikkarten 1.4 PCI Express für Grafikkarten PCI Express soll ab Mitte 2004 das in die Jahre gekommene AGP-Interface als Grafikschnittstelle ablösen. Wegbereiter Intel verspricht höhere Performance und geringere Kosten durch einfache Implementierung in bestehende Board-Designs. Bei der aktuellen CPU- und Chipsatzgeneration liegt die Bandbreite des Prozessor- und Speicherbusses bei 5,96 GByte/s. Die AGP-8x-Grafikschnittstelle erreicht eine Datentransferrate von 1,99 GByte/s. Damit ist der AGP-8x-Bus nach Intels Meinung technisch ausgereizt und verhindert eine ausbalancierte Performance-Verteilung der Datenströme zwischen CPU, Systemspeicher und Grafikchip. Eine PCI-Express-x16-Schnittstelle soll dieses Problem beseitigen. Gleichzeitig will der Technologiegigant Buslösungen wie den eigenen Hub-Link und das veraltete und langsame PCI-Interface durch PCI Express ersetzen. Nach den ersten festgelegten Spezifikationen der Version 1.0a und bisherigen Updates erreicht der Grafikbus auf Basis von PCI Express x16 eine rechnerische Datenrate von 3,73 GByte/s unidirektional und 7,46 GByte/s bidirektional. Die Schnittstelle ist zudem durch variable Busbreiten und höhere Taktfrequenzen einfach skalierbar. Ein weiterer Vorteil der seriellen PCI-Express-Technologie im Vergleich zur parallelen von AGP ist das unkomplizierte Routing der Signalleitungen. Es vereinfacht die PCB-Entwicklung und spart Kosten. Leistungshungrige Grafikkarten kann der PCI-Express-x16-Grafikbus mit bis zu 75 Watt an elektrischer Leistung versorgen. Dagegen liefert der Standard-AGP-Port laut Spezifikation nur maximal 25 Watt – lediglich teurere AGP-Pro-Varianten schaffen mehr. In diesem Artikel stellen wir Ihnen die kommende Schnittstellengeneration für Grafikkarten im Detail vor. Zusätzlich erläutern wir, welche Vorzüge der neue PCI-Express-Bus gegenüber dem AGP-Interface hat. 1.4.1 Grafikschnittstellen im Wandel Die ersten Grafikkarten für PCs wohnten Anfang der 80er Jahre in der immer noch bekannten ISA-Schnittstelle. Der 16 Bit breite Bus arbeitet mit einer Taktfrequenz von 8,33 MHz. Er erreicht eine rechnerische Bandbreite von 15,9 MByte/s. Mit der Einführung von Windows 1985 stiegen die 2D-Datenmengen zur Grafikkarte, denn Microsoft stattete das Betriebssystem mit einem Grafik-User-Interface (GUI) aus. Um dem hohen Datenaufkommen gerecht zu werden, verabschiedete das PCI-SIG-Konsortium (www.pcisig.com/home) – und allen voran Intel – 1993 die finale PCI-Spezifikation in der Version 2.0. Der Peripheral Component Interconnect (PCI) verfügt über einen 32-Bit-Datenbus und erlaubt Taktraten von 8 bis 33 MHz. Die maximale theoretische Bandbreite beträgt 127,2 MByte/s. Mit der Erweiterung der PCI-Spezifikationen auf Version 2.3 sind sogar Frequenzen bis 66 MHz bei 64 Bit Busbreite zulässig. webcode: a1182 29 Desktop 4500 PCI Express Gen1 4000 3500 MByte/s 3000 2500 AGP 8x 2000 1500 AGP 4x 1000 500 0 AGP 1/2x ISA PCI 1985 1993 1997 1998 1999 2002 2004 © tecCHANNEL Generationswechsel: Mit jeder neuen Entwicklungsstufe des Grafikbusses wächst die nominale Datenbandbreite der Schnittstelle zirka um das Doppelte. Mit der immer stärkeren Nutzung von 3D-Applikationen erwies sich das PCI-Interface schon bald als zu langsam, insbesondere da der PCI-Bus auch noch parallel andere Einsteckkarten verwalten musste. Mitte 1998 verabschiedete die PCISIG den Standard AGP 1x/2x und Ende des Jahres AGP 4x. Der „Accelerated Graphics Port“ (AGP) ist ein modifiziertes PCI-Interface. Anders als PCI ist der AGP-Bus nicht an den I/O-Baustein des Chipsatzes angebunden, sondern als Punkt-zu-Punkt-Verbindung zwischen Grafikkarte und Chipsatz ausgelegt. Die AGP-Schnittstelle arbeitet mit einem Grundtakt von 66 MHz und erreicht über den 32-Bit-Datenbus im AGP-/2x-Modus eine maximale Transferrate von 508,6 MByte/s und im AGP-4x-Betrieb 1017,3 MByte/s. Die letzte Entwicklungsstufe des AGP-Ports beschreibt die Spezifikation 3.0 (September 2002) mit dem AGP8x-Standard. Mit einer Vervierfachung der Frequenz auf bestimmten Steuerleitungen erreicht AGP 8x eine Bandbreite von 1,99 GByte/s. Die nächste Performance-Stufe soll 2004 PCI Express einläuten. Für die hohen Datenmengen – um aufwendige fotorealistische Grafiken zu berechnen – steht mit der ersten Generation des PCI-Express-Grafikbusses eine x16-Link-Verbindung zur Verfügung. Die nominale Bandbreite beträgt 3,73 GByte/s je Richtung und 7,46 GByte/s bidirektional. Je nach benötigter Bandbreite sind auch Grafikschnittstellen mit geringerer Link-Anzahl möglich. In der nächsten PCI-ExpressGrafik-Interface-Generation sollen Link-Verbindungen bis x32 möglich sein. 1.4.2 AGP 8x und PCI Express im Vergleich Die Tabelle zeigt eine Gegenüberstellung von AGP 8x und PCI Express x16 mit den wichtigsten Kenndaten der bisher veröffentlichten Spezifikationen. Die AGP8x-Schnittstelle basiert auf einer parallelen Datenübertragung und ist nicht skalierbar. Demgegenüber steht das serielle Transferverfahren von PCI Express. 30 www.tecChannel.de PCI Express für Grafikkarten AGP 8x und PCI Express x16 im Kurzüberblick Interface AGP 8x PCI Express x16 Max. Busbreite 32 Bit 32 serielle Leitungspaare Max. Taktrate 266 MHz (66 MHz) 2,5 GHz Max. Bandbreite uni-/ bidirektional (GByte/s) 1,99 / 1,99 3,73 / 7,46 Bandbreite pro Pin ~18 Mbit/s ~100 Mbit/s Max. Tiefe der RequestPipeline 32 256 Datenlänge des Request 8-64 Byte 4-4096 Byte Unabhängige DatenStreams bis zu 3: PCI, LP (linear programmiert), ISOC (isochron) bis zu 8 (VC0-7) Art der isochronen Übertragung partiell voll Shared Memory ja (GART) ja (OS/Treiber) Physikalische Schnittstelle Punkt-zu-Punkt-Verbindung differenzielle Verbindung Taktgeber externer synchroner Takt interner Takt Max. Verlustleistung 25 W (50/110 W bei AGP Pro) 25 W, 75 W, Pro-Variante in Vorbereitung Anzahl der Pins 132 164 Einführung (Jahr) 2002 2004 Mehr Details zur AGP-Schnittstelle erfahren Sie im Artikel „Test: Was bringt AGP 8x / Pro? (webcode: a1082)“. Technische Einzelheiten über PCI Express können Sie in dem Beitrag „PCI Express: Der Highspeed-Datenbus im Detail“ (webcode: p1003) nachlesen. Die PCI-Express-Spezifikationen werden ständig überarbeitet und weiterentwickelt. Diese Aufgabe obliegt dem PCI-SIG-Konsortium, das die daraus resultierenden Spezifikations-Updates auch veröffentlicht. 1.4.3 Die Spannungsversorgung Die zukünftigen Grafikkarten mit PCI-Express-Schnittstelle verfügen über ein neues überarbeitetes Konzept der Spannungsversorgung. So fällt die bisherige notwendige 5-V-Spannungsschiene des AGP-Interface weg. Die PCI-Express- webcode: a1182 31 Desktop Grafikkarte erhält ausschließlich über die +3,3- und +12-V-Leitungen Energie. Aus diesen beiden Spannungsquellen müssen Baugruppen wie der Speicher (Core und I/O) und der Grafik-ASIC (Core und I/O) sowie die Display-Schnittstelle gespeist werden. Auch eine +5-V-Leitung – per Spannungsregler aus +12 V generiert – für den Anschluss von digitalen Monitoren ist notwendig. Um eine einwandfreie Energieversorgung zu gewährleisten, sollen die Leitungswege vom Spannungsregler auf dem Mainboard zum PCI-Express-Stecker einen möglichst geringen Widerstand aufweisen. Außerdem müssen alle Spannungsleitungen mit hohen Kapazitäten gegen Spannungsstörungen abgesichert sein. 160.0 140.0 Speicher Regler Grafik-ASIC 120.0 Watt 100.0 80.0 60.0 40.0 20.0 0.0 2001 2002 2003 2004 2005 2006 © tecCHANNEL Zukunftsperspektiven: Die Leistungsaufnahme von Grafikkarten, bestehend aus Speicher, Spannungsregler und Grafik-ASIC, soll bis 2006 auf nahezu 160 Watt ansteigen. Der Spezifikation zufolge darf eine AGP-Grafikkarte maximal 25 Watt an elektrischer Leistung aufnehmen – einen Standard-Slot vorausgesetzt. Die Pro-50/110Versionen mit modifiziertem Stecker benötigen entsprechend mehr. Die heutigen Standard-Highend-Grafikbeschleuniger benötigen unter Umgehung der Spezifikationen zirka 80 Watt. Wie das obere Diagramm zeigt, wird sich die Leistungsaufnahme bei Grafikkarten bis 2006 nochmals verdoppeln. Die PCI-Express-Arbeitsgruppe entwickelte in der Spezifikation 1.0a die neue Schnittstelle für Grafik-Boards mit 60 Watt Leistungsaufnahme. Doch noch vor der endgültigen Verabschiedung der finalen Spezifikationen hat man den Wert für Standardgrafikkarten auf 75 Watt erhöht. Zudem laufen die ersten Studien für einen PCI-Express-Pro-Standard mit höher spezifizierten Werten für die Energieversorgung – ähnlich dem AGP-Pro-Standard. Für Low-Profile-Grafikkarten bleibt die maximale Leistungsaufnahme von 25 Watt bestehen. Rechnerisch liefert die 3,3-V-Spannungsversorgung eine Leistung von 9,9 Watt. Zuzüglich der 66 Watt aus der +12-V-Spannungszuführung ergibt sich ein theoretischer Gesamtwert von 75,9 Watt für die PCI-Express-Grafikschnittstelle. 32 www.tecChannel.de PCI Express für Grafikkarten PCI-Express-x16-Spannungsversorgung Spannung: x16-Schnittstelle +3,3 V Toleranz +/- 9 % Max. Strom 3,0 A +12 V Toleranz +/- 8 % Max. Strom 5,5 A +3,3 V aux Toleranz +/- 9 % Max. Strom Wake-Modus 375 mA Max. Strom Non-Wake-Modus 20 mA Um diesen hohen Energiebedarf zu decken, sind Netzteile mit mindestens 300 Watt Ausgangsleistung und ein Stecker mit 2 x 12 Anschlüssen vorgeschrieben, wie sie bereits in Servern eingesetzt werden. In den bisherigen Desktop-Systemen genügt ein Netzteil nach ATX-Standard mit 2 x 10 Anschlüssen. Die neuen vier zusätzlichen Pins setzen sich zusammen aus einer +3,3-V-, 5-V- und 12-V-Spannungsleitung sowie einer Massezuführung. 1.4.4 PCI-Express-Routing Um unterschiedliche Signallaufzeiten zu vermeiden, müssen beim parallelen AGP-Bus alle Leitungen gleich lang sein. Grund für diese Vorgabe ist ein externer Taktgenerator, der zentral nahezu alle Baugruppen synchron ansteuert. Beim seriellen PCI-Express-Interface gibt es, außer bei den einzelnen Verbindungen eines differenziellen Leitungspaares, keine strengen Längenrestriktionen. Denn aus jedem Datenstrom eines Leitungspaares lässt sich der exakte Steuertakt generieren (embedded clock). Dieser Steuertakt arbeitet unabhängig von einem zentralen Frequenzgeber und ermöglicht einen asynchronen Betrieb der Datenleitungen. Routing eines differenziellen Leitungspaares: Für eine fehlerfreie Signalübertragung bei PCI Express müssen die Entwickler einige Routing-Regeln befolgen. (Quelle: Intel) © tecCHANNEL noch zulässiges Routing webcode: a1182 optimales Routing alternatives Routing 33 Desktop Die einzelnen differenziellen Leitungspaare müssen bestimmte Anforderungen erfüllen. So ist es für einen fehlerfreien Datenstrom besonders wichtig, dass die zwei Signalleitungen eine Längenabweichung von maximal 0,13 mm untereinander nicht überschreiten. Zusätzlich schreibt die PCI-Express-Spezifikation ein symmetrisches Routing jedes Paares vor. Routing eines PCI-Express-Steckers: In der Praxis muss man bei PCI Express besonders auf das symmetrische Routing der einzelnen differenziellen Signalleitungen achten. (Quelle: Intel) Um störendes Übersprechverhalten – so genanntes „Crosstalk“ – auf den Datenleitungen zu vermeiden, dürfen die zwei Leitungen eines Paares einen Abstand von 0,2 mm nicht unterschreiten. Außerdem sollte die Entfernung zum benachbarten Leitungspaar mindestens 0,51 mm betragen. PCI-Express-Mainboard-Routing: Die Koppelkondensatoren (1) unterdrücken die Gleichspannungsanteile auf den differenziellen Leitungspaaren. Die maximale Länge einer Datenleitung (2) ist bei PCI Express auf 30,48 mm begrenzt. (Quelle: Intel) 34 www.tecChannel.de PCI Express für Grafikkarten Das Bild „PCI-Express-Mainboard-Routing“ zeigt das Routing der Signalleitungen zwischen einem PCI-Express-x16-Stecker und einem Northbridge-Chip. Deutlich zu erkennen sind die direkten Leiterbahnführungen ohne Mäander zur Angleichung der Signallaufzeit – wie beim AGP-Routing nötig. Außerdem weisen die Leiterbahnen bei PCI Express eine Abwinkelung von 135 auf – statt wie üblich 90 Grad. Diese Routing-Vorschrift legt die PCI-Express-Spezifikation fest, um Jitter-Bildung und Reflektionen auf den Leitungen zu minimieren. AGP-Mainboard-Routing: Mit serpentinenartigem Leiterbahn-Routing versuchen die Mainboard-Entwickler beim AGP-Bus die unterschiedlichen Laufzeiten von Strobe- (1) und Datensignalen (2) auszugleichen. (Quelle: Intel) 1.4.5 Grafikkarten und Mainboards mit PCI Express Die erste Generation des PCI-Express-Grafikbusses besteht aus einer x16-LinkVerbindung. Dabei unterscheiden sich die mechanischen Spezifikationen nicht wesentlich von den AGP-Definitionen. So bleiben die PCB-Abmessungen einer PCI-Express-Grafikkarte unverändert. Das Board-Design und speziell die Platzierung der Bauelemente ändert sich durch die neue Schnittstelle kaum. Ein Vorteil der PCI-Express-Technologie besteht aber in der flexiblen Positionierung von Bauteilen durch die Routing-Vereinfachungen. Erste serienreife Produkte mit der neuen Schnittstelle sollen Mitte 2004 auf den Markt kommen. So offenbart Intels aktuelle Roadmap den Grantsdale-Chipsatz als Vorreiter der PCI-Express-Technologie. Den Busstandard setzt der Hersteller als Chip-to-Chip-Interconnect für die Verbindung zwischen MCH und ICH ein. Zusätzlich verfügt der Grantsdale über einen PCI-Express-Grafikport. webcode: a1182 35 Desktop Express-Grafik: Rein äußerlich unterscheidet sich eine PCI-Express-Grafikkarte nur unwesentlich von einem AGP-Grafik-Board. (Quelle: Intel) ATI plant für Mitte 2004 mit einem PCI-Express-x1-Onboard-Chip für ServerAnwendungen herauszukommen. Gleichzeitig wollen die Kanadier den PCI-Express-x16-Bus auf 3D-Grafiksteckkarten realisieren. Auch die Mitbewerber, wie NVIDIA, VIA oder SiS, entwickeln Produkte mit der PCI-Express-Technologie. Keine Zukunftsvisionen: Schon Mitte 2004 soll es die ersten serienreifen Mainboards mit PCI-ExpressSchnittstelle für Grafikkarten geben. (Quelle: Intel) 36 www.tecChannel.de PCI Express für Grafikkarten 1.4.6 Fazit Die ersten 3D-Grafikkarten mit einer PCI-Express-x16-Schnittstelle verfügen im unidirektionalen Betrieb über eine Bandbreite von 3,73 GByte/s. Rechnerisch entspricht das in etwa der doppelten Transferleistung des AGP-8x-Busses. Damit dürfte das Grafik-Interface für künftige 3D-Anwendungen genügend Reserven bieten. Darüber hinaus verfügt PCI Express mit der Skalierbarkeit der Busbreite bis x32 und der Möglichkeit, die Taktfrequenz weiter zu erhöhen, noch über ausreichendes Entwicklungspotenzial. Allerdings steht die Notwendigkeit der höheren Busgeschwindigkeit infolge wachsenden Grafikspeichers in Frage. Aktuell schöpfen nur wenige Profianwendungen die volle Performance von AGP 8x aus. Zum Erfolg der PCI-Express-Grafikschnittstelle dürfte die einfache und damit Kosten sparende Implementierung in bestehende PCB-Designs beitragen. Denn die serielle Bustopologie mit differenziellen Leitungspaaren vereinfacht das Routing von Signalleitungen entscheidend. Mäanderförmige Leiterbahnführungen zum Ausgleichen der Signallaufzeiten wie bei AGP 8x gehören mit der Einführung von PCI Express der Vergangenheit an. Für leistungshungrige High-Performance-Grafikkarten sollte das PCI-Expressx16-Interface nach der Spezifikation 1.0a eine elektrische Leistung von 60 Watt liefern. Dieser Wert fällt aber angesichts von bis zu 80 Watt Leistungsaufnahme bei aktuellen Grafikkarten gering aus. Deshalb hat das PCI-SIG-Konsortium ihn in einem Spezifikations-Update auf 75 Watt erhöht. Für zusätzlichen Leistungsbedarf sind Pro-Varianten des PCI-Busses vorgesehen. Allerdings befinden sie sich noch in der Entwicklungsphase. Nahezu alle namhaften Chipsatz- und Grafikchiphersteller wie Intel, SiS, VIA, ATI, NVIDIA und 3dlabs arbeiten an entsprechenden PCI-Express-basierenden Produkten. Die ersten serienreifen Ergebnisse kommen Mitte 2004 auf den Markt. Um den Übergang von AGP auf PCI Express zu erleichtern, wird es je zwei Produktvarianten mit der entsprechenden Schnittstelle geben. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact PCI Express für Grafikkarten a1182 S.29 ExpressCard löst PC-Card ab a1275 S.92 PCI Express: Der Highspeed-Datenbus im Detail p1003 – Test: Was bringt AGP 8x / Pro? a1082 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. webcode: a1182 37 Desktop 1.5 Intel Pentium 4 Prescott Intels aktuelle Desktop-CPU, der Pentium 4 mit Northwood-Kern, läuft am Anschlag. Seit der Markteinführung im Januar 2002 hat Intel die Taktfrequenz von 2,2 auf 3,2 GHz gesteigert, ein letzter Aufguss mit 3,4 GHz soll noch folgen. Mehr will man dem alten Northwood nicht mehr zumuten. Schon bei 3,2 GHz verbraucht die CPU in ihren 130 nm großen Strukturen bis zu 82 Watt. Mehr muss Intel aus dem alten Core nicht mehr herausholen, denn der Nachfolger mit dem Codenamen Prescott und 90-nm-Core steht schon bereit. Zwei Fertigungsstätten produzieren inzwischen den komplett neu designten Pentium 4, eine dritte in Irland nimmt Mitte 2004 den Betrieb auf. Die Fabs sind in der Lage, den 90-nmCore auf 300-mm-Wafern zu fertigen. Bei einer Ausbeute von über 500 Prescotts pro Wafer kann Intel so monatlich einige Millionen CPUs herstellen. Die neue CPU wird Anfang Februar ausgeliefert und heißt weiterhin Pentium 4. Ein neuer Name ist auch nicht angebracht, denn sie beruht immer noch auf der NetBurst-Mikroarchitektur, die Intel mit dem ersten Pentium 4 eingeführt hat. Allerdings ist der Fertigungsprozess inzwischen zwei Generationen fortgeschritten, und auch die Core-Designer waren in den letzten dreieinhalb Jahren nicht untätig. Daher soll Prescott bis mindestens 5 GHz Taktfrequenz skalieren. Doch die Marketing-freundliche Drehzahl trägt nur einen Teil zur tatsächlich erreichten Rechenleistung einer CPU bei. Ebenso entscheidend ist die Anzahl der pro Takt abgearbeiteten Instruktionen. Und hier hat der Prescott gegenüber dem Northwood-Core einige Neurungen vorzuweisen. 1.5.1 Neue Cache-Größen und Sockel Die ersten beiden Pentium-4-Generationen mit Willamette und Northwood-Core mussten mit lediglich 8 KByte schnellem L1-Cache für die Daten auskommen. Prescott erhält nun die doppelte Menge und kann auf 16 KByte exklusiven DatenCache zugreifen. Der Trace-Cache für bereits dekodierte Befehle ist mit 12k µOps jedoch gleich geblieben. Der L2-Cache, der sowohl Daten als auch Code speichert, ist bei Prescott mit 1 MByte gegenüber dem Northwood-Core verdoppelt. Nur der Pentium 4 Extreme Edition, der intern auf dem Xeon-Gallatin-Core basiert, hat mit 2 MByte noch mehr zu bieten. Wie beim Northwood ist der L2-Cache mit 256 Bit am Core angebunden und hat bei 3,4 GHz Takt eine Bandbreite von 108 GByte/s. Die FSB-Taktfrequenz startet beim Prescott mit 800 MHz, die auch die Northwood-CPUs nutzen. Da der Prescott zudem kompatibel zum bisherigen Socket 478 ist, läuft die CPU nach einem Bios-Update in zahlreichen aktuellen Pentium4-Boards. Intel hat bereits im Frühsommer 2003 für eine passende hauseigene Plattform gesorgt und für die i865- und i875-Chipsätze entsprechende PrescottDesign-Spezifikationen veröffentlicht. 38 www.tecChannel.de Intels Pentium 4 Prescott Relative Steigerungen: Gegenüber dem ersten Pentium 4 wurden beim Prescott viele Schlüsselfaktoren für mehr Leistung mindestens verdoppelt. (Quelle: Intel) Mit ihren zwei 400-MHz-DDR-Speicherkanälen passen beide Chipsätze optimal zum 800-MHz-Frontside-Bus. Noch 2004 soll der Prescott in den alten Boards mindestens 3,6 GHz erreichen – dann ist wahrscheinlich Schluss mit der Kompatibilität. Bereits Mitte 2004 führt Intel parallel den LGA775-Socket ein. Er arbeitet zunächst auch nur mit 800 MHz FSB, soll später aber bis 1200 MHz bieten. Zudem können seine 297 zusätzlichen Pins die CPU mit einem höheren Strom versorgen, so dass Verlustleistungen von weit über 100 Watt möglich werden. Nur dadurch können Prescott und seine Nachfolger Frequenzen von 5 GHz erreichen. 1.5.2 Mikroarchitektur-Erweiterungen Hohe Taktfrequenzen erfordern lange Pipelines, damit die einzelnen Pipeline-Stufen möglichst einfach ausfallen. Doch je länger eine Pipeline, desto dramatischer sind die Auswirkungen auf die Performance, wenn die Pipeline ins Stocken gerät. Daher hat Intel die Sprungvorhersage und den Hardware-Prefetch wieder einmal „deutlich“ verbessert. Obwohl man beide seit Jahren weiter entwickelt, scheint hier immer noch Luft für spürbare Verbesserungen zu sein. Beide Funktionsblöcke sorgen für einen stetigen Nachschub an Befehlen und lasten die extrem lange Pipeline des Prescott dadurch besser aus. Entgegen ersten Erwartungen hat Intel die Anzahl virtueller CPUs beim HyperThreading nicht erweitert, es bleibt bei zwei Stück. Auch die 64-Bit-Erweiterung namens Yamhill oder gar eine x86-64-Kompatibilität zu AMDs Opteron und Athlon 64 erweisen sich im Nachhinein als Wunschtraum. Als schwacher Trost ist die Integer-Multiplikation mit dem imul-Befehl ein paar Takte schneller geworden. Sie läuft jetzt in einer eigenen Hardware-Unit und behindert nicht länger Floatingpoint-Berechnungen. Auch die Shift- und Rotate-Bewebcode: a1124 39 Desktop fehle für Integer-Werte hat Intel beschleunigt. Zusätzliche Buffer sorgen für einen höheren Durchsatz. Die Store-Buffer hat Intel gegenüber dem Northwood von 24 auf 32 erhöht, die Write-Combine-Buffer von sechs auf acht. Vier zusätzliche Floatingpoint-Scheduler-Buffer beschleunigen die Fließkommaeinheit. Evolution, nicht Revolution: Prescott ist eine konsequente Weiterentwicklung der NetBurstArchitektur des ersten Pentium 4 mit Willamette-Core. (Quelle: Intel) Umstritten ist die im Bild als „La Grande Support“ bezeichnete Erweiterung. Sie soll einen abgesicherten Programmablauf (Secure Computing) ermöglichen und Programme und Threads voreinander schützen. Im Grunde integriert sie das Konzept der Trusted Computing Group (www.trustedcomputinggroup.org/home) (TCG, ehemals TCPA) in der CPU, geht aber noch weit darüber hinaus. So soll es durch La Grande keinem auch noch so hoch privilegierten Programm mehr erlaubt sein, auf Daten oder Code einer anderen Anwendung zuzugreifen. La Grande bietet dazu die Möglichkeit, geschützten Code in einer isolierten Umgebung in der CPU und im Speicher laufen zu lassen. Nachträgliches Debugging, Reverse Engineering oder das Patchen zur Laufzeit durch Maleware ist somit ausgeschlossen. Selbst die Kommunikation mit Eingabegeräten wie der Tastatur und der Maus erfolgt bei La-Grande-Programmen über kryptographisch abgesicherte Pfade. Für La Grande sind jedoch auch umfangreiche Änderungen am Chipsatz und am Betriebssystem nötig. Erstmals zum Einsatz dürfte La Grande beim Windows-XP-Nachfolger Longhorn kommen. Microsoft hat darin den Ansatz aufgegeben, Windows komplett sicher zu machen. Stattdessen teilt Longhorn den PC virtuell in zwei Hälften: in eine mit 40 www.tecChannel.de Intels Pentium 4 Prescott normalem, unsicherem Windows und in eine mit eigenem Sicherheits-Kernel namens Nexus. Nexus schottet sich gegen den Rest des PCs ab und besitzt sogar einen eigenen Hardware Abstraction Layer, genannt NAL. In Nexus sollen dann ausgewählte Programme wie Homebanking „absolut sicher“ ablaufen können. Zunächst wird es von Prescott wohl nur für Entwickler spezielle Versionen mit La-Grande-Technik geben – die im Handel erhältlichen Prescott-Prozessoren werden vorerst ohne La-Grande-Support ausgeliefert. Später plant Intel nach derzeitigem Stand, Prescott-CPUs mit und ohne La-Grande-Technik anzubieten. Laut uns vorliegenden Statements soll aber auch bei den Prescott-CPUs mit La Grande der Anwender wie einst bei der umstrittenen Seriennummer der CPU selbst entscheiden können, ob diese Funktion aktiviert sein soll oder nicht. 1.5.3 SSE3-Befehlssatz-Erweiterungen Mit dem Prescott erweitert Intel den IA-32-Befehlssatz um 13 zusätzliche Instruktionen. Die neuen Befehle betreffen vor allem die FPU mit neuen SIMD-Befehlen und Erweiterungen für die Arithmetik mit komplexen Zahlen. Intel bezeichnet die Erweiterungen unspektakulär als SSE3. Die meisten der neuen Befehle sind recht exotisch und dürften lediglich in Spezialfällen zum Tragen kommen. Optimierungspotenzial bieten sie aber etwa für mathematische Libraries, die viel mit komplexen Zahlen rechnen oder den Butterfly-Algorithmus für die Fast Fourier Transformation nutzen. Vor allem wissenschaftliche Anwendungen und Audio/Video-Codecs dürften davon profitieren. SIMD: Intel erweitert wieder einmal den SSE-Befehlssatz. (Quelle: Intel) webcode: a1124 41 Desktop Die neuen Prescott New Instructions (PNI) im Überblick: FISTTP wandelt einen Floatingpoint-Wert mit Truncation und nicht wie das bisher vorhandene FISTP durch Runden in einen Integer-Wert um. Dies erspart die sonst nötige Subtraktion von 0,5, wenn man abschneiden statt runden möchten. MOVSHDUP liefert bei einem SIMD-Operanden mit je vier Single-Floatingpoints zwei Mal den ersten Wert und zwei Mal den dritten Wert zurück. Aus dem Vektor (A3,A2,A1,A0) erzeugt MOVSHDUP somit (A3,A3,A1,A1). Ähnlich verhält sich MOVSLDUP, das (A2,A2,A0,A0) zurückliefert. Nützlich sind diese Befehle bei Arithmetik mit komplexen Zahlen, wo Real- und Imaginärteil in benachbarten Variablen (A3,A2) und (A1,A0) gespeichert sind. ADDSUBPS liefert bei zwei Operanden mit je vier Single-Floatingpoints jeweils die Summe der geraden Datenelemente sowie die Differenz der ungeraden Datenelemente. Aus den Vektoren (A3,A2,A1,A0) und (B3,B2,B1,B0) erzeugt ADDSUBPS (A3+B3, A2-B2, A1+B1, A0-B0). Damit lassen sich Produkte und Quotienten von komplexen Zahlen besonders schnell und elegant berechnen. ADDSUBPD liefert das gleiche Ergebnis für zwei Double-Precision-Floatingpoint-Variablen. Beide Rechenoperationen kommen bei der Fast Fourier Transformation häufig zum Einsatz. MOVDDUP kopiert einen 64-Bit-Double-Floatingpoint in den oberen und unteren Teil einer 128-Bit-SIMD-Variablen. LDDQU kann einen 128-Bit-Wert schnell aus dem Speicher in ein Register laden, auch wenn er nicht auf eine 16-Byte-Grenze aligned ist. In diesem Fall lädt LDDQU automatisch die zwei betroffenen Cache-Lines komplett ein und extrahiert die gewünschten 16 Byte. Die meisten SIMD-Befehle verarbeiten Werte aus zwei verschiedenen Operanden. Die neuen horizontalen Befehle HADDPS, HSUBPS, HADDPD und HSUBPD arbeiten dagegen innerhalb eines Operanden. Aus (A3,A2,A1,A0) und (B3,B2,B1,B0) berechnet etwa HADDPS (B3+B2,B1+B0,A3+A2,A1+A0). Diese Funktionen sind bei der Berechnung von Skalarprodukten und Determinanten von Matrizen nützlich. 1.5.4 Thread-Synchronisation in Hardware Eine echte technische Neuerung beim Prescott Instruction Set stellt die Threadsynchronisation in Hardware über die Befehle MONITOR und MWAIT dar. Damit kann man eine Pipeline einer Hyper-Threading-CPU schlafen legen, bis die andere Pipeline einen Schreibzugriff auf eine vorher definierte Speicherstelle ausführt. So können sich zwei Threads mit sehr hoher Geschwindigkeit synchronisieren, ohne dafür CPU-Leistung zu verschwenden. Wie in unserem Beitrag Hyper-Threading: Optimierungen und Fallen (webcode: a1108) detailliert erläutert, ist es bislang problematisch, zwei Threads ohne aufwendige Betriebssystemfunktionen schnell miteinander zu synchronisieren. Bis42 www.tecChannel.de Intels Pentium 4 Prescott her nutzt man für die direkte und schnelle Synchronisation – wenn beispielsweise ein Thread warten muss, bis ein anderer eine kritische Aufgabe abgeschlossen hat – folgenden Ansatz: Beide Threads erhalten Zugriff auf eine gemeinsame Variable. Der wartende Thread läuft in einer Schleife und überprüft ständig den Wert dieser Variablen. Ist der effektive arbeitende Thread fertig, verändert er den Wert der Variablen. Daraufhin verlässt der wartende Thread seine Verzögerungsschleife und beginnt wieder, sinnvoll zu arbeiten. Während der Wartezeit hat allerdings der erste Thread jede Menge an CPU-Leistung nur damit verheizt, mit Gigahertz-Geschwindigkeit sinnlose Warteschleifen zu drehen – und hat den sinnvoll arbeitenden Thread dadurch ausgebremst. Mit dem Northwood hat Intel zwar den neuen PAUSE-Befehl eingeführt, der den Verbrauch an CPU-Ressourcen in der Warteschleife lindert, doch ideal war dies immer noch nicht. Prescott ermöglicht nun zusätzlich einen weiteren Weg und bietet durch den neuen Befehl MONITOR erstmals einen Hardware-Trigger für die Synchronisation. Mit MONITOR legt ein Thread eine Speicheradresse fest, die der Prozessor in Hardware überwacht – ohne Rechenleistung dafür zu verbrauchen. Anschließend legt sich der Thread mit MWAIT schlafen und gibt alle CPU-Ressourcen für andere Threads frei. Sobald jedoch ein aktiver Thread auf die vorher festgelegte Adresse schreibend zugreift, schaltet die CPU wieder in den Hyper-ThreadingModus, und der schlafende Thread erwacht zu neuem Leben – ohne in seiner Ruhepause Ressourcen verbraucht zu haben. Im folgenden Beispiel übergibt MONITOR die Adresse der Steuervariablen „trigger“ in EAX an die CPU. Anschließend legt MWAIT die Pipeline so lange schlafen, bis ein parallel laufender Thread „trigger“ verändert. triger=0; If (!trigger){ EAX=&trigger ECX=0 EDX=0 MONITOR EAX, ECX, EDX if (!trigger){ EAX=0 ECX=0 MWAIT EAX, ECX } } Prescott lässt bei MONITOR derzeit keine weiteren Optionen zu. Doch bereits jetzt sind mit ECX und EDX zwei Register spezifiziert, in denen Programmierer zukünftigen Prozessoren erweiterte Parameter übergeben können. Möglich ist hier etwa die Angabe eines Stromsparmodus oder die Trigger-Auslösung nur unter bestimmten Zusatzbedingungen. Auch soll in Zukunft die Größe des Monitorblocks variabel sein, so dass der Zugriff auf verschiedene Variablen den Dornröschenschlaf beenden kann. webcode: a1124 43 Desktop 1.5.5 Designoptimierungen Neben den erwähnten, von außen sichtbaren Neuerungen hat sich beim Prescott unter der Haube einiges radikal verändert. Diese Umbauten haben alle den Zweck, die Taktfrequenz weiter nach oben zu treiben. Skew-Problem: Das ClockSignal hängt in Teilen des Northwood-Cores um über 20 ps nach. (Quelle: Intel) Ein großes Problem innerhalb eines CPU-Cores ist die Verteilung des Taktsignals. Der Takt sorgt dafür, dass die Funktionsblöcke synchronisiert arbeiten und beispielsweise Daten erst übernehmen, wenn die vorgeschaltete Stufe stabile Ausgangssignale liefert. Stark verbessert: Der Skew beim Prescott beträgt maximal noch 7,5 ps. (Quelle: Intel) 44 www.tecChannel.de Intels Pentium 4 Prescott Bedingt durch die Laufzeit der elektrischen Signale variiert der Takt einzelner Funktionsblöcke aber abhängig von ihrer Position auf dem Die. Wie im Bild zu sehen, hängen beim Northwood einzelne Bereiche um über 20 ps nach. Da der Taktzyklus bei einer 5-GHz-CPU nur noch 200 ps dauert, vereitelt dieser so genannte Skew eine saubere Synchronisierung der Funktionsblöcke. Ein derartiges Design ist für hohe Taktraten daher nicht geeignet. Beim Prescott haben die Ingenieure die Clock-Verteilung komplett neu entwickelt. Wie im Skew-Diagramm des Prescott zu sehen ist, weicht sie nur noch maximal 7,5 ps ab. Dies ist weniger als die Schaltzeit des einfachsten logischen Gatters, eines Inverters. Wenn man die 20-ps-Skew des Northwood und dessen Taktfrequenz zu den 7,5 ps in Relation setzt, ist diese Clock-Verteilung des Prescott für Taktraten bis 8 GHz geeignet. 1.5.6 90-nm-Prozess Die Strukturgröße beim Prescott beträgt 90 nm. Damit kann Intel Transistoren bauen, die eine Gate-Länge von nur noch 50 nm haben, und schlägt so drei Fliegen mit einer Klappe: Kleinere Transistoren schalten schneller, verbrauchen weniger Energie und belegen zudem noch weniger Platz auf dem kostbaren Wafer. Während Northwood noch 55 Millionen Transistoren genügten, besitzt Prescott mit 125 Millionen mehr als doppelt so viele. Die zusätzlichen Transistoren stecken zum großen Teil in dem auf 1 MByte vergrößerten L2-Cache. Die Strukturgröße von 90 nm kompensiert diesen Anstieg jedoch wieder, Prescott belegt mit 112 mm² Die-Größe sogar weniger Platz als der Northwood mit seinen 131 mm². Aber die Transistoren waren Intel immer noch nicht schnell genug für die angestrebten Taktfrequenzen. Deshalb setzt man als erster Halbleiterhersteller so genanntes Strained Silicon in einem Massenprodukt ein. Dabei wird das natürliche Kristallgitter des Siliziums künstlich gestreckt. Durch komplexe Zusammenhänge der Festkörperphysik steigert die unnatürliche Gitterkonstante die Beweglichkeit der Ladungsträger, so dass die Transistoren schneller schalten und höhere Stromstärken bewältigen können. Interessanterweise verwendet der weltgrößte Halbleiterhersteller zwei Verfahren, um die Verzerrung bei den NMOS- und PMOS-Transistoren getrennt einstellen zu können. Beim PMOS-Transistor scheidet man Silizium mit einigen Prozent Germaniumanteil im Source- und Drain-Bereich ab. Die rund ein Prozent größere Gitterkonstante der Legierung überträgt sich auch auf den leitenden Channel unter dem Gate und sorgt so für eine 25 Prozent höhere Leitfähigkeit. NMOS-Transistoren lässt Intel im aktiven Bereich unverändert und legt stattdessen eine Siliziumnitrid-Schicht über den Transistor. Dessen größere Gitterkonstante überträgt sich ebenso auf den darunter liegenden Transistor und zerrt auf diese Weise die Atome im aktiven Kanal auf einen größeren Abstand. Allerdings ist der erzielte Effekt hier geringer, die Leitfähigkeit steigt nur um zehn Prozent. webcode: a1124 45 Desktop Gestrecktes Silizium: Die veränderte Gitterkonstante erhöht die Beweglichkeit der Ladungsträger. (Quelle: Intel) Bemerkenswert ist, dass beide Verfahren den aktiven leitenden Kanal lediglich indirekt über mechanische Kräfte von außen verzerren. Daraus resultiert der Name Strained Silicon, gezerrtes Silizium. Laut Intel lassen sich beide Streckverfahren relativ einfach in die Fertigung integrieren, da hier nicht mit für Halbleiter „giftigen“ Materialien wie bei der Einführung der Kupferverdrahtung gearbeitet wird. Siliziumnitrid wird beispielsweise auch in den Verdrahtungsebenen der CPU genutzt. Strained Silicon soll daher die Fertigungskosten der CPU lediglich um zwei Prozent erhöhen. Streckbank: NMOS- und PMOS-Transistoren erhalten bei Intels Strained Silicon eine unterschiedliche Behandlung. (Quelle: Intel) 46 www.tecChannel.de Intels Pentium 4 Prescott 1.5.7 Low-k-Kupferverdrahtung Die Transistoren zu beschleunigen, ist aber nur ein Schritt auf dem Weg zu schnelleren Prozessoren. Die Ausgangssignale eines Transistors müssen auch möglichst schnell an die nächste Verarbeitungsstufe weitergeleitet werden. Vor allem die Laufzeit in den Verbindungsleitungen, den Interconnects, verhindert bei aktuellen Prozessoren eine höhere Taktrate. Die Geschwindigkeit, mit der Schaltsignale in den Interconnects von einem Transistor zum nächsten laufen, ist in erster Linie von zwei Faktoren abhängig: dem Widerstand der Leiterbahn und der parasitären Kapazität. Je kleiner beides ist, desto schneller lädt ein Schaltvorgang den Interconnect um und desto schneller liegt am Eingang der nächsten Stufe ein stabiles Signal an. Daher erhält der Prescott, wie auch schon der Northwood und AMDs Athlon, eine komplette Verdrahtung in Kupfer. Dessen spezifischer Widerstand ist um 40 Prozent niedriger als der von Aluminium, das noch beim Pentium 4 Willamette genutzt wurde. Neu ist allerdings, dass alle sieben Ebenen in ein so genanntes Lowk-Material eingebettet sind. Das früher genutzte Siliziumdioxid zwischen den Leiterbahnen sorgte durch seine relative Dielektrizitätskonstante k von 4,0 für eine hohe Kapazität der Leitungen. Beim Northwood kam erstmals eine Fluor-Dotierung hinzu, die den k-Wert der Isolation auf 3,6 drückt. Jetzt nutzt Intel kohlenstoffdotiertes Siliziumdioxid, das ein k von unter 3,0 haben soll. Dies sorgt für 25 Prozent geringere parasitäre Kapazitäten und erhöht die Geschwindigkeit der Signale um den gleichen Faktor. Low-k-Dielektrikum: Das Low-k-Material in der Verdrahtungsschicht senkt die parasitären Kapazitäten zwischen den Kupferleitungen. (Quelle: Intel) webcode: a1124 47 Desktop 1.5.8 Optimierte Gatterverteilung Neben der Geschwindigkeit der Signale spielt der Abstand der zu verdrahtenden Funktionsblöcke eine ebenso große Rolle. Und hier beschreitet Intel beim Prescott vollkommen neue Wege. Wie der Plan der Northwood-FPU exemplarisch zeigt, sind hier die Gatter einzelner logischer Funktionsblöcke auch auf dem Die physikalisch zu einem Block zusammengefasst. So ist es für die Chipentwickler einfacher, einen Prozessorbefehl in Teilaufgaben zu zerlegen und diese einzeln in Hardware zu gießen. Anschließend werden die Blöcke so platziert, dass ihr Abstand möglichst gering ist. Northwood: Hier herrscht Ordnung. Intel hat die Gatter der einzelnen Funktionsblöcke auch auf dem Die zusammengefasst. (Quelle: Intel) Dieses Vorgehen vereinfacht zwar die Konstruktion einer CPU, sorgt aber nicht für eine optimale Platzierung der Gatter. Beim Prescott sortiert Intel in einer rechenaufwendigen Designstufe automatisch die Lage der einzelnen Gatter und nicht mehr ganzer Blöcke auf dem Die. Dadurch wandern Transistoren aus dem Block, dem sie logisch zugehören, heraus an die Stelle, mit der sie interagieren müssen. Die einzelnen Transistoren sind also nicht mehr funktionell platziert, sondern die kürzesten Wege dienen als Sortierkriterium. Dadurch reduziert sich die Laufzeit der Signale auf den Interconnects, und die Taktfrequenz kann entsprechend erhöht werden. 48 www.tecChannel.de Intels Pentium 4 Prescott Prescott: Die vermeintliche Unordnung auf dem Die führt zu kürzeren Verbindungswegen zwischen den Transistoren und damit zu geringeren Signallaufzeiten auf den Interconnects. (Quelle: Intel) 1.5.9 Fazit Der kleine Prescott-Core sorgt auf den 300-mm-Wafern für einen hohen Ausstoß der Fabs bei geringen Herstellungskosten. Laut Intels Plänen soll deshalb schon Mitte 2004 jede zweite Pentium-CPU ein Prescott sein. Beim Prescott hat Intel zwar an etlichen Stellen Neuland beschritten, um die NetBurst-Architektur für die nächsten Jahre fit zu machen. Für den Anwender ist der Prescott jedoch keine Revolution, sondern nur ein weiterer evolutionärer Schritt. Aus technischer Sicht fasziniert aber, dass es immer wieder Wege gibt, physikalische Grenzen auszureizen und die Prozessoren noch höher zu takten. Und mit dem Prescott ist damit sicher noch nicht Schluss. In bewährter Salamitaktik veröffentlicht Intel bereits zahlreiche Details der Generationen 65 nm (2005), 45 nm (2007) und 32 nm (2009) und spricht dabei jetzt schon Marketing-trächtig vom kommenden Terahertz-Transistor. Albert Lauchner Bitte beachten Sie: Dieser Artikel befindet sich auf dem Informationsstand von Ende Dezember 2003. Ab dem Launch des Prescott Anfang Februar finden Sie auf tecChannel.de über den webcode a1124 eine aktualisierte Version dieses Beitrags mit noch mehr Details, Analysen des Cores und detaillierten Benchmarks. tecCHANNEL-Links zum Thema Webcode Compact Intels Pentium 4 Prescott a1124 S.38 Hyper-Threading im Detail p840 – Pentium 4 Hyper-Threading Benchmarks p1064 – webcode: a1124 49 Desktop 1.6 Speichertechnologien DDR-SDRAM zählt zu den wichtigsten Speichertechnologien für PCs. Nach Abschluss der finalen Spezifikationen von DDR400 im März 2003 vollzieht sich zurzeit der Wechsel von DDR333-SDRAM auf den schnelleren Speicherstandard. Doch die Tage dieser Speichertechnologie sind gezählt. Denn mit DDR2 steht die nächste Speichergeneration in den Startlöchern. Die Spezifikationen hat das JEDEC-Komitee schon im September 2003 verabschiedet, und erste serienreife Chipsätze mit der entsprechenden Speicherunterstützung werden bis Mitte 2004 erwartet. Darüber hinaus legte die JEDEC bereits die Grundparameter für DDR3 als den Nachfolger von DDR2 fest. Das vormals von Intel hochgelobte RDRAM-Memory konnte sich nicht auf dem hart umkämpften Speichermarkt durchsetzen. Dennoch hält Rambus an dieser Technologie weiter fest. Genutzt wird sie aktuell vom taiwanischen Chipsatzhersteller SiS im R658- und R659-Chipsatz und in einigen Spielekonsolen. Auf der Basis der RDRAM-Technologie entwickelt Rambus derzeit den XDR-DRAMSpeicher, um weiter auf dem Speichersektor mitmischen zu können. Der Chipsatzhersteller VIA plant Anfang 2004 zusammen mit dem Speicherentwickler Kentron, eine neue Speicherarchitektur namens Quad Band Memory (QBM) einzuführen. Auch Intel entwickelt neue Speichertechnologien. So möchte das Unternehmen 2005 mit Fully-Buffered-DIMMs (FB-DIMMs) eine neue Speichermodultechnologie für Server und Workstations einführen. 1.6.1 DDR2 auf der Überholspur Bei der DDR2-Speichertechnologie handelt es sich um eine Weiterentwicklung des aktuellen DDR-SDRAM-Standards. Zu Beginn sind DDR2-400-, DDR2-533wie auch DDR2-667-Speichermodule geplant. Sie erreichen eine theoretische Speicherbandbreite von 2,98, 3,97 und 4,97 GByte/s. DDR2-Speichermodule: Samsung und Infineon haben bereits Prototypen gezeigt. (Quelle: Samsung) 50 www.tecChannel.de Speichertechnologien DDR2 überträgt Daten unverändert zu DDR-SDRAM mit steigender und fallender Taktflanke. Mit dem 4-Bit-Prefetch erreichen die DDR2-Module gegenüber den herkömmlichen DDR-Speichern bei gleicher interner Taktfrequenz die doppelte externe Bandbreite. So haben DDR400 und DDR2-400 mit 2,98 GByte/s die gleiche Speicherbandbreite, allerdings arbeitet DDR400 mit einer Core-Frequenz von 200 MHz und DDR2-400 nur mit 100 MHz. Die externe Busfrequenz beträgt bei beiden Speichertypen 200 MHz. © tecCHANNEL Prefetch-Technologie: Mit dem 4-Bit-Prefetch kann die reale Core-Frequenz der DDR2-Speicherchips gegenüber den herkömmlichen DDR-Speicherbausteinen reduziert werden. Somit bietet die DDR2-Technologie genug Potenzial für zukünftig höhere Core-Taktfrequenzen und damit verbundene höhere Speicherbandbreiten. DDR2-Speicherchips benötigen eine Spannung von 1,8 V statt 2,5/2,6 V bei DDR. Da die Core-Spannung quadratisch in die Leistungsaufnahme eingeht, halbiert sich die Gesamtleistungsaufnahme von DDR2- gegenüber DDR-Speicher. Die Signalqualität auf den Datenleitungen von DDR2-Bausteinen soll sich durch eine On-Die-Terminierung (ODT) gegenüber DDR-Chips verbessern. Das garantiert eine erhöhte Stabilität während des Betriebs. Zusätzlich verwendet DDR2 die webcode: a1174 51 Desktop „Off Chip Driver Calibration“ (OCD). Diese Technik gewährleistet, dass die Treiberschaltungen der Speicherzellen Lastschwankungen dynamisch ausgleichen und somit Signalfehler vermieden werden. Darüber hinaus steigert die PostedCAS-Funktion – eine Befehlssteuermethode – die Effizienz bei der Übertragung von Daten über den Speicherbus. © tecCHANNEL On-Die-Terminierung: Die ODT-Technologie verhindert störende Reflektionen auf den Signalleitungen und erhöht somit die Systemstabilität. Erste Samples von DDR2-Modulen gibt es bereits, mit der Massenproduktion ist aber erst Anfang 2004 zu rechnen. Die finalen Spezifikationen für DDR2-Speicher hat die JEDEC im September 2003 in dem Dokument JESD-79-2 veröffentlicht. Intel plant, die ersten DDR2-Chipsätze im zweiten Halbjahr 2004 vorzustellen. VIA will bereits Anfang 2004 vorpreschen. Der VIA Apollo PT890 soll dann mit einem Dual-Channel DDR2-Controller ausgestattet sein und Pentium-4-Prozessoren mit einem FSB von 800 MHz unterstützen. Intel führt den DDR2-Chipsatz für Desktop-Anwendungen in der Roadmap unter dem Codenamen „Grantsdale“. Für Server-Systeme heißen die Pendants „Lindenhurst“, „Tumwater“ und „Twin Castle“. Auch für mobile Rechner entwickelt Intel unter dem Codenamen „Alviso“ einen DDR2-Chipsatz. 1.6.2 RDRAM auf dem Abstellgleis? Neben Intel verfügt mittlerweile auch SiS über die Lizenz der Rambus-SpeicherTechnologie. Schenkt man der Intel-Roadmap Glauben, gibt es außer dem 850E keinen weiteren Chipsatz mit RDRAM-Unterstützung von Intel. Diesen Zustand nutzt der taiwanische Chipsatzhersteller SiS aus. Ende 2002 stellte das Unternehmen den R658-Chipsatz mit Dual-Channel-Speicher-Interface und PC1066RDRAM-Support vor. Im November 2003 folgte der R659 mit Quad-ChannelSpeicherarchitektur und PC1200-RDRAM-Unterstützung. 52 www.tecChannel.de Speichertechnologien RIMM 4800: Die 32-Bit-RIMM-Module (Dual-Channel) sind bereits erhältlich. Chipsätze wie Intel 850E und SiS R658 mit Dual-Channel-Speicherbus erreichen mit PC1066-RDRAM eine Bandbreite von 3,97 GByte/s. Das neue Quad-Channel-Speicher-Interface des SiS R659 bietet mit 1200-MHz-RDRAMs eine Bandbreite von 8,94 GByte/s. Dies schafft genügend Performance-Reserven für den Pentium 4 mit 800 MHz FSB. Der Prozessorbus kommt bei FSB800 auf eine theoretische Bandbreite von 5,96 GByte/s. Ein Blick in die Roadmap namhafter Speicherhersteller offenbart, dass RDRAM auch ohne Intel weiterentwickelt wird. So soll es noch 2003 64-Bit-RDRAM-Module mit PC1200- und PC1333-Chips geben. Sie erreichen mit 4x 16-Bit-Busbreite (Quad-Channel) eine maximale Bandbreite von 8,94 beziehungsweise 9,93 GByte/s. Mainboard-Hersteller könnten diese Speichermodule ideal mit dem Quad-Channel-Speicher-Interface des SiS-R659-Chipsatzes kombinieren. Weitere Entwicklungen wie PC1600-RDRAM mit einer Bandbreite von 11,92 GByte/s (Quad-Channel) planen die Unternehmen für 2004/2005. 1.6.3 “Quad Band Memory”-Technologie Die „Quad Band Memory“-Technologie wurde von Kentron bereits im März 2000 vorgestellt. Außer bei wenigen SRAM-Implementierungen kam QBM bislang kaum zum Einsatz. Durch die Lizenzierung von VIA und S3 Graphics soll QBM nun in den PCs Einzug halten. Erste QBM-Module sollen als DDR533 und DDR667 auf den Markt kommen. Die QBM-Module bestehen im Prinzip aus zwei zusammengesetzten DDR-Modulen. Bei einem DDR667-QBM-Modul arbeitet die eine Speicherbank mit dem normalen 333-MHz-DDR-Speichertakt eines DDR333-SDRAMs, die andere mit einem um 90 Grad verschobenen. So liefern beide Teilmodule zeitlich versetzt ihre Daten mit 333 MHz – jeweils mit steigender und fallender Flanke. Die Ausgänge der Teilmodule werden über einen schnellen Schalter gemultiplext und so mit effektiv 667 MHz auf den Datenbus gelegt. Die Datenbreite von DDRSDRAM mit 64 Bit wird bei QBM beibehalten. Auf diese Weise gelingt es, die Datenrate von DDR333-SDRAM auf 667 MHz zu verdoppeln. Ein DDR667QBM-Modul bietet somit eine Bandbreite von 5,3 GByte/s (1000er Basis) – bei gleichem Takt wie DDR333-SDRAM. webcode: a1174 53 Desktop © tecCHANNEL Quad Band Memory: Das Timing-Diagramm zeigt vereinfacht, wie die Datenaufbereitung nach dem Verfahren Quad Band Memory funktioniert. Der Chipsatzhersteller VIA erwartet die Nachfrage nach DDR2 erst 2004/2005 in Stückzahlen und will mit QBM die Lücke bis dahin schließen. Laut VIA sind QBM-Module kompatibel zum existierenden 184 Pin breiten DDR-SDRAMInterface. Mainboards für QBM benötigen kein neues Layout oder eine teure Anpassung und sollen abwärtskompatibel zu DDR-SDRAM sein. Darüber hinaus müssen Hersteller von QBM-Speicher keine Lizenzgebühren zahlen. Verdoppelt: Die separaten MultiplexerBausteine QBM10 (R) schalten die Datenströme der zwei voneinander unabhängigen DDR-SDRAM-Bänke um 90 Grad versetzt auf den Ausgang. (Quelle: Kentron) 54 www.tecChannel.de Speichertechnologien Mainboards mit QBM sind zudem kostengünstiger realisierbar als Dual-ChannelDDR-SDRAM-Lösungen, die ein neues Mainboard-Design benötigen. Erste Mainboards mit QBM-Unterstützung sollen noch Anfang 2004 ausgeliefert werden. Allerdings verdichten sich die Gerüchte, dass QBM-Speicher noch enorme technische Probleme bereitet. So bleibt es zweifelhaft, ob VIA überhaupt mit QBM-Produkten an den Start geht. 1.6.4 DDR3 – Speicher der Zukunft Die JEDEC arbeitet bereits seit Mitte 2002 an der zukünftigen DDR3-SDRAMSpeichertechnologie. Die detaillierten technischen Eckdaten für DDR3 stehen noch nicht fest. Denn bei einer Gesamtlösung wie der DDR3-Technologie gilt es, Speicherchips, Module, Register und Puffer neu zu spezifizieren. Allerdings gab das JEDEC-Gremium einige Einzelheiten zu DDR3 preis. So sollen die ersten DDR3-SDRAM-Chips mit einer Transferrate von 800 Mbits/s an den Start gehen. Die nachfolgenden DDR3-Bausteine sollen einen Datendurchsatz von bis zu 1,5 Gbits/s erreichen. Um eine niedrige Leistungsaufnahme zu gewährleisten, arbeitet der Speicher mit einer Spannung von 1,5 oder 1,2 V. Dagegen benötigt DDR2 1,8 V und DDR400 2,6 V. 0.18 µm 2.5 0.13 µm 0.11 µm 0.10 µm 0.09 µm DDR1 2.5 + 0.2V 2.6 + 0.1V Power Suppy Voltage [v] 2.0 1.8 + 0.1V Mobile RAM, DDR2 1.5V 1.5 or DDR3 1.0 1999 1.2V 2000 2001 2002 2003 2004 2005 2006 ~ Year © tecCHANNEL Unter Spannung: Das Diagramm gibt eine Übersicht über die Betriebsspannung der verschiedenen Speichertechnologien. (Quelle: Elpida) webcode: a1174 55 Desktop Wie schon DDR- und DDR2-Speicher soll auch DDR3 vom Desktop bis zum Server alle Einsatzbereiche abdecken. Finale JEDEC-Spezifikationen des DDR3Standards werden frühestens Ende 2005 erwartet. Der Start der Massenfertigung soll 2007 erfolgen. Die Speicherchiphersteller Samsung, Infineon sowie Micron zählen zu den Vorreitern der DDR3-Speichertechnologie. 1.6.5 FB-DIMM Unter dem Namen FB-DIMM verbirgt sich die Bezeichnung „Fully Buffered DIMM“. FB-DIMM repräsentiert eine neue Speichermodultechnologie. Sie soll im Server-Umfeld sicherstellen, dass trotz steigender Memory-Taktfrequenz der maximale Speicherausbau eines Systems nicht verringert werden muss, sondern sogar erhöht werden kann. Der Hauptinitiator Intel will im Jahr 2005 den neuen FB-DIMM-Standard von Speichermodulen in der Praxis vorstellen. Dann soll der „Lakeport“, der erste Chipsatz mit FB-DIMM-Support, die Einführung der neuen Speichermodule unterstützen. Standard DRAMs 24 Differential Pairs Host SMBus CLK Gen DRAM DRAM DRAM DRAM Buffer DRAM DRAM DRAM DRAM DRAM DRAM DRAM DRAM DRAM Buffer DRAM DRAM DRAM DRAM DRAM DRAM DRAM DRAM DRAM Buffer DRAM DRAM DRAM DRAM DRAM ... CLK Buffer Clock frequency scales with DRAM data rate Up to 8 DIMMs DRAM DRAM DRAM DRAM Buffer DRAM DRAM DRAM DRAM DRAM Reference clocks run at half speed of DRAM clock © tecCHANNEL FB-DIMM-Technologie: Sie arbeitet mit differenziellen Leitungspaaren und benötigt auf den DIMM-Modulen einen speziellen Buffer-Baustein. Das FB-DIMM unterstützt DDR2- und DDR3-Speicherbausteine. Jedes Modul besitzt neben den Speicherchips einen speziellen so genannten Hub-Buffer-Baustein. Dieser Buffer-Chip stellt über 24 differentielle Leitungspaare eine Verbindung zum Memory Controller her. Über diesen Bus und den Treiberchip gelangen Steuerinformationen und Daten vom Speicher-Controller zu den Speichermodulen und umgekehrt. So entlasten FB-DIMMs ähnlich wie Registered-DIMMs die Adress- und Steuerleitungen durch einen zwischengeschalteten Treiberbaustein. Ohne diesen „Leitungstreiber“ müssten zum Beispiel bei einem einseitigen ECCDIMM-Modul die Adress- und Steuerleitungen vom Speicher-Controller zu allen neun Speicherchips geführt werden – mit Treiberbaustein dagegen nur einmal zu 56 www.tecChannel.de Speichertechnologien dem Treiberchip. Je mehr Ein/Ausgänge eines Speicherchips an einer Signalleitung hängen, desto höher sind die elektrischen Belastungen des Signals auf dieser Leitung, die zu Störungen bei der Signalübertragung führen können. Die Datenleitungen benötigen keine Treiberbausteine, da sie nicht mit allen Speicherchips verbunden sind. Somit entsteht nur eine geringe elektrische Belastung des Datensignals im Vergleich zu den Adress- und Steuerleitungen. Maximal adressiert die FB-DIMM-Technologie 288 Devices pro Speicherkanal. Demgegenüber begnügt sich das herkömmliche Verfahren mit 72. Vorteil: FBDIMMs benötigen weniger Speicherkanäle für einen entsprechenden Speicherausbau als das aktuelle Verfahren mit Standard-DIMMs. Weitere Pluspunkte bietet die FB-DIMM-Technik mit simultanen Schreib- und Leseoperationen, so dass die verfügbare effektive Bandbreite pro Speicherkanal steigt. Zusätzlich bleiben der DIMM-Form-Faktor erhalten und die Anzahl der Pins gleich, allerdings mit einem veränderten Pinout. 1.6.6 XDR-DRAM Angelehnt an die RDRAM-Technologie stellte Rambus im September 2003 mit XDR-RAM eine neue Speichergeneration vor. Als Grundlage für das XDRDRAM nutzt Rambus das unter dem Namen Yellowstone entwickelte SpeicherInterface. Zu den ersten Lizenznehmern gehören Elpida, Samsung und Toshiba. Sie wollen XDR-Speicher bereits 2004 in Samples ausliefern und 2005 in Massenproduktion gehen. In PCs soll der Speicher im Jahr 2006 Einzug halten. Aber auch in Servern, mobilen Systemen und Netzwerkbereichen soll XDR-DRAM Verwendung finden. Die Weichen für die Einführung der Speichertechnologie hat Rambus schon gestellt, denn erste Spezifikationen sind bereits vorhanden. XDR DRAM XDR ASIC XDR Interconnect XDR Memory Controller System Clock XDR IO Cell XDR Clock Generator Clock DRAM CORE XDR DRAM Interface Cell © tecCHANNEL XDR-Technologie: XDR-DRAMs werden vom XDR IO Cell getauften Speicher-Controller angesteuert. Die Datenübertragung erfolgt mit 8 Bit pro Taktzyklus. webcode: a1174 57 Desktop XDR-DRAM-Chips soll es mit einer variablen Datenbusbreite von 1 bis 32 Bit geben. Die Taktfrequenz beträgt dabei 3,2 GHz und lässt sich auf bis zu 6,4 GHz skalieren. So erlaubt zum Beispiel ein 16 Bit breites XDR-DRAM Bandbreiten von 6,4 bis 12,8 GByte/s. Kernstück der XDR-Technologie ist der octal-pumped betriebene Datenbus. Bei einer Taktfrequenz von 400 bis 800 MHz werden pro Taktzyklus acht Bits mit der steigenden und fallenden Flanke übertragen. Dadurch ergeben sich Transferfrequenzen von 3,2 bis 6,4 GHz. PC1066-RDRAM arbeitet mit einem realen Takt von 533 MHz und effektiv mit 1066 MHz. Eine zusätzliche Neuerung bildet die Flex-Phase-Technologie. Im Gegensatz zur herkömmlichen seriellen synchronen Leitungstechnik benötigt Flex Phase keine weiteren Taktgeberleitungen. Der Datenfluss und Takt werden auf den differenziellen Leitungspaaren automatisch aufeinander abgestimmt. Das verringert die Latenzzeiten und erhöht die nutzbare Bandbreite. Durch das Differenzialsignal werden zwei Leitungen statt bislang einer pro Signal benötigt. Bank 7 Bank 5 Write Write Bank 3 Bank 1 Odd BankSet Zusätzliche Vorteile der XDR-DRAMs sind die Differential Rambus Signaling Levels (DRSL). DRSLs arbeiten mit einem Signal-Hub von 200 mV. Die Signalpegel liegen bei einer Spannung von 1,0 und 1,2 V. Außerdem hat Rambus die bidirektional arbeitende Terminierung mit DRSL auf den Chip verlagert. Darüber hinaus ermöglicht XDR-DRAM durch die interne Organisation des Speichers gleichzeitige und voneinander unabhängige Schreibzugriffe. So können auf die ungeraden Speicherbänke (Odd BankSet) Schreibzugriffe erfolgen, und zeitgleich lassen sich aus den geraden Speicherbänken (Even BankSet) Daten auslesen. XDR-DRAM in der Praxis: Schreib- und Lesezugriffe können durch die interne 8Bank-Organisation in gerade und ungerade Speicherbänke unabhängig voneinander erfolgen. Read Read Bank 0 Bank 2 Bank 4 Bank 6 Even BankSet Rambus I/F © tecCHANNEL Speichermodule mit XDR-DRAM bezeichnet Rambus als XDIMMs. Die ersten Module sollen 2006 eine Bandbreite von 12,8 bis 25,6 GByte/s bieten. Ein Vorteil von XDIMMs: Sie besitzen den gleichen Formfaktor und die gleiche Pinanzahl 58 www.tecChannel.de Speichertechnologien wie DDR2-Module. Die interne Roadmap von Rambus sieht in den folgenden Jahren XDIMMs mit 128 Bit Datenbreite und maximal 6,4 GHz Taktfrequenz vor. Diese Module bieten dann eine effektive Bandbreite von über 100 GByte/s. 1.6.7 Speichertechnologien im Vergleich In der folgenden Tabelle finden Sie die aktuellen und zukünftigen Speichermodule und deren wichtigste Kenndaten im Überblick. Speichertechnologien im Überblick Speichertyp Bandbreite, Bandbreite, Busbreite Frequenz Spannung Modultyp DDR266 2,1 1,99 64 133 2,5 DIMM DDR266 Dual 4,3 3,97 2x 64 133 2,5 DIMM DDR333 2,7 2,48 64 166 2,5 DIMM DDR333 Dual 5,3 4,97 2x 64 166 2,5 DIMM DDR400 3,2 2,98 64 200 2,6 DIMM DDR400 Dual 6,4 5,96 2x 64 200 2,6 DIMM DDR2-400 3,2 2,98 64 200 1,8 DIMM DDR2-533 4,3 3,97 64 266 1,8 DIMM DDR2-667 5,3 4,97 64 333 1,8 DIMM PC800RDRAM 1,6 1,49 16 400 2,5 RIMM16 PC800RDRAM 3,2 2,98 2x 16 400 2,5 RIMM32 PC1066RDRAM 2,1 1,99 16 533 2,5 RIMM16 PC1066RDRAM 4,3 3,97 2x 16 533 2,5 RIMM32 PC1200RDRAM 2,4 2,23 16 600 2,5 RIMM16 PC1200RDRAM 4,8 4,47 2x 16 600 2,5 RIMM32 PC1200RDRAM 9,6 8,94 4x 16 600 2,5 RIMM64 Basis: 1000 (GByte/s) Basis: 1024 (GByte/s) (Bit) webcode: a1174 (MHz) (V) 59 Desktop PC1333RDRAM 2,7 2,48 16 666 2,5 RIMM16 PC1333RDRAM 5,3 4,97 2x 16 666 2,5 RIMM32 PC1333RDRAM 10,7 9,93 4x 16 666 2,5 RIMM64 DDR533- QBM 4,3 3,97 64 133 2,5 DIMM DDR667- QBM 5,3 4,97 64 166 2,5 DIMM DDR800- QBM 6,4 5,96 64 200 2,6 DIMM XDR-DRAM 3,2 2,98 16 400 1,2 XDIMM XDR-DRAM 6,4 5,96 16 800 1,2 XDIMM Dual bezieht sich auf einen Dual-Channel-Speicher-Controller. 1.6.8 Fazit Unterschiedliche Speichertechnologien kämpfen aktuell und zukünftig um die Gunst der Käufer. Außerhalb des professionellen Umfeldes bringen die Hersteller häufig Speichertechnologien auf den Markt, ohne dass exakte Standards dafür definiert worden sind. Aber erst finale Spezifikationen des eingesetzten Speichers garantieren Stabilität und Kompatibilität des gesamten Systems. Entscheidend für das Für und Wider eines Speichers sollte nicht allein die Performance sein, sondern Flexibilität und Zukunftssicherheit. Setzt man auf die falsche Speichertechnologie, kann sich diese schnell als Sackgasse erweisen. Erst detaillierte Kenntnisse über den entsprechenden Speicher bewahren vor Fehleinkäufen und sorgen für Investitionsschutz. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact Speichertechnologien a1147 S.50 Roadmap: Speicher a1147 S.19 Test: DDR400-SDRAM a898 – Test: RIMM 4200 a985 – Rambus im Detail a202 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 60 www.tecChannel.de Meinung 1.7 Meinung AGP und PCI sind tot – es lebe PCI Express. Über zehn beziehungsweise sechs Jahre haben das PCI- und AGP-Interface mittlerweile auf dem Buckel. Zeit für einen Generationswechsel meinte die IT-Branche: Eine neue preiswerte und schnelle Busarchitektur muss her. Nun steht PCI Express am Start. Die Marketing-Abteilungen sind begeistert, die Entwickler schwitzen, und Sie fragen sich: „Brauche ich diese neue Technologie?“ Ich antworte: „Ja, aber...“. PCI Express ersetzt die AGP-8x-Schnittstelle. Schön, aber die Notwendigkeit, auf einen neuen Bus zu wechseln, besteht nicht. Der AGP-8x-Bus bietet eine theoretische Bandbreite von 1,99 GByte/s. x16 PCI Express liefert etwa das Vierfache. Allerdings reizt bisher nahezu keine 3D-Anwendung die Bandbreite von AGP 8x aus. Trotzdem, universelle und skalierbare Technologie begrüße ich und werde mich daher für eine PCI-Express-Grafikschnittstelle entscheiden. Auch für Anwender, die nicht „up to date“ sein wollen, gibt es Trost. Die Hersteller werden in der Übergangszeit Bridge-Bausteine auf den Grafikkarten einsetzen, um sie auch in AGP-Boards zu nutzen. Wie immer bei Einführung neuer Technologien sind Performance-Verluste und Inkompatibilitäten bestimmt auszuschließen... Für Gbit-Ethernet-Controller und SCSI-RAID-Adapter sind die x1-PCI-ExpressSchnittstellen ideal. Sie liefern eine Transferleistung von 596 MByte/s. Dagegen limitiert PCI den Datenverkehr auf 127 MByte/s, und das ist zu wenig, um das Leistungspotenzial der oben genannten Karten voll auszuschöpfen. Rasant geht es auf dem Speichersektor zu. Da jagt ein DDR-Standard den nächsten. Intel sagte Ende 2002 noch: „DDR400 ist für uns kein Thema.“ Ein halbes Jahr später war die Aussage nicht mehr gültig, und Intel lieferte die Spezifikationen gleich mit. Für mich kein Problem, glaubte ich damals und kaufte zwei DDR400-Speichermodule – selbstverständlich Markenqualität. Die Enttäuschung war dann groß, der Speicher lief nicht in meinem Board. Die Diagnose nach ausführlichem Studium der Hersteller-Homepage: nicht kompatibel. Aber mit der kommenden DDR2-Speichertechnologie werden mir solche Missgeschicke sicherlich nicht passieren – hoffe ich. Ich bin Hardware-Redakteur und von Natur aus technikbegeistert. Selbstverständlich werde ich in diesem Jahr die Prescott-CPU für den Sockel 478 samt neuem Mainboard mein Eigen nennen. Aber wie komme ich aus der Upgrade-Sackgasse heraus, wenn wenig später schnellere Prescott-Versionen nur noch für den Sockel LGA775 angeboten werden? Ich werde wohl in das nächste Mainboard inklusive CPU investieren. Denn Warten lohnt sich bei den kurzen Produktzyklen nicht – man bekommt immer etwas Besseres und Schnelleres. Dies gilt im Business-Umfeld um so mehr, da hier die Rechner nach einer festgelegten Zeitspanne abgeschrieben sind und Upgrades nur selten durchgeführt werden. Bernhard Haluschak, Redakteur Hardware www.tecChannel.de 61 Mobile 2. Mobile Das Notebook-Segment besitzt laut IDC Wachstumsraten von gut 30 Prozent im Vergleich zum Jahr 2002. Inzwischen werden in Deutschland 500.000 Stück pro Quartal verkauft. Entsprechend legen die Prozessorhersteller viel Augenmerk auf ihre Mobile-CPUs. So debütiert im Februar 2004 die zweite Centrino-Generation. Und während Transmeta mit den Efficeons einen ernsthaften Pentium-M-Gegner in petto hat, versucht AMD, dem Athlon 64 Beine zu machen. Drei Hersteller, drei Prozessoren – wäre ja einfach zu differenzieren. Das Problem ist eher, Alt von Neu zu unterscheiden und Mobile- von Desktop-Versionen, die Produktbezeichnungen der CPUS sind da wenig hilfreich. 2.1 Roadmap: Mobile-CPUs 2004 AMD, Intel und Transmeta erneuern 2004 ihr Mobile-Portfolio. Im Namen unterscheiden sich Alt und Neu dabei nur in Nuancen – in der Technik aber entscheidend. Wir klären Sie über die Unterschiede der 2004er Prozessoren auf. Beim Kauf eines Notebooks im Jahr 2004 sollte man verstärkt auf die exakte Bezeichnung des Prozessors achten. Schnell werkelt sonst eine Mobile-CPU mit veralteter Technik im neuen Gerät. So wird der Anfang 2004 vorgesehene PentiumM-Nachfolger mit Codenamen Dothan ebenfalls wieder Pentium M heißen – bei teilweise gleicher Taktfrequenz. Und die Notebooks schmückt unverändert das Centrino-Logo. Dabei unterscheiden sich Intels aktueller Pentium M „Banias“ und künftiger Pentium M „Dothan“ sowohl in der Performance als auch im Energiebedarf deutlich. Und wer jetzt schon mit 64 Bit unterwegs sein will, sollte öfter eine Pause einplanen. Denn der gerne als „Athlon 64 Mobile „ angepriesene 64Bit-Prozessor ist mitnichten eine echte Mobile-CPU. AMDs Datenblätter weisen ihn als Prozessor für Desktop-Replacement-Notebooks aus – kein Wunder bei einer maximalen Verlustleistung von über 80 Watt. Den „echten“ Mobile Athlon 64 stellt AMD in der ersten Jahreshälfte 2004 vor. Dank dem Einblick in interne Hersteller-Roadmaps können wir Ihnen schon jetzt detailliert Modelle und Taktfrequenzen zu den Mobile-CPUs im Jahr 2004 nennen. Wir zeigen, woran Sie die neuen CPUs erkennen. 2.1.1 Mobile Athlon 64 Für Notebooks bietet AMD den Athlon 64 Desktop Replacement an. Diese CPU ist kein expliziter Mobile-Prozessor, sondern entspricht bis auf Kleinigkeiten dem Athlon 64 für Desktop-PCs (webcode: a1248). So beschränkt AMD den integrierten Speicher-Controller auf maximal DDR333-SDRAM. Zum Energiesparen 62 www.tecChannel.de Roadmap: Mobile-CPUs 2004 setzt der Athlon 64 DTR auf die PowerNow!-Technologie. Diese hat auch der Desktop Athlon 64, nur taufte AMD sie hier auf Cool-‚n‘-Quiet-Technologie um. AMD bietet den Athlon 64 für Desktop-Replacement-Notebooks in den Varianten 3000+ und 3200+ an. Die Prozessoren arbeiten entsprechend mit den Taktfrequenzen 1,8 und 2,0 GHz. Durch einige Erweiterungen im Transistor-Design besitzt der Athlon 64 für Notebooks eine gesenkte Verlustleistung. Allerdings fällt diese beim Athlon 64 3200+ DTR mit 81,5 Watt TDP nur unwesentlich niedriger aus als beim Desktop-Pendant mit 89 Watt. AMD Athlon 64 130nm SOI Mobile AMD Athlon 64 130nm SOI AMD Athlon XP-M 130nm 2H03 "Odessa" 90nm SOI "Oakville" 90nm SOI "Dublin" 130nm SOI 1H04 2H04 "Trinidad" 90nm SOI 1H05 2H05 © tecCHANNEL Verzögerte Mobilität: Eine „echte“ mobile Variante der Athlon-64-CPU steht bei AMD in der ersten Jahreshälfte 2004 auf dem Prozessorreiseplan. Im ersten Quartal 2004 dürfte dann der Sprung des Athlon 64 DTR auf 2,2 GHz mit der Model-Number 3400+ erfolgen. Einen „echten“ Mobile Athlon 64 will AMD noch im ersten Halbjahr 2004 auf den Markt bringen. Die Fertigung erfolgt aber weiterhin im 0,13-µm-Prozess. Dieser sollte dann mit einer deutlich gesenkten TDP aufwarten. Zum Vergleich: Intel spezifiziert den Pentium M 1,7 GHz mit einer TDP von nur 24,5 Watt. Auch Transmetas Efficeon TM8600 mit 1,3 GHz ist mit 13 Watt TDP viel sparsamer als AMDs Athlon 64 DTR. Den Schwenk auf 90 nm vollzieht AMD dann im zweiten Halbjahr 2004 mit dem Mobile Athlon 64 „Odessa“. Ihm folgt im ersten Halbjahr 2005 der ebenfalls für den 90-nm-Prozess vorgesehene „Oakville“. Details über die Features oder Taktfrequenzen von Odessa und Oakville sind noch nicht bekannt. Vermutlich dürfte aber wie im Desktop-Segment die Unterstützung von DDR2-SDRAM in den neuen Mobile-Prozessoren integriert sein. Dem Athlon XP-M spendiert AMD in der zweiten Jahreshälfte 2004 mit dem „Dublin“ ebenfalls einen Nachfolger. Ähnlich dem „Paris“ im Desktop-Segment wird es sich beim Dublin um einen abgemagerten mobilen Athlon 64 handeln. So ist davon auszugehen, dass der Dublin keinen 64-Bit-Modus beherrscht und eine L2-Cache-Größe von 256 KByte erhält. Die Fertigung von Dublin erfolgt wie beim Athlon XP-M noch mit 130 nm Strukturbreite. Erst im zweiten Halbjahr 2005 steht mit dem „Trinidad“ bei AMDs mobilen Einsteiger-CPUs der Übergang auf die 90-nm-Produktion mit SOI-Technik an. webcode: a1285 63 Mobile 2.1.2 Pentium M „Dothan“ Die mit Intels Centrino-Technologie (webcode: a1141) ausgestatteten PentiumM-Prozessoren (webcode: a1142) arbeiten aktuell mit maximal 1,70 GHz Taktfrequenz. Schnellere Varianten sind mit dem Banias-Core nicht geplant. Der nächste Performance-Sprung steht im ersten Quartal 2004 an – voraussichtlich im Februar. Dann bietet Intel den Pentium-M-Nachfolger an, der bislang unter dem Codenamen Dothan läuft. Der Mobile-Prozessor basiert auf dem Pentium M mit Banias-Core und wird im 90-nm-Prozess gefertigt. Insgesamt besteht der Dothan aus 140 Millionen Transistoren. Das Gros nimmt der auf 2 MByte verdoppelte L2-Cache ein. Der Pentium M „Banias“ setzt sich aus „nur“ 77 Millionen Transistoren zusammen. Als Architekturerweiterung sorgt das Enhanced Register Data Retrieval für ein effizienteres Register-Management bei unterschiedlich langen Schreib-/Lesevorgängen. Ein Enhanced Data Prefetcher verfügt über eine ausgeklügeltere Vorhersage, welche Daten die CPU im L2-Cache demnächst benötigt. Dothan FSB400 1,80/1,70A 1,60A GHz Dothan FSB400 1,80/1,70A 1,60A GHz Dothan FSB400 2,00/1,80/ 1,70A/1,60A/ 1,50A GHz Dothan FSB533 2,0A/1,87/ 1,73/1,60B GHz LV Dothan FSB400 1,30 GHz LV Dothan FSB400 1,40 GHz LV Dothan FSB400 1,40 GHz LV Dothan FSB533 > 1,40 GHz ULV Dothan FSB400 1,0A GHz ULV Dothan FSB400 1,10 GHz ULV Dothan FSB400 1,10 GHz ULV Dothan FSB400 >>1,10 GHz Q1'04 Q2'04 Q3'04 > Q4'04 © tecCHANNEL Roadmap Pentium M: Im ersten Quartal 2004 erhält der Pentium M den Dothan-Core mit 2 MByte L2-Cache und 90 nm Strukturbreite. Intels Dothan arbeitet zur Vorstellung mit einer Taktfrequenz von 1,60, 1,70 und 1,80 GHz. Bei Ersteren beiden wird an die Taktfrequenz ein „A“ zur Unterscheidung von den bisherigen Pentium-M-Prozessoren gehängt. Im dritten Quartal 2004 folgt eine Dothan-Version mit 1,50 und 2,00 GHz. Alle Varianten weisen den vom Pentium M bekannten 400-MHz-FSB auf. Im vierten Quartal 2004 erhöht Intel die Taktfrequenz des Prozessorbusses auf 533 MHz. Die entsprechenden CPUs kennzeichnet Intel dann wie folgt: 1,60B GHz, 1,73 und 1,83 GHz sowie 2,0A GHz. Einen Pentium-M mit FSB533 und einer Taktfrequenz von über 2 GHz will Intel ebenfalls bis Ende 2004 vorstellen. 64 www.tecChannel.de Roadmap: Mobile-CPUs 2004 Der Dothan-Core hält im Low-Voltage-Bereich im ersten Quartal 2004 mit 1,30 GHz Taktfrequenz Einzug. Im folgenden Quartal erhöht Intel die Taktfrequenz auf 1,40 GHz, bevor dann im vierten Quartal 2004 der FSB533 eingeführt wird. Der entsprechende LV Pentium M soll mit über 1,40 GHz Taktfrequenz arbeiten. Im Ultra-Low-Voltage-Segment verharrt der Prozessorbus im Jahr 2004 bei 400 MHz. Der erste ULV Pentium M mit Dothan-Core kommt im ersten Quartal 2004 mit 1,0 GHz. Im zweiten Quartal 2004 erfolgt die behutsame Steigerung auf 1,10 GHz und bis Ende 2004 auf 1,20 GHz Taktfrequenz. 2.2.3 Sonoma – der neue Centrino-Chipsatz Im vierten Quartal 2004 stellt Intel mit Sonoma eine neue Mobile-Plattform für Pentium-M-Prozessoren mit Dothan-Core vor. Die Marke Centrino (webcode: a1141) wird mit Sonoma beibehalten. Der Chipsatz von Sonoma besteht aus dem GMCH/MCH Alviso und dem ICH6M. Alviso unterstützt DDR2-SDRAM im SO-DIMM-Format. Ein neuer GrafikCore als Nachfolger der Extreme-2-Engine wird in Alviso auch enthalten sein. Alternativ lassen sich bei Alviso diskrete PCI-Express-Grafikchips anbinden. Viele Neuerungen bietet der ICH6-M: Neben einem Serial-ATA-Interface unterstützt der I/O-Hub PCI-Express-Schnittstellen (webcode: a1003). Somit kann der ICH6-M auch ExpressCards direkt ansteuern. Im ICH6-M integriert Intel zudem eine neue Audio-Interface-Generation. Die mit Codenamen Azalia versehene Technologie soll AC´97 ersetzen und besonders Strom sparend ausgelegt sein. Drahtlose Netzwerke nach dem 802.11a/b/g-Standard bietet die Sonoma-Plattform durch den Calexico-2-Baustein. Bei der Triband-Lösung handelt es sich um den Nachfolger der aktuellen Intel PRO/2100-Mini-PCI-Card der Centrino-Lösung. Support für AES (802.11i) kann Calexico 2 ebenfalls aufweisen. 2.2.4 Mobile Prescott Im September 2003 hat Intel den Mobile Pentium 4 mit 3,20 GHz Taktfrequenz und einem FSB533 vorgestellt. Mit dieser CPU hielt die Hyper-Threading-Technologie (webcode: a840) in Notebook-CPUs Einzug. Die Modelle mit 2,66, 2,80 und 3,06 GHz gibt es seither auch mit dem On-Die-Multiprocessing. Der Prescott wird im zweiten Quartal 2004 mobil. Die Taktfrequenzen betragen zum Launch 2,80, 3,06, 3,20 und 3,46 GHz. Ein „A“ am Ende der Taktfrequenz dient zur Unterscheidung von den bisherigen Modellen: beispielsweise Mobile Pentium 4 3,20A GHz. Alle Varianten sind mit 90 nm Strukturbreite gefertigt und mit einem 1 MByte großen L2-Cache sowie Hyper-Threading versehen. Im Gegensatz zu den Desktop-Versionen bleibt beim mobilen Prescott die FSB-Taktfrequenz weiterhin bei 533 MHz. Der Core-Takt steigt weiter: Im dritten Quartal 2004 gibt es den mobilen Prescott mit 3,60 GHz und im vierten Quartal 2004 mit 3,73 GHz. webcode: a1285 65 Mobile Mobile Pentium 4 HT FSB533 3,20/3,06/ 2,80 GHz Mobile Prescott HT FSB533 3,46/3,20A/ 3,06A/2,80A GHz Mobile Pentium 4-M FSB400 2,60 GHz Mobile Pentium 4-M FSB400 2,60 GHz Q1'04 Mobile Prescott HT FSB533 3,60/3,46/ 3,20A/3,06A GHz Q2'04 Mobile Prescott HT FSB533 3,73/3,60/ 3,46/3,20A GHz > Q3'04 Q4'04 © tecCHANNEL Roadmap Pentium 4 für Notebooks: Intel integriert den Prescott-Core bei den mobilen Pentium-4-Prozessoren im zweiten Quartal 2004. Die hochgetakteten mobilen Prescotts sollen einen gebührenden PerformanceAbstand zu den Pentium-M-Prozessoren sicherstellen. Der Stromverbrauch dürfte allerdings deutlich über den zirka 21 Watt TDP des Pentium M „Dothan“ liegen. Den aktuellen Mobile Pentium 4 Processor-M lässt Intel noch parallel weiterlaufen. Die CPUs mit 0,13-µm-Fertigungstechnologie, 512 KByte L2-Cache und 400-MHz-FSB gibt es derzeit mit bis zu 2,60 GHz Taktfrequenz. Schnellere Varianten stehen nicht mehr auf der Roadmap. Die Produktion des P4-M endet voraussichtlich im zweiten Quartal 2004. 2.2.5 Transmeta Efficeon Die Efficeon-Prozessoren (webcode: a1264) arbeiteten bei ihrem Debüt im Oktober 2003 mit Taktfrequenzen von bis zu 1,3 GHz. Transmeta lässt die CPUs bei TSMC in einem 0,13-µm-CMOS-Prozess fertigen. In der zweiten Jahreshälfte 2004 erfolgt dann der Übergang auf die 90-nm-Technologie. Transmeta gibt für diese zweite Efficeon-Generation Taktfrequenzen von 1,0, 1,4, 1,6, 1,8 und 2,0 GHz an. Intels Pentium-M-Nachfolger mit Codenamen Dothan soll ab der zweiten Jahreshälfte 2004 ebenfalls mit bis zu 2,0 GHz Taktfrequenz arbeiten. Bei der 90-nm-Version des Efficeon schrumpft die Die-Fläche von 119 mm² auf 68 mm². Diese Werte gelten für Modelle mit 1 MByte L2-Cache. Transmeta wird den 90-nm-Efficeon wieder in drei verschiedenen Varianten anbieten: Der TM8500 soll als Nachfolger des TM8300 weiterhin als kostengünstiges Einsteigermodell mit 512 KByte L2-Cache fungieren. Der TM8800 löst den TM8600 ab und bringt wieder einen 1 MByte großen L2-Cache mit. In einem „Small Package“ kommt der Efficeon TM8820. Wie sein Vorgänger TM8620 kann er auf einen 1 MByte fassenden L2-Cache zurückgreifen. Die Fertigung des Efficeon der 90-nm-Generation wird Fujitsu im Akiruno Technology Center in der Nähe von Tokio übernehmen. Fujitsus CS100-Prozess ermöglicht einen 240-nm-Leiterbahnenabstand und eine Transistorstrukturbreite 66 www.tecChannel.de Roadmap: Mobile-CPUs 2004 von 40 nm. Für seine internen Server-Geschäftsbereiche hat Fujitsu bereits mit der Produktion von 90-nm-Prozessoren begonnen. Im Jahr 2005 soll laut Transmeta die dritte Efficeon-Generation auf den Markt kommen. Die CPUs erhalten neue Features und werden anfangs im 90-nm-Prozess gefertigt. Noch im Laufe des Jahres 2005 will Transmeta dann auf eine Strukturbreite von 65 nm übergehen. Angaben zu den geplanten Taktfrequenzen oder Architekturerweiterungen gibt es von Transmeta allerdings noch nicht. 2.2.6 Fazit Im Mobile-Sektor konzentriert sich Intel voll auf die Centrino-Technologie (webcode: a1141). Besonders der mit Dothan kommende Schwenk auf die 90-nm-Fertigung verspricht eine weitere Senkung des Stromverbrauchs. Durch „gemäßigte“ Steigerungen der Taktfrequenz sowie eine L2-Cache-Verdopplung dürfte Dothan auch um einiges schneller sein als der aktuelle Pentium M (webcode: a1142). Achten Sie im Jahr 2004 beim Kauf eines Centrino-Notebooks somit unbedingt darauf, dass ein Pentium M „Dothan“ eingebaut ist. Wer andererseits aber unbedingt 3,46 GHz in seinem Notebook haben will, der kann bald auf Intels mobilen Prescott zurückgreifen – Hyper-Threading und kürzere Akku-Laufzeiten inklusive. Stromhungrig sind mit über 80 Watt TDP auch AMDs Athlon-64-Prozessoren für Notebooks. Speziell angepasste Mobile-Versionen mit niedrigerem Energieverbrauch wird es erst im ersten Halbjahr 2004 geben. Deutlich genügsamer geht Transmetas Efficeon (webcode: a1264) zu Werke – allerdings sind damit noch kaum Notebooks erhältlich. Leicht werden es sowohl AMD als auch Transmeta ohnehin nicht haben. Denn Intels Centrino-Technologie hat sich in den letzten Monaten in fast allen Notebook-Segmenten erfolgreich etabliert. Christian Vilsbeck tecCHANNEL-Links zum Thema Webcode Compact Roadmap: Mobile-CPUs 2004 a1285 S.62 Intel Centrino a1141 S.76 Transmeta Efficeon a1264 S.85 Test: Pentium M für Notebooks a1142 – Test: Centrino-Notebooks mit 15-Zoll-Displays a1201 – Notebook-Laufzeit optimieren p1195 – Aktuelle und zukünftige Akku-Technologien a1191 – Hyper-Threading im Detail p840 – webcode: a1285 67 Mobile 2.2 Details zum mobilen Athlon 64 Unterwegs mit 64 Bit: AMDs Athlon 64 für Notebooks erlaubt dies ebenso wie mit vorhandenen 32-Bit-Betriebssystemen. Wir erläutern wie das funktioniert und welche Details den mobilen Athlon 64 sonst noch auszeichnen. Mit dem Athlon 64 für Notebooks portiert AMD seine AMD64-Architektur für das Mobile Computing. Dabei basiert der erste 64-Bit-Notebook-Prozessor auf dem Athlon 64 für Desktop-PCs. Entsprechend können Notebooks mit AMDs neuer Mobile-CPU problemlos mit 32- und 64-Bit-Betriebssystemen agieren. Der Trick, warum das funktioniert, ist relativ einfach: AMD erweitert beim Athlon 64 für Notebooks die vorhandenen 32-Bit-Register auf eine Breite von 64 Bit. Findet der AMD64-Prozessor ein 32-Bit-Betriebssystem vor, so liegt die 64-BitErweiterung einfach brach. Die CPU verhält sich wie ein normaler x86-Prozessor. Bei einem 64-Bit-Betriebssystem werden die 64 Bit breiten Register dagegen genutzt. Einen ähnlichen Weg ging Intel beim Übergang vom 286er zum 386er. Ausnutzen lässt sich der 64-Bit-Vorteil des Athlon 64 für Notebooks aber nur mit dem entsprechenden Betriebssystem. Und hier müssen sich vor allem NotebookBesitzer noch etwas gedulden. Denn eine finale Version von Windows XP 64 Bit für AMD64-Prozessoren soll erst bis spätestens Mitte 2004 auf den Markt kommen. Seit September 2003 existiert zumindest eine Beta-Version. Und Linux – egal ob in der 32- oder 64-Bit-Version – ist für Notebooks wegen teilweise fehlender Hardware- und Powermanagement-Unterstützung noch nicht ideal. Wie sich der AMD Athlon 64 für Notebooks beim Einsatz von 32- und 64-Bit-Betriebssystemen verhält und welche Details seine Architektur verbirgt, führen wir in diesem Artikel detailliert auf. 2.2.1 Details zum Core Den Athlon 64 für Notebooks positioniert AMD als Prozessor für Desktop-Replacement-Notebooks. Entsprechend wird die CPU auch als Athlon 64 DTR bezeichnet. AMD bietet den Prozessor in einem organischen µPGA-Gehäuse mit 754 Pins an. Auf den Head Spreader der Desktop-Varianten verzichtet AMD. Dadurch lässt sich die Bauhöhe verringern und die Wärme direkter abführen. Seit dem Launch im September 2003 bietet AMD den Athlon 64 DTR als Modell 3000+ und 3200+ mit einer Taktfrequenz von 1,8 beziehungsweise 2,0 GHz an. Die Model-Number soll die Leistungsfähigkeit des Prozessors wie beim Athlon XP bei allen wichtigen Benchmarks wiedergeben. Die Fertigung des Athlon 64 für Notebooks erfolgt im 0,13-µm-Prozess mit SOI-Technik. Das 193 mm² große Die des Prozessors besteht aus insgesamt 105,9 Millionen Transistoren. Zum Vergleich: Der Athlon XP mit Barton-Core besitzt mit 54,3 Millionen zirka die Hälfte. Das Gros der zusätzlichen Transistoren wird beim Athlon 64 DTR durch den 1 MByte fassenden L2-Cache benötigt. 68 www.tecChannel.de Details zum mobilen Athlon 64 Flurplan: Der 1 MByte große L2-Cache dominiert das Die. Umrandet ist der Athlon 64 für Notebooks vom Speicher- und HyperTransport-Interface. Durch einige Erweiterungen im Transistor-Design besitzt der Athlon 64 DTR eine gesenkte Verlustleistung gegenüber dem Athlon 64 für Desktops. Allerdings fällt diese beim Athlon 64 3200+ DTR mit 81,5 Watt TDP nur unwesentlich niedriger aus als beim Desktop-Pendant mit 89 Watt. 2.2.2 PowerNow!-Technologie Zum Energiesparen setzt der Athlon 64 DTR auf die seit dem K6-2+ bekannte PowerNow!-Technologie. Diese besitzt auch der Desktop-Athlon-64, nur taufte sie AMD hier auf Cool´n´Quiet-Technologie um. Die Stromspartechnologie PowerNow! regelt dynamisch die Taktfrequenz und Core-Spannung des Prozessors. Der Athlon 64 DTR passt damit die CPU-Leistung in 32 Stufen an. Dabei differiert die Taktfrequenz zwischen 800 und 2000 MHz. Mit dem Arbeitstakt gekoppelt wählt der Prozessor die passende Core-Spannung – sie variiert zwischen 1,1 V (800 MHz) und 1,5 V (2000 MHz). Unter voller Last benötigt der Athlon 64 DTR eine Stromaufnahme von 52,9 A. Daraus resultiert der für einen Notebook-Prozessor sehr hohe TDP-Wert von 81,5 Watt. Zum Vergleich: Intels Pentium M mit 1,7 GHz Taktfrequenz ist mit einem TDP von nur 27 Watt spezifiziert. Im PowerNow!-Modus mit 800 MHz kann der AMD-Prozessor seine Leistungsaufnahme auf immerhin 19 Watt senken. Bis Mitte 2004 will AMD einen Mobile Athlon 64 mit deutlich reduzierter Verlustleistung vorstellen. webcode: p1291 69 Mobile 2.2.3 Neun Ausführungseinheiten Der AMD64-Core des Athlon 64 für Notebooks bietet neun Ausführungseinheiten für Integer- und Floating-Point-Operationen. Darin ist eine SSE2-kompatible Einheit enthalten. Gefüttert werden die Ausführungseinheiten nach dem Out-of-Order-Prinzip über drei unabhängige Befehls-Decoder-Pipes, die in den Schedulern enden. Drei davon können je acht Einträge puffern und bedienen die sechs Integer-Units. Diese bestehen aus drei Arithmetical Logical Units (ALU) und den drei Address Generation Units (AGU), die für die Load-/Store-Vorgänge vom und zum Cache verantwortlich zeichnen. Die drei FPU-Einheiten versorgt schließlich ein 36 Einträge fassender vierter Scheduler. L2-Cache L2-ECC L2-Tags L2-Tag-ECC BefehlsTLB L1-Befehls-Cache Fetch2-Transit Pick 16 KByte History Counter Decode 1 Decode 2 Decode 1 Decode 2 Decode 1 Decode 2 RAS & Target Address System Request Queue (SRQ) Pack Pack Pack Decode Decode Decode Crossbar (XBAR) 8-entry Scheduler 8-entry Scheduler 8-entry Scheduler Memory Controller & HyperTransport 2 KByte Branch Targets AGU ALU AGU ALU Daten-TLB 36-entry Scheduler AGU ALU FADD FMUL FMISC L1-Daten-Cache ECC © tecCHANNEL Futterzeit: Neun Ausführungseinheiten warten beim Athlon 64 DTR auf Befehle. Die FloatingPoint-Units beherrschen bei der AMD64-Architektur erstmals SSE2. Das Hauptproblem bei modernen CPU-Architekturen mit einer Vielzahl von Ausführungseinheiten besteht darin, diese mit einer hohen Auslastung zu betreiben und mit genügend Daten zu füttern. Demnach ist selbst beim Athlon die Auslastung der Units längst nicht ausgereizt. Intels Idee, die Ausführungseinheiten zu beschäftigen, heißt HyperThreading (webcode: a986). Hier wird eine CPU wie zwei Prozessoren behandelt, und entsprechend werden zwei Threads parallel abgearbeitet. Dadurch sind die Ausführungseinheiten besser ausgelastet – eine angepasste Programmierung der Anwendungen vorausgesetzt. 70 www.tecChannel.de Details zum mobilen Athlon 64 2.2.4 Cache- und TLB-Tuning Da AMD beim K8-Core der Athlon-64-CPUs aber auch von der schnellsten x86kompatiblen Architektur spricht, muss die höhere Performance anderen Quellen als einer erhöhten Unit-Zahl entspringen. Eine Möglichkeit wäre die Vergrößerung der Caches. Diese nutzt AMD aber nur teilweise. Für den L1-Cache gibt der Hersteller eine Größe von je 64 KByte für Befehle und Daten an – unverändert zum Athlon XP. Der 16fach assoziative L2-Cache fasst dagegen 1 MByte. Die Athlon XPs mit Barton-Core setzen auf 512 KByte. Weitaus tief schürfender sind bei der AMD64-Architektur die Änderungen, die schon im Vorfeld der Befehlsabarbeitung erfolgen. So hat AMD die Translation Lookaside Buffer (TLB) einer gründlichen Überarbeitung unterzogen. Je mehr Einträge der Translation Lookaside Buffer fassen kann, desto seltener muss bei der Berechnung der physikalischen Adresse die Translation-Tabelle aus dem Arbeitsspeicher geladen werden. Dies spart Zeit, und bestimmte Befehle erfordern somit weniger Taktzyklen. Der L1-Daten- und Befehls-TLB der Athlon-64-Prozessoren fasst je 40 Einträge und ist voll assoziativ ausgelegt. Beim Athlon XP kann nur der L1-Daten-TLB gleich viele Einträge speichern, für Befehle stehen lediglich 25 Einträge bereit. Die 4fach-assoziativen L2-TLBs können mit je 512 Einträgen beim K8-Core doppelt so viel aufnehmen wie noch beim Athlon XP. Außerdem weisen die TLBs beim Athlon 64 geringere Latenzzeiten auf als im K7-Core (webcode: p250). 2.2.5 Flush- und Sprung-Tuning Zusätzlich zu den größeren TLBs verfügt die AMD64-Architektur über einen 32 Einträge fassenden Flush-Filter. Dies erlaubt ein besseres Management der TLBs bei Task-Wechseln. Mehrere Threads können sich durch den Flush-Filter nun einen TLB teilen, ohne dass die Software dabei Einfluss nehmen muss. Normalerweise setzt der Prozessor bei Task-Wechseln jedes Mal die TLBs neu und stellt sie später wieder her – das kostet Rechenzeit. Die Sprungvorhersage hat AMD bei den Athlon-64-CPUs ebenfalls verbessert. Insbesondere bei Anwendungen mit großem Speicherbedarf – den so genannten Large Workloads – soll der Prozessor eine höhere Performance bieten. Hierzu wurde der Global History Counter auf 16 K Einträge aufgestockt – gegenüber dem K7-Core des Athlon eine Vervierfachung. Eine bessere Sprungvorhersage braucht der K8-Core auch, denn er hat an Pipeline-Stufen zugelegt. Die Gefahr langer Pipelines sind falsche Sprungvorhersagen. Im ungünstigsten Fall muss die komplette Pipeline, also alle Funktionseinheiten, neu geladen werden. Dies kostet viele Takte und reduziert die Performance. Effektive „Branch Predictions“ zählen bei modernen CPUs zu zentralen Performance-Bringern. webcode: p1291 71 Mobile 2.2.6 Gestreckte Pipeline Die Pipeline einer CPU zu verlängern, ist ein beliebtes Mittel zur Realisierung höherer Taktfrequenzen. Intel verdoppelte beim Schritt vom Pentium III zum Pentium 4 die Tiefe der Pipeline auf 20 Stufen. So extrem ging AMD nicht vor: Von vormals 10 Stufen beim Athlon kann die AMD64-Architektur nun auf eine 12-stufige Pipeline bei Integer-Operationen zurückgreifen. Sind Fließkommaberechnungen in Arbeit, benötigt der K8-Core 17 Stufen. Die 20 Prozent tiefere Pipeline der AMD64-Architektur findet sich im Frontend wieder. AMD hat im Vergleich zu den Athlon-Prozessoren die Befehlshol- und Dekodierphase überarbeitet. Ziel der optimierten „Vorbereitungsphase“ ist es, die Scheduler und somit die Ausführungseinheiten mit schneller aufeinander folgenden dekodierten Befehlen zu versorgen. Das soll unnötige Waitstates sowie unausgelastete Ausführungseinheiten reduzieren. Die Optimierung beginnt beim K8-Core bereits mit zwei statt nur einer Fetch-Stufe, die die x86-Befehle aus dem L1-Cache holen. Die folgende Pick-Stufe bereitet die Befehle dann für die ersten beiden von insgesamt drei Dekodierstufen auf. Ähnlich der Align-Stufe beim Athlon versucht der Athlon 64 beim Pick-Vorgang so viele unabhängige Befehle wie möglich zu finden und vorsortiert an die Ausführungseinheiten zu senden. In den Dekodierstufen 1 und 2 sammelt die CPU Informationen, die für den weiteren Dekodiervorgang benötigt werden – beispielsweise direkter oder vektorbasierender Dekodierpfad. Für Letzteren ist zusätzlich Microcode aus dem Microcode-ROM (MROM) erforderlich. Die beiden Stufen sind mit der Early-Decode-Phase des Athlon vergleichbar. Vor dem dritten Dekodierschritt bereitet eine Pack-Stufe die vorberechneten Informationen nochmals auf. Dann erfolgt die Umwandlung in MacroOPs. Diese einfach zu handhabenden Kommandos fester Länge beinhalten die zerlegten komplexen x86-Befehle. Ein MacroOP kann aus ein bis zwei dieser OPs bestehen. Der zweite OP ist immer ein Load/Store-OP. Die Scheduler verteilen schließlich die MacroOPs auf die Ausführungseinheiten. Die Daten landen in den letzten beiden Stufen 11 und 12 der Basis-Pipeline im L1-Daten-Cache. 2.2.7 Speicher-Interface integriert Zu den Neuerungen der AMD64-Architektur zählt neben der Registererweiterung auf 64 Bit der integrierte Memory-Controller. Der Vorteil der Integration liegt in den reduzierten Latenzzeiten bei Speicherzugriffen. Den Umweg über eine „klassische“ externe Northbridge umgeht die CPU. Eine geringe Latenzzeit ist vor allem dann wichtig, wenn der Speicherzugriff auf verteilt liegenden Stellen erfolgt. Hier ist die reine Speicherbandbreite oft gar nicht der entscheidende Faktor. Anders hingegen, wenn die Daten zusammenhängend im Speicher liegen und die CPU im Burst-Modus große Mengen ausliest – hier zählt die Bandbreite. 72 www.tecChannel.de 2,48 GByte/s 64 KByte L1-Befehls-Cache DDR-SDRAM H&M: AMDs Athlon 64 für Notebooks ist mit einem HyperTransport-Interface sowie einem Memory Controller für DDR333SDRAM ausgestattet. AMD64 Prozessor-Core 64 KByte L1-Daten-Cache DDR-Speicher-Controller HyperTransport 16 1024 KByte L2-Cache Details zum mobilen Athlon 64 2,98 GByte/s pro Richtung © tecCHANNEL Beim mobilen Athlon 64 integriert AMD einen Single-Channel-Speicher-Controller für DDR-SDRAM in den Varianten DDR200, DDR266 und DDR333. Die Desktop-Variante unterstützt zusätzlich DDR400-SDRAM. Im Server-Prozessor Opteron und der Highend-Desktop-CPU Athlon 64 FX sind zwei 72 Bit breite DDR-SDRAM-Kanäle realisiert. ECC-Support bieten alle AMD64-Modelle. 2.2.8 HyperTransport-Bus Statt des üblichen parallelen FSB kommuniziert der Athlon 64 für Notebooks über eine HyperTransport-Schnittstelle. Das serielle Interface mit variabler Bitbreite ermöglicht eine Datentransferrate von 2,98 GByte/s – in jede Richtung gleichzeitig. Damit ergibt sich eine Gesamtbandbreite von 5,96 GByte/s. Zum Vergleich: Der Pentium 4 mit 800 MHz FSB erlaubt ebenfalls einen maximalen Datendurchsatz von 5,96 GByte/s – aber nicht in beiden Richtungen gleichzeitig. Beim Pentium M mit seinem FSB400 sind es nur 2,98 GByte/s. Über das HyperTransport-Interface läuft der gesamte Datenverkehr der Athlon64-Prozessoren und des integrierten Memory-Controllers. Um beispielsweise AGP-Grafikkarten einen direkten Zugriff auf den Arbeitsspeicher zu gewähren, besitzt der Athlon 64 für Notebooks eine Schaltzentrale XBAR. Diese Cross-BarArchitektur leitet Datenströme vom HyperTransport-Interface über 64 Bit breite interne Busse direkt an die System Request Queue des AMD64-Core oder an den Memory-Controller weiter. Für Befehle und Adressen stehen der XBAR zusätzlich 64 Bit breite Busse zur Verfügung. 2.2.9 Betriebsmodi des Athlon 64 Um problemlos mit 32- und 64-Bit-Software agieren zu können, beherrschen die AMD64-Prozessoren verschiedene Betriebsmodi: • Legacy Mode • 64-Bit-Mode • Compatibility Mode webcode: p1291 73 Mobile Findet der Athlon 64 für Notebooks aktuelle Betriebssysteme wie Windows XP mit 32-Bit-Kernel vor, so arbeitet die CPU im so genannten Legacy-Mode. Der Athlon 64 DTR verhält sich dabei wie ein normaler x86-Prozessor und ist voll kompatibel zu vorhandenen 16- und 32-Bit-Betriebssystemen und -Anwendungen. Die 64-Bit-Features der AMD64-Architektur liegen dann brach. Steht dem AMD-Prozessor dagegen ein 64-Bit-Betriebssystem zur Seite, schaltet die CPU in den Long Mode getauften Betriebsmodus. Der Long Mode der AMD64-Technologie beinhaltet zwei Untermodi: den 64-Bit-Mode und einen Compatibility Mode. 64-Bit-Anwendungen arbeiten im entsprechenden 64-BitMode. Den Programmen steht somit auch der volle Adressraum zur Verfügung. Der Compatibility Mode der AMD64-Architektur erlaubt unter 64-Bit-Betriebssystemen eine binäre Kompatibilität mit 16- und 32-Bit-Anwendungen. Die Programme müssen nicht neu kompiliert werden. Den 64 Bit großen Adressraum des Betriebssystems können diese nicht nutzen, sie bleiben auf 4 GByte beschränkt. 2.2.10 Erweiterte Register Wenn der Athlon 64 DTR im 64-Bit-Mode arbeitet, stehen dem Prozessor im Vergleich zum Legacy Mode folgende zusätzliche Features zur Verfügung: • 64-Bit-Adressraum • Relative Datenadressierung mit 64-Bit-Offset • Registererweiterung der acht GPRs auf 64 Bit durch das Präfix R • Zusätzlich acht neue GPRs R8 bis R15 • Acht neue 128-Bit-SSE-Register XMM8 bis XMM15 • 64-Bit-Befehlszeiger (RIP) Den 64 Bit breiten Adressraum sieht die AMD64-Architektur nur über eine segmentierte Adressierung vor. Die physikalische Adressbreite ist auf 52 Bit beschränkt. In der ersten Generation des Athlon 64 implementiert AMD einen 48 Bit breiten virtuellen Adressraum – die physikalische Adressbreite ist auf 40 Bit beschränkt. Die ersten AMD64-CPUs haben auf ein TByte Arbeitsspeicher Zugriff. Anwendungen, die im Legacy oder Compatibility Mode laufen, stehen beim Athlon 64 DTR weiterhin nur die acht allgemeinen 32 Bit breiten Register EAX, EBX, ECX, EDX, EBP, ESI, EDI und ESP zur Verfügung. Arbeitet der Prozessor dagegen im 64-Bit-Mode, erweitert die AMD64-Architektur diese acht Register über den R-Präfix auf 64 Bit. Die verbreiterten Register erhalten die Bezeichnungen RAX bis RSP. Zusätzlich kann die AMD-CPU im 64-Bit-Mode auf acht neue ebenfalls 64 Bit breite GPRs (General Purpose Register) R8 bis R15 zugreifen. Für Fließkomma-Berechnungen wurden außerdem die acht 128 Bit breiten SSERegister mit XMM8 bis XMM15 verdoppelt. Davon profitiert allerdings nur der 64-Bit-Mode. Die Kompatibilität zu Intels SSE2-Befehlssatz erlauben aber alle Betriebsmodi. Der Pentium 4 verfügt über acht XMM-Register. 74 www.tecChannel.de Details zum mobilen Athlon 64 XMM0 31 RAX 0 XMM7 XMM8 15 7 EAX AH EAX 0 AL 79 0 X87 127 63 GPR x86-Register zusätzliche AMD64-Register SSE&SSE2 Registeranbau: Die AMD64-Architektur der Athlon64-CPUs erweitert die 32-Bit-Register der IA-32-Prozessoren auf 64 Bit. EDI R8 Instruction Pointer 63 31 0 EIP R15 XMM15 © tecCHANNEL 2.2.11 Fazit Der größte Vorteil des Athlon 64 für Notebooks ist die Kompatibilität zu vorhandener Software. Allerdings bleibt die generelle Frage nach dem Sinn von 64-BitApplikationen auf Notebooks. Im Serverumfeld mit großen Datenmengen oder bei Workstations mit wissenschaftlichen Berechnungen macht der Umstieg auf 64 Bit durchaus Sinn. Aber bei Notebook-Anwendungen wie Office-Applikationen, E-Mail und Internet ist die Bit-Verdopplung nicht wirklich notwendig. Eine Nische könnte der Athlon 64 für Notebooks aber in mobilen Workstations finden. Wichtig bei Prozessoren für Notebooks – neben der zweifelsohne hohen Performance des Athlon 64 DTR – ist ein geringer Energiebedarf. Und hier liegen die AMD-CPUs mit einem TDP von 81,5 Watt deutlich zu hoch. Selbst ein Mobile Pentium 4 mit 3,20 GHz Taktfrequenz unterbietet mit 76 Watt TDP den Athlon 64 für Notebooks. Bis Mitte 2004 will AMD deshalb einen Mobile Athlon 64 mit deutlich reduzierter Verlustleistung vorstellen. Christian Vilsbeck tecCHANNEL-Links zum Thema Webcode Compact Details zum mobilen Athlon 64 p1291 S.68 Alle Details zur AMD64-Architektur p1022 – Test: Athlon 64 mit Windows XP 64 Bit p1245 – Test: Athlon 64/FX vs Pentium 4 a1244 – webcode: p1291 75 Mobile 2.3 Intel Centrino Mit Centrino verfügt Intel über eine komplette Mobile-Plattform. Pentium-MProzessor, 855-Chipsätze und Wireless-LAN 802.11 sollen hohe Performance, lange Akku-Laufzeiten und einfachen Connect bieten. Wir stellen die Details der Centrino-Technologie vor. „Die Marke Centrino bezeichnet eine neue Generation mobiler PCs, die verändern werden, wie und wo Menschen mit dem Computer arbeiten“, kommentierte Pam Pollace, Intel Vice President und Director der Corporate Marketing Group, die neue Marke. Das Logo für die Centrino-Mobiltechnologie soll Leichtigkeit, Mobilität und Vorwärtsdrang signalisieren. Kern der Centrino-Plattform ist der Pentium M – auch unter dem Codenamen „Banias“ bekannt. Beim Pentium M verfolgt Intel einen holistischen Ansatz, um die Performance höher getakteter mobiler Pentium-4-Prozessoren bei wesentlich weniger Energieverbrauch zu ermöglichen. Techniken wie MicroOPs-Fusion, aggressives Clock-Gating oder eine erweiterte SpeedStep-Variante sollen dieses Vorhaben verwirklichen. In diesem Artikel finden Sie alle Details zum Pentium-M-Prozessor. Darüber hinaus stellen wir Ihnen die Chipsätze sowie die Wireless-LAN-Lösung von Intels Centrino-Plattform vor. Einen ausführlichen Test des Pentium M für Notebooks (webcode: a1142) können Sie ebenfalls bei tecCHANNEL nachlesen. Außerdem haben wir für Sie 15-Zoll-Business-Notebooks (webcode: a1201) mit CentrinoTechnologie getestet. 2.3.1 Details zum Core Intel fertigt den Pentium M mit einer Strukturbreite von 0,13 µm. Die 77 Millionen Transistoren benötigen eine Die-Fläche von zirka 100 mm². Einen Großteil davon belegt der L2-Cache, den Intel auf 1024 KByte dimensioniert hat. Cache-Architekturen im Vergleich Cache Pentium M Pentium III Pentium 4 Efficeon L1-Befehle 32 KByte 16 KByte 12K-µOps 128 KByte L1-Daten 32 KByte WB 16 KByte WB 8 KByte WT 64 KByte L2-Größe 1024 KByte 512 KByte 512 KByte 512/1024 KByte L2-Organisation 8fach assoziativ 4/8fach assoziativ 8fach assoziativ 4fach assoziativ L2-Cache-Line 64 Byte 32 Byte 64 Byte 128 Byte 76 www.tecChannel.de Intel Centrino Die Organisation des L2-Cache ist dabei achtfach assoziativ ausgelegt. In der ersten Cache-Stufe stehen dem Pentium M jeweils 32 KByte für Daten und Befehle zur Verfügung. Die einzelnen Cache-Speicherzellen hat Intel jeweils aus nur vier Transistoren aufgebaut. Intel hat die Pentium-M-Mikroarchitektur mit dem SSE2-Befehlssatz des Pentium 4 (webcode: a606) ausgestattet. Eine weitere Gemeinsamkeit mit der Netburst-Architektur des Pentium 4 ist der 400-MHz-Prozessorbus (Quad Pumped). Damit erlaubt der FSB des Pentium M eine Bandbreite von 2,98 GByte/s. Flurplan: Von den 77 Millionen Transistoren des Pentium M benötigt der 1 MByte fassende L2-Cache einen Großteil. (Quelle: Intel) 2.3.2 MicroOPs Fusion Intel vereinfacht beim Pentium M die komplizierte Verwaltung der MicroOPs in den Schedulern durch die MicroOPs-Fusion. Die neue MicroOPs-Fusion-Technologie analysiert die Instruktionen des Programmablaufs. Wenn sich mehrere Operationen zusammenfassen lassen, werden sie zu einem Befehl verschmolzen. Erst für die Bearbeitung in den parallelen Ausführungseinheiten werden die gebündelten Befehle wieder in die einzelnen MicroOPs aufgetrennt. Die Effizienz der Befehlsabarbeitung erhöht sich durch dieses Verfahren, weil der Scheduler weniger Einträge verwalten muss. Diese „Befehlsreduzierung“ vor den Ausführungseinheiten steigert aber nicht nur die Performance, sondern reduziert gleichzeitig den Energiebedarf der Scheduler-Einheit. Durch die MicroOPs-Fusion-Technologie muss der Pentium M zehn Prozent weniger MicroOPs in den Ausführungseinheiten berechnen. Um die Zahl der MicroOPs weiter zu verringern, hat Intel der Pentium-M-Architektur einen eigenen Ablaufmanager spendiert. Programm-Overhead wie etwa die Stack-Befehle push, pop, call und ret führt der Pentium M in einer dezidierten webcode: a1141 77 Mobile Hardware durch. Der Prozessor kann das eigentliche Programm in den Ausführungseinheiten damit ohne Unterbrechung abarbeiten. Die Zahl der MicroOPs verringert sich durch den Stack Manager laut Intel um fünf Prozent, was für eine Performance-Steigerung sorgen soll. 2.3.3 Strom sparen durch bessere Vorhersagen Die Ausführungseinheiten aktueller Prozessoren sind über ein Viertel ihrer Zeit mit Befehlswiederholungen durch falsche Sprungvorhersagen beschäftigt. Dies kostet aber nicht nur Performance, gleichzeitig steigt durch die Befehlswiederholung der Stromverbrauch. Deshalb hat Intel beim Pentium M viel Wert auf optimierte Sprungvorhersagen gelegt. © tecCHANNEL Gut gesprungen: Die Advanced Branch Prediction des Pentium M soll falsche Sprungvorhersagen um 20 Prozent reduzieren. Die „Advanced Branch Prediction“ des Pentium M analysiert die vergangene Programmausführung und sagt darauf basierend voraus, welche Operationen wahrscheinlich als Nächstes ausgeführt und welche Daten benötigt werden. Intel hat bei der Pentium-M-Architektur drei verschiedene Logiken zur Sprungvorhersage kombiniert: bimodal, local und global. Damit soll der Pentium M falsche Sprungvorhersagen um über 20 Prozent reduzieren. Die Performance des Prozessors steige durch die Advanced Branch Prediction um fünf Prozent. Gleichzeitig soll der Pentium M durch diese Optimierung zirka zwei Prozent weniger Strom verbrauchen. Diese Angaben basieren auf von Intel durchgeführten Simulationen. 78 www.tecChannel.de Intel Centrino 2.3.4 Aggressives Clock-Gating Um Energie zu sparen, kann die Pentium-M-CPU inaktive Bereiche komplett abschalten, wenn diese zur Befehlsabarbeitung kurzfristig nicht benötigt werden. Das Ein- und Ausschalten der einzelnen Blöcke erledigt der Prozessor dabei innerhalb eines Taktzyklus. Beim L2-Cache hat Intel jeden der acht Cache-Pfade in vier Quadranten aufgeteilt. Über einen so genannten Quadrant Selector kann der Pentium M jeden der insgesamt 32 Blöcke gezielt selektieren. Cache-Bereiche, die momentan nicht benötigt werden, lassen sich in einen Stromsparmodus schalten. Eine dezidierte Logik überprüft und analysiert beim Pentium M die Cache-Zugriffe und kann die inaktiven Bereiche lokalisieren. Sparfuchs: Der L2-Cache ist beim Pentium M in 32 Segmente aufgeteilt, die sich zum Stromsparen gezielt abschalten lassen. (Quelle: Intel) Beim Pentium M lässt Intel auch den Prozessorbus nicht außen vor und optimiert ihn auf niedrigen Stromverbrauch. Deshalb werden nur die Stellen des Busses mit Strom versorgt, die diesen auch aktuell benötigen. Gerade die Buffer-Schaltungen besitzen eine hohe Leistungsaufnahme. Diese Schaltkreise konvertieren die Busspannungen in die vom Chip benötigten Spannungswerte. Die Pentium-M-Architektur versorgt die Buffer dynamisch nur bei Bedarf und nicht ständig. webcode: a1141 79 Mobile 2.3.5 Enhanced SpeedStep Intel führt mit dem Pentium M die dritte Version der Stromspartechnologie SpeedStep ein. Die ersten beiden SpeedStep-Varianten kennen nur zwei Prozessorzustände, zwischen denen sie die Taktfrequenz und Core-Spannung wechseln können. SpeedStep II (offiziell Enhanced SpeedStep) des Pentium III-M und Pentium 4-M kann die miteinander gekoppelte Taktfrequenz und Core-Spannung auch dynamisch an die Prozessorauslastung anpassen. Beim Pentium M kann das Enhanced SpeedStep die Taktfrequenz und Spannung nun in mehreren Schritten variieren. Transmetas LongRun-Technologie (webcode: a1264) und AMDs PowerNow! verwenden dieses Verfahren schon lange. Intel hat beim Pentium M Abstufungen von 200 MHz gewählt. Die minimale Taktfrequenz der Pentium-M-Prozessoren beträgt jeweils 600 MHz. Ein Pentium M 1600 kann somit dynamisch mit 600, 800, 1000, 1200, 1400 und 1600 MHz Taktfrequenz arbeiten. Die Core-Spannung der CPU variiert mit der Taktfrequenz gekoppelt zwischen 0,956 und 1,484 V. Intel hat beim Pentium M zudem die I/O-Voltage von der Core-Spannung über die IMVP-Technik der vierten Generation komplett entkoppelt. Dies erlaubt eine gezieltere Regulierung der Spannungs-Level. IMVP packt Intelligenz in die Stromversorgung und nutzt den zulässigen Spannungsbereich eines Prozessors zur Reduzierung der Leistungsaufnahme aus. 2.3.6 Pentium-M-Versionen Intel bietet den Pentium M Anfang 2004 mit den Taktfrequenzen 1,3, 1,4, 1,5, 1,6 und als Topmodell mit 1,7 GHz an. Zusätzlich gibt es Low Voltage Pentium M mit 1,1 und 1,2 GHz sowie Ultra-Low-Voltage-Versionen mit 900 MHz und 1 GHz Taktfrequenz. Der TDP-Wert liegt bei den LV-Varianten bei 13 Watt respektive 7 Watt bei den ULV-Pentium-M-CPUs. Die 1,7-GHz-Version ist mit einer Thermal Design Power von 24,5 Watt spezifiziert. Im Durchschnitt soll der Leistungsbedarf der Pentium-M-Prozessoren aber unter einem Watt liegen. Die LV- und ULV-Versionen genehmigen sich durchschnittlich nur ein halbes Watt. Die in 0,13-µm-Technologie gefertigten Pentium-M-Prozessoren arbeiten mit einer Core-Spannung von 1,484 V – im SpeedStep-Modus sinkt sie auf 0,956 V. Genügsamer geben sich wieder die LV-Pentium-M mit 1,18 V und die ULV-Varianten mit 1,004 V Core-Spannung. Im ersten Quartal 2004 erfolgt in der Roadmap dann der Wechsel auf den Dothan. Beim Dothan wird die Fertigung des Pentium M von 0,13 µm auf 90 nm umgestellt. Neben der Verdopplung des L2-Cache auf 2 MByte sorgt das Enhanced Register Data Retrieval auch für ein effizienteres Register-Management bei unterschiedlich langen Schreib-/Lesevorgängen. 80 www.tecChannel.de Intel Centrino 2.3.7 Pentium-M-Chipsätze Intel bietet für den Pentium M drei Chipsatzvarianten an: den 855PM-Chipsatz ohne sowie den 855GM und den 855GME mit integrierter Grafik-Engine. VID IMVP IV PSI Optimized Power Supply Pentium M Processor 400 MHz Low Power Processor System Bus DDR333 Memory AGP 4x Graphics AGP 4x (1.5V) 855PM Hub Interface Integrated LAN 2 ATA66/100 IDE Channels Pro/Wireless Network Connection 802.11b (a) PCI 33 MHz Cardbus ICH4-M 6 USB Ports (1.1/2.0) Modem AC'97 2.3 © tecCHANNEL Intel 855PM: Der Chipsatz für DDR333-SDRAM (ab dem B1-Stepping) kann externe AGP-4xGrafikkarten ansteuern. Für die Peripherie zeichnet der ICH4-M verantwortlich. Die Chipsätze unterstützen über zwei SO-DIMM (webcode: a73)-Slots bis zu 2 GByte DDR-SDRAM. Der 855PM und der 855GM arbeiten mit DDR200 und DDR266. Seit September 2003 steuert der 855PM mit dem B1-Stepping zusätzlich DDR333-SDRAM an. Seit diesem Zeitpunkt gibt es auch den 855GME mit webcode: a1141 81 Mobile DDR333-SDRAM-Support. Über eine ECC-Prüfung verfügen alle Chipsätze. Der Prozessorbus arbeitet mit 400 MHz Taktfrequenz. Externe Grafikchips steuert der 855PM per AGP-4x-Schnittstelle an. Beim 855GM/855GME übernimmt Intels Extreme Graphics 2 die Bildschirmausgabe. Der Core arbeitet beim 855GM mit einer Taktfrequenz von 200 MHz beziehungsweise 250 MHz beim 855GME. VID IMVP IV PSI Optimized Power Supply Pentium M Processor 400 MHz Low Power Processor System Bus TPV DVO DDR333 Memory DVO (2 ports) LVDS 855GME Integrated Graphics Hub Interface Integrated LAN 2 ATA66/100 IDE Channels Pro/Wireless Network Connection 802.11b (a) PCI 33 MHz Cardbus ICH4-M 6 USB Ports (1.1/2.0) Modem AC'97 2.3 © tecCHANNEL Intel 855GME: Die Intel Extreme-Graphics-2-Engine ist im Chipsatz gleich integriert. Mit der Dual-Frequency Graphics Technology des 855GME kann jetzt neben der CPU auch die Grafik-Engine im Akku-Betrieb automatisch die Taktfrequenz senken und auf diese Weise Strom sparen. Dieses Feature ist vom Anwender einstellbar. Beim 855GME soll die Display Power Saving Technology zusätzlich für län82 www.tecChannel.de Intel Centrino gere Akku-Laufzeiten sorgen. Die Technologie regelt abhängig vom aktuellen Bildschirminhalt die Helligkeit und den Kontrast des Displays dynamisch nach und versucht, die Hintergrundbeleuchtung dabei möglichst weit abzudunkeln. Für die Schnittstellen zeichnet beim 855PM/GM/GME der ICH4-M verantwortlich. Der I/O-Hub bietet sechs USB-1.1/2.0-Ports und Ultra-ATA/100-Unterstützung. Support für Audio-, Modem- und 10/100-Ethernet-Funktionalität ist im ICH4-M auch integriert. Die Wireless-LAN-Anbindung erfolgt über eine MiniPCI-Card von Intel. Darauf befindet sich der unter dem Codenamen Calexico bekannte Chip. Der CardBus-Anschluss wird über den PCI-Bus angebunden. 2.3.8 Centrino-Plattform Wireless Nahtlose und drahtlose Vernetzung will Intel mit den Centrino-Notebooks offerieren. Für die drahtlose Netzwerkfähigkeit zeichnet bei der Centrino-Plattform eine Mini-PCI-Card von Intel verantwortlich. Der Funkbaustein mit Codenamen Calexico liefert Wireless LAN nach dem 802.11b-Standard. Seit Oktober 2003 hat Intel zusätzlich eine 802.11a/b-Lösung mit 54 Mbit Bandbreite im Angebot. Intel hat den Calexico-Chip speziell für die Zusammenarbeit mit dem Pentium M sowie den 855PM/GM/GME-Chipsätzen optimiert und verifiziert. Wireless LAN: Die Mini-PCI-Card ist ein Grundbestandteil von Centrino. (Quelle: Intel) Zum Jahreswechsel 2003/2004 will Intel eine 802.11b/g-Variante anbieten. Eine Triple-Band-Lösung 802.11a/b/g steht für Mitte 2004 auf der Roadmap. Ausführliche Informationen über die Features der einzelnen WLAN-Standards finden Sie unter webcode: a1129 bei tecCHANNEL. webcode: a1141 83 Mobile Für die drahtlose Kommunikation sorgt auch die Bluetooth-Kompatibilität der Centrino-Plattform. Die Intel PROSet-LAN-Software soll sicherstellen, dass der Übergang von WLAN zu Bluetooth nahtlos und unsichtbar für den Benutzer passiert. Ein passiver Netzwerkscan sucht dabei stets nach möglichen Verbindungen. Die Bluetooth-Funktion ist im Centrino-Package allerdings nicht integriert. Unterbrechungsfreies Arbeiten garantiert Intel mit der PROSet-LAN-Software auch beim Wechsel ins Festnetz. 2.3.9 Fazit Centrino-Notebooks sollen den Idealvorstellungen mobil arbeitender Menschen entsprechen: Akku-Laufzeiten von acht Stunden, Performance ohne Kompromisse und die Möglichkeit, immer und überall online zu sein, so Intel. Unsere getesteten 15-Zoll-Business-Notebooks (webcode: a1201) erreichen immerhin Laufzeiten bis über sieben Stunden. Der Prozessor benötigt bei einem Notebook aber nur einen Teil der Gesamtenergie. Immerhin hat Intel diesen Anteil mit dem Pentium M minimiert – im Durchschnitt soll sich die CPU mit unter einem Watt begnügen. Aber Intel hat beim Centrino-Projekt nicht nur die CPU im Fokus, sondern optimierte auch die gesamte Plattform: Chipsätze und Controller für Wireless LAN wurden aufeinander abgestimmt gleich mitentwickelt. Neben langen Akku-Laufzeiten überzeugen die Centrino-Notebooks auch durch hohe Rechenleistung: In unserem Test des Pentium M (webcode: a1142) erreicht die 1,6-GHz-Variante das gleiche Niveau wie ein Pentium 4 mit 2,4 GHz Taktfrequenz. Damit macht Intel seinem mobilen Pentium 4 selbst den Garaus. Christian Vilsbeck tecCHANNEL-Links zum Thema Webcode Compact Intel Centrino a1141 S.76 Test: Pentium M für Notebooks a1142 – Test: Centrino-Notebooks mit 15-Zoll-Displays a1201 – IDF: Neue Centrino-CPUs, -Chipsätze und Mobile-Plattformen a1243 – Transmeta Efficeon a1264 S.85 Notebook-Laufzeit optimieren p1195 S.115 Aktuelle und zukünftige Akku-Technologien a1191 S.97 Mobile Pentium III Processor-M a216 – Wireless-LAN-Grundlagen p680 – 84 www.tecChannel.de Transmeta Efficeon 2.4 Transmeta Efficeon Transmeta präsentiert mit dem Efficeon seine nächste Prozessorgeneration. Mit neuer Architektur und einer integrierten Northbridge soll sie Intels Pentium M als beste Mobile-CPU ablösen. Der Name von Transmetas neuem Hoffnungsträger wurde bereits im August 2003 bekannt gegeben: Efficeon – die Bezeichnung steht für mehr Effizienz. Die Efficeon-Prozessorfamilie soll beim Energiesparen und in der Performance für Notebooks, Tablet PCs, geräuscharme Desktops, Blade-Server und Embedded-Systeme industrieweit eine Spitzenposition einnehmen. Um dieses Ziel zu erreichen, hat die kalifornische Prozessorschmiede das Hardware-Design und die Code-Morphing-Software für den Efficeon komplett neu entwickelt. Der Nachfolger des Crusoe TM5800 soll eine 50 Prozent höhere Integer-Performance besitzen und Multimedia-Anwendungen um 80 Prozent pro Taktzyklus beschleunigen. Hierfür hat Transmeta unter anderem einen großen L2Cache und Intels SSE2-Befehlssatz integriert. Die unter dem Modellnamen TM8000 firmierenden Efficeons werden klar gegen Intels Pentium M (webcode: a1141) positioniert. Auf dem Microprocessor Forum 2003 in San Jose, Kalifornien, stellte Transmeta den Efficeon-Prozessor offiziell vor. In diesem Artikel haben wir die Details von Transmetas zweiter Prozessorgeneration zusammengefasst. 2.4.1 Efficeon-Modelle Transmetas Efficeon-Prozessoren gibt es seit ihrer Vorstellung im Oktober 2003 mit den Taktfrequenzen 1,0, 1,1, 1,2 und 1,3 GHz. Zusätzlich bietet Transmeta die Efficeons in drei verschiedenen Ausführungen an: Der TM8300 verfügt über einen 512 KByte großen L2-Cache und ist als kostengünstiges Einstiegsmodell gedacht. Den TM8600 stattet Transmeta mit einem 1 MByte fassenden L2-Cache aus. Beide Serien nutzen ein Standardgehäuse mit Abmessungen von 29 x 29 mm. Die dritte Variante Efficeon TM8620 gibt es in einem „Small Package“ mit Abmessungen von 21 x 21 mm. Der TM8620-Prozessor darf trotz der geringeren Packungsdichte auf einen 1 MByte großen L2-Cache zurückgreifen. Die Fertigung des Efficeon erfolgt in einem 0,13-µm-CMOS-Prozess von TSMC. Die Varianten mit dem 1 MByte großen L2-Cache benötigen dabei eine Die-Fläche von 119 mm². Der Efficeon braucht durch seine integrierte Northbridge als Chipsatzpartner nur noch eine Southbridge. Damit erlauben Efficeon-Systeme eine höhere Packungsdichte. Ein Intel Pentium M nimmt zusammen mit dem MCH 855PM und dem ICH eine Gesamtfläche von 3592 mm² ein. Der Efficeon TM8600 belegt mit einer NVIDIA nForce3 Go 150 Southbridge zusammen nur 2066 mm². Die Small-Package-Lösungen des Efficeon und nForce 3 Go begnügen sich insgesamt mit 925 mm² Fläche. webcode: a1264 85 Mobile Alles drin: Der Transmeta-Prozessor beherrscht SSE2 und besitzt einen DDR400-SDRAM-Controller sowie ein AGP-Interface. (Quelle: Transmeta) 2.4.2 256-Bit-Hardware Die Hardware, auf der Transmetas Crusoe seine Berechnungen abwickelt, ist ein einfacher VLIW-Prozessor. Diese „very long instruction words“ sind bei allen Crusoe-Prozessoren einschließlich des letzten Modells TM5800 bis zu 128 Bit breit. In diesen 128 Bit können bis zu vier unabhängige Befehle à 32 Bit verpackt sein. Pro Taktzyklus sind damit vier Instruktionen möglich. Beim Efficeon hat Transmeta ein komplett neues Design verwirklicht. Der superskalar ausgelegte TM8000 verfügt über eine 256-Bit-VLIW-Engine und kann damit acht 32 Bit breite Befehle pro Taktzyklus bearbeiten. Im Vergleich zum TM5800 und zum Gros der Konkurrenz ist der TM8000 laut Hersteller in der Lage, die doppelte Arbeit pro Takt durchzuführen. Damit sei der Efficeon auch viel effizienter im Umgang mit der Energie, und die Batterielaufzeit erhöhe sich. Die gleiche Arbeit kann mit dem Mobile-Prozessor bei niedrigerer Taktfrequenz und somit auch geringerer Core-Spannung durchgeführt werden, so Transmeta weiter. 2.4.3 Details zum Core Der Efficeon unterscheidet sich nicht nur mit 1,3 GHz Taktfrequenz vom Vorgänger Crusoe TM5800 mit maximal 1,0 GHz. Neben der 256-Bit-Engine bietet die TM8000-Serie weitere tiefgreifende Änderungen am Core. Das auffälligste neue Feature ist die SSE/SSE2-Unterstützung des Efficeon. Nach AMD mit den Athlon-64- und Opteron-Prozessoren setzt nun auch Transmeta auf die MultimediaBefehlserweiterung von Intel. Die erste Cache-Stufe hat Transmeta beim Efficeon wie folgt festgelegt: Der L1-Befehls-Cache besitzt mit 128 KByte die doppelte Größe des Crusoe-Cache und ist 4fach assoziativ organisiert. Eine Cache-Line ist 86 www.tecChannel.de Transmeta Efficeon dabei 64 Byte groß. Für Daten stehen dem Efficeon 64 KByte (wie beim Crusoe TM5800) in 8fach assoziativer Auslegung zur Verfügung – die Cache-Line ist hier auf 32 Byte festgelegt. Den L2-Cache dimensioniert Transmeta beim Efficeon je nach Modell auf 512 oder 1024 KByte. Die zweite Cache-Stufe ist jeweils 4fach assoziativ organisiert und fasst 128 Byte große Lines. Zusätzlich verfügt der Write-Back-L2-Cache über eine ECC-Prüfung. Dieses im Server-Einsatz wichtige Merkmal konnte der Crusoe TM5800 nicht bieten. Flurplan: Der 1 MByte fassende L2-Cache belegt über ein Drittel der Die-Fläche. Gut erkennbar ist auch der 128 KByte große L1-Cache für Befehle. (Quelle: Transmeta) Transmeta gibt für den Efficeon 1,3 GHz einen TDP-Wert von 14 Watt an. Die Variante mit 1,0 GHz Taktfrequenz spezifiziert der Hersteller mit nur 5 Watt. Zum Vergleich: Der Pentium M 1,3 GHz hat einen TDP-Wert von 22 Watt, die ULVVersion mit 1,0 GHz steht mit 7 Watt in den Datenblättern. Cache-Architekturen im Vergleich Cache Pentium M Crusoe TM5800 Efficeon TM8600 L1-Befehle 32 KByte 64 KByte 128 KByte L1-Daten 32 KByte 64 KByte 64 KByte L2-Größe 1024 KByte 512 KByte WB 1024 KByte L2-Organisation 8fach assoziativ 4fach assoziativ 4fach assoziativ L2-Cache-Line 64 Byte k.A. 128 Byte webcode: a1264 87 Mobile 2.4.4 Pipeline-Workflow Für die Durchführung von Befehlen greift der Efficeon auf insgesamt elf Ausführungseinheiten zurück: zwei Load-/Store-, zwei Integer-, zwei Floating-Point-, eine Alias-, Branch- und Control-Unit sowie zwei zusätzliche Execution-Units. Die Fütterung der Ausführungseinheiten übernimmt der bis zu 48 Befehle puffernde Scheduler des Efficeon. Befehl 1 Befehl 2 Load Store 32-bit add FP/MMX SSE/SSE2 Befehl 3 Load Store 32-bit add MMX SSE/SSE2 Befehl 4 Befehl 5 Integer ALU-1 Integer ALU-2 Branch Befehl 6 Befehl 7 Alias Exec-1 Befehl 8 Control Exec-2 © tecCHANNEL Parallelisierung: Der Efficeon kann die zu bewältigenden Rechenaufgaben auf insgesamt elf Ausführungseinheiten verteilen. Beim Ausführen von 32-Bit-Befehlen durchläuft die TM8000-Architektur neben der 6-stufigen Load-/Store-Pipeline sechs Integer-Stufen oder eine 8-stufige Fließkomma-Pipeline. Ganzzahlenberechnungen in der Integer-Pipeline beginnen mit der Stufe Instruction Issue. Der eingeholte Integer-Befehl wird hier an die entsprechende Unit weitergeleitet und in der zweiten Stufe dekodiert. Im nächsten Schritt werden die Register mit den Operanten gelesen. Nach der Berechnung der ALU-Operation folgt in der fünften Stufe das Setzen von Flags. Final wird das Ergebnis in die Integer-Register zurückgeschrieben. Die acht Stufen der Fließkomma-Pipeline beginnen ebenfalls mit dem Instruction Issue. Nach der Zuweisung erfolgen zwei Dekodierschritte. Die Floating-PointBerechnung führt der Efficeon in vier Stufen durch. Der letzte Schritt besteht aus dem Zurückschreiben des Fließkomma-Registers. Beim Crusoe TM5800 setzt Transmeta noch auf eine 7-stufige Integer- und 10stufige Floating-Point-Pipeline. Der Efficeon benötigt somit weniger Arbeitsschritte bei der Befehlsabarbeitung. Die Pipeline einer CPU zu verlängern, ist eigentlich ein beliebtes Mittel zur Realisierung höherer Taktfrequenzen. Je länger sie aber wird, desto mehr Zeit vergeht bei falschen Sprungvorhersagen. Im ungünstigsten Fall muss die komplette Pipeline, also alle Funktionseinheiten, neu geladen werden. Dies kostet viele Takte und reduziert die Performance. Gleichzeitig steigt durch die Befehlswiederholung auch der Stromverbrauch. Dem begegnet Transmeta mit der Stufenreduzierung. 88 www.tecChannel.de Transmeta Efficeon 6-stufige Integer-Pipeline L1-BefehlsCache Decoupled Front End Instruction Fetch Unit 128 KByte L2-Cache 1 MByte 8-stufige Floating-PointPipeline puffert bis zu 48 Befehle L1-DatenCache 6-stufige Load/Store-Pipeline 64 KByte © tecCHANNEL Schritt für Schritt: Der Efficeon berechnet Ganzzahlen in sechs und Fließkommawerte in acht Stufen. Die Fütterung der Pipelines übernimmt der bis zu 48 Befehle puffernde Scheduler. 2.4.5 Integrierte Northbridge Transmetas Efficeon wartet mit drei Highspeed-Interfaces auf. Für einen schnellen Speicherzugriff mit geringen Latencies verfügt der Core über einen integrierten Single-Channel-DDR400-SDRAM-Controller. Einen Speichertakt von 266, 333 und ungewöhnlichen 366 MHz unterstützt der Prozessor ebenfalls. Wichtig für den auch anvisierten Server-Markt ist der Support von ECC. Insgesamt kann der Efficeon bis zu 4 GByte Arbeitsspeicher – verteilt auf vier Steckplätze – adressieren. Der Crusoe TM5800 besitzt zwar ebenfalls einen integrierten Memory Controller, kann aber maximal 512 MByte DDR266- oder 1024 MByte PC133SDRAM ohne ECC-Prüfung ansteuern. AGP 4x 0,99 GByte/s Transmeta Efficeon LPC FLASH 802.11 PCI DDR400 2,98 GByte/s 400-MHz-HyperTransport-Bus 1,49 GByte/s HT Southbridge © tecCHANNEL Kurze Wege: Der Efficeon steuert die AGP-Grafikkarte direkt an. Ein DDR400-SDRAM-Controller ist ebenfalls im Prozessor integriert. webcode: a1264 89 Mobile Als zweites Highspeed-Interface fungiert beim Efficeon der integrierte AGP-4xBus. Grafikkarten müssen beim Zugriff auf den Arbeitsspeicher nicht mehr den Umweg über eine separate Northbridge gehen. Hier bietet die TM8000-Familie einen Performance-Vorteil gegenüber anderen Lösungen wie AMDs mobilem Athlon 64. Der AMD-Chip hat ebenfalls einen integrierten Speicher-Controller, die AGP-Grafikkarte benötigt aber einen zusätzlichen Northbridge-Baustein. Für die Kommunikation mit der Peripherie zeichnet die dritte Highspeed-Verbindung verantwortlich. Transmeta stattet den Efficeon mit einem HyperTransportInterface (webcode: p1000) aus. Der mit 400 MHz getaktete serielle Bus verbindet den TM8000 mit einer Breite von 8 Bit je Richtung mit einer Southbridge. Durch das HyperTransport-Interface kann der Prozessor mit einer Vielzahl handelsüblicher HyperTransport-Komponenten zusammenarbeiten. 2.4.6 CMS zweiter Generation Die größte Intelligenz der Transmeta-Crusoe-Prozessoren steckt in der CodeMorphing-Software CMS. Damit wird zur Laufzeit der gesamte Code einer Rechnerarchitektur auf die eigentliche Hardware umgesetzt. Nur die Code-MorphingSoftware selbst hat Zugriff auf den Prozessor. Die CMS optimiert und übersetzt x86-Befehle dynamisch in nativen VLIW-Code. Zur Laufzeit wird das System immer schneller, da die Code-Morphing-Software versucht, jede Befehlskette nur einmal zu übersetzen. Den übersetzten VLIW-Code hält die CMS im Speicher. Transmeta hat für den Efficeon die zweite Generation seiner Code-MorphingSoftware entwickelt. Die neue Version ist speziell auf die TM8000-Architektur zugeschnitten und kann nicht bei Crusoe-Prozessoren (TM5800) verwendet werden. Die CMS2 zeichnet sich durch höhere Performance und intelligentere Algorithmen aus. Durch die Code-Optimierung in der Software reduziere sich laut Transmeta auch die Leistungsaufnahme in der Hardware. Die Code-MorphingSoftware wird beim Einschalten des Systems von einem Flash-ROM ins RAM geladen, und dieser Bereich wird dann schreibgeschützt. 2.4.7 LongRun Version 2 Unter der Kontrolle der Code-Morphing-Software kann der Efficeon wie der Vorgänger Crusoe TM5800 selbst entscheiden, wann wie viel Leistung gebraucht wird. Entsprechend werden der Takt und die Core-Spannung der CPU dynamisch angepasst. Neu an LongRun2 des Efficeon ist eine auf die Hälfte reduzierte Ansprechzeit beim Anpassen der Taktfrequenz. Optimierte LongRun-Algorithmen wählen die erforderliche Taktfrequenz zudem effizienter. Der Efficeon maximiert die Performance auch innerhalb einer thermisch vorgegebenen Grenze besser. Neben der dynamischen Anpassung von Taktfrequenz und Spannung senkt LongRun2 zusätzlich die Verlustleistung der Transistoren dynamisch. Dies erfolgt über 90 www.tecChannel.de Transmeta Efficeon eine Regelung der Schwellenspannung. Die Leckströme der Transistoren werden laut Transmeta zu einem steigenden Problem bei der Bewältigung von Moores Law der Technologieskalierung. So haben 100-Watt-Prozessoren bereits einen Leckstromanteil von 40 Watt, wie Transmeta weiter betont. LongRun2 soll den Leckstrom von Transistoren mittels Software kontrollieren können. Die Software bewältigt die Kontrolle der Verlustleistung als „interdisziplinäre“ Lösung in Verbindung mit speziellen Schaltungen auf dem Efficeon-Prozessor sowie dem Standard-CMOS-Prozess. So lässt sich die Verlustleistung des Efficeon bei aktiviertem LongRun2 im Standby-Modus von 144 mW auf 2 mW senken. Transmeta implementierte die LongRun2-Technologie noch nicht bei den ersten Efficeons, die im vierten Quartal 2003 ausgeliefert wurden. Erst im Laufe des Jahres 2004 zählt LongRun2 beim Efficeon zu einem Standard-Feature. 2.4.8 Fazit Transmeta setzt große Hoffnungen in den Efficeon. Schon die bisherigen Transmeta-CPUs waren sehr genügsam in der Leistungsaufnahme, dennoch blieb der große Erfolg mangels zu geringer Performance aus – besonders in Europa. Die komplett neu entworfene Efficeon-Architektur kann diesen Nachteil wettmachen. Den von Transmeta präsentierten Benchmark-Resultaten zufolge liegt die Performance des Efficeon über einem vergleichbaren Pentium M. Verantwortlich dafür seien der integrierte DDR400 Memory Controller, SSE2-Unterstützung, große Caches sowie der 256-Bit-VLIW-Core mit acht Instruktionen pro Taktzyklus. Die Code-Morphing-Software der zweiten Generation soll zudem wesentlich effizienter sein. Dabei bleibt der Efficeon nach wie vor sehr Strom sparend. Leicht wird es Transmeta allerdings nicht haben. Denn Intels Centrino-Technologie hat sich in den letzten Monaten erfolgreich etabliert. Und im ersten Quartal 2004 schickt Intel bereits den Pentium-M-Nachfolger Dothan ins Rennen. Dem wird ein verdoppelter L2-Cache für mehr Performance und ein 90-nm-Prozess für längere Akku-Laufzeiten spendiert. Christian Vilsbeck tecCHANNEL-Links zum Thema Webcode Compact Transmeta Efficeon a1264 S.85 Intel Centrino a1141 S.76 HyperTransport im Detail p1000 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. webcode: a1264 91 Mobile 2.5 ExpressCard löst PC-Card ab Um einen einheitlichen Standard für Steckkarten im mobilen Umfeld zu entwickeln, formierte sich 1989 eine Vielzahl von IT-Firmen zum PCMCIA-Konsortium (Personal Computer Memory Card International Association). Ein Jahr später veröffentlichte die PCMCIA den 1.0-Standard. Dieser definierte die Grundfunktionen für die Kommunikation zwischen einer PCMCIA-Karte und der entsprechenden Schnittstelle, die elektrischen Anschlüsse und die Abmessungen der Einschubkarte. Vorerst galten die Spezifikationen ausschließlich für Memory Cards mit einer Datenbusbreite von 8/16-Bit und einem festgelegten Formfaktor von 54 x 85,6 x 3 mm (Typ I) und 54 x 85,6 x 5 mm (Typ II). Der 16-Bit-Datenbus dieser Einschubkarten erreicht eine maximale Datenbandbreite von 20 MByte/s. Erst 1991 mit der Vorstellung der Version 2.0 erweiterte das Konsortium die so genannte PCMCIA-Card um eine I/O-Funktionalität. Sie ist zwingend notwendig, um zum Beispiel Netzwerk-, SCSI- oder Fax-/ Modemadapter sowie ISDN-Karten an der PCMCIA-Schnittstelle zu betreiben. Einen weiteren Formfaktor führte das 1992 durchgeführte Update der PCMCIASpezifikation auf die Version 2.01 ein. Die Höhe der Einschubkarten änderte sich mit dem Typ-III-Faktor auf 10,5 mm. Letzterer ermöglicht nun die Aufnahme von Minifestplatten als mobiles Speichermedium. 2.5.1 PC-Card-Evolution Die PC-Card löste durch die Weiterentwicklung der PCMCIA-Spezifikationen 1995 die PCMCIA-Karte ab. Die Grundlage des PC-Card-Standards Version 5.0 bildet die 32 Bit breite Cardbus-Schnittstelle mit busmasterfähiger PCI-Bus-Anbindung. Sie erreicht mit einer Taktfrequenz von 33 MHz eine maximale theoretische Datenübertragungsrate von 132 MByte/s (Basis 1000). Sowohl die PCMCIA- als auch die PC-Card-Schnittstelle verfügen über insgesamt 68 Anschlusspins. Darüber hinaus sind die Einschubkarten Hot-Plug-fähig, so dass das System sie beim Einstecken im laufenden Betrieb automatisch erkennt und konfiguriert. Ebenso einfach lassen sich die Karten beim Entnehmen im Betrieb deinstallieren. Die PC-Card ist zum veralteten PCMCIA-Slot nicht abwärts kompatibel, umgekehrt funktioniert jedoch eine 16-Bit-PCMCIA-Karte in einem 32-Bit-PC-Card-Slot einwandfrei. ExpressCard ist die nächste Evolution des PC-Card-Standards auf Basis von PCI Express. Die PCMCIA Trade Association (www.pcmcia.org) verabschiedete die unter dem Codenamen NEWCARD entwickelte ExpressCard-Spezifikation 1.0 im September 2003. Der ExpressCard-Standard löst mit höherer Performance und kleinerem Formfaktor die bisherigen PC Cards in Notebooks ab und soll auch in PCs zum Einsatz kommen. Ein gravierender Nachteil der ExpressCard-Technologie: Sie ist zum Vorgänger nicht kompatibel. 92 www.tecChannel.de ExpressCard löst PC-Card ab 2.5.2 ExpressCard-Technologie Eine hohe Datenbandbreite garantiert beim ExpressCard-Standard 1.0 die PCIExpress-Technologie. Wahlweise kommt USB 2.0 zum Einsatz und zu Kontrollzwecken der SMBus. Die ExpressCard-Architektur vereint alle drei Bussysteme zu einem standardisierten universellen 26-poligen Interface. Der integrierte x1PCI-Express-Link erreicht eine rechnerische Bandbreite von 2,5 Gbit/s je Richtung. Bedingt durch das komplexe 8B/10B-Kodierverfahren entspricht das einer nominalen Transferleistung von 250 MByte/s pro Richtung. Im Gegensatz dazu arbeitet das optional nutzbare USB-2.0-Interface mit einer theoretischen Bandbreite von 480 Mbit/s. Die maximale Stromaufnahme der 3,3- und 1,5-Volt-Leitungen beträgt 1750 mA. PCI CardBus Controller Power Controller USB 2.0 SMBus Power Controller CardBus Card PC-Card 16 Card PCI-Express Card USB 2.0 Card ExpressCard PCI-Express ISA 26 Pin Socket System Chipset PCI Legacy System Chipset 68 Pin Socket Dualbus: ExpressCard-Steckplätze (Codename NEWCARD) bieten stets USB 2.0 und PCI Express als Bussystem an. Den Karten bleibt die freie Wahl. Oben im Bild: Herkömmliche PCCard-Lösung mit extra ControllerChip. © tecCHANNEL Künftige Notebooks oder PCs benötigen keinen zusätzlichen Controller für die Ansteuerung der ExpressCard-Schnittstelle: PCI Express und USB 2.0 zählen dann zu den Standard-Features der Systemchipsätze. Demgegenüber müssen Notebooks mit PC-Card-Steckplätzen noch einen eigenen speziellen PC-CardController nutzen – der zusätzliche Kosten verursacht. Mit der ExpressCard-Spezifikation bietet die PCMCIA erstmals einen gemeinsamen Standard für Erweiterungskarten an, der für Notebooks und PCs gilt. Die aktuellen PC-Cards haben sich ausschließlich in den mobilen Rechnern durchgesetzt. Ähnlich wie USB 1.1/2.0 soll ExpressCard in Zukunft beide Gattungen verbinden und somit eine höhere Funktionalität bieten. Neben der PCMCIA Trade Organisation unterstützen Intel, Microsoft und Dell sowie Lexar Media und SCM Microsystems die Entwicklung von ExpressCard. Die Industriegruppen USB-IF (www.usb.org/home) und PCI-SIG (http://www.pcisig.com) arbeiten auf Grund ihrer Interfaces ebenfalls am Erweiterungsstandard mit. webcode: a1275 93 Mobile 2.5.3 ExpressCard-Karten und -Slot Die ExpressCard-Spezifikation 1.0 definiert zwei Formfaktoren für Einschubkarten: den ExpressCard/34 mit einer Breite von 34 mm und den ExpressCard/54 mit 54 mm Breite. Letztere entspricht der Breite einer herkömmlichen PC-Card und kann beispielsweise entsprechende Festplatten aufnehmen. Einschubkarten im Vergleich: Der ExpressCard-Standard definiert zwei Varianten (rechts) ExpressCard/54 und ExpressCard/34. Zum Vergleich links die PC-Card. (Quelle: PCMCIA) Als Steckplätze sind ebenfalls beide Formfaktoren vorgesehen. Der universell einsetzbare ExpressCard/54-Slot kann aber auch 34er ExpressCards aufnehmen. Zusätzlich bietet der ExpressCard-Standard einen 68-mm-Slot. Dieser kann zwei ExpressCards/34 oder wahlweise eine ExpressCard/54 aufnehmen. Die Höhe der ExpressCards beträgt standardmäßig 5 mm bei einer Länge von einheitlich 75 mm. Je nach benötigter Bandbreite kann der Hersteller eine ExpressCard individuell mit einer USB-2.0- oder PCI-Express-Schnittstelle ausstatten. ExpressCardSlots im Vergleich: Je nach Anwendung können entsprechende SlotVarianten für ExpressCard/34 oder ExpressCard/54 eingesetzt werden. (Quelle: PCMCIA) 94 www.tecChannel.de ExpressCard löst PC-Card ab Das USB-2.0-Interface eignet sich primär für langsamere Technologien wie Bluetooth- oder Flash-Memory-Karten. Die schnelle PCI-Express-Variante ist prädestiniert für Geräte mit hohen Transferraten wie 1394b- oder Gbit-Ethernet-Cards. 2.5.4 ExpressCard-Schnittstelle Wie bereits bei der PC-Card definiert, verfügt die ExpressCard ebenfalls über eine Hot-Plug-Funktionalität. Sie gilt für die PCI-Express- und die USB-2.0Schnittstelle. Zusätzlich erlaubt ein genau ausgeklügeltes Powermanagement den Einschubkarten einen effizienten Umgang mit den begrenzten Energieressourcen eines Notebooks oder eines Pocket PCs. Dabei ist die maximale Leistungsaufnahme einer ExpressCard/34 auf 1,3 Watt limitiert, dagegen darf die 54er Variante 2,1 Watt nicht überschreiten. Aus welchen einzelnen Signalleitungen das ExpressCard-Interface besteht, zeigt die nachfolgende Tabelle. Signalliste des ExpressCard-Host-Interface Signal Group Signal Direction Description PCI Express PETp0,PETn0, PERp0, PERn0 Input / Output PCI Express x1 data interface: 1 differential transmit pair and 1 differential receive pair REFCLK+, REFCLK- Input PCI Express differential, spread-spectrum reference clock PWERST# Input PCI Express functional reset Universal Serial Bus (USB) USBD+, USBD- Input / Output USB 2.0 serial data interface SMBus SMBDATA, SMBCLK Input / Output SMBus management channel System auxiliary signals CPPE# Output PCI Express module detection and power control CPUSB# Output USB module detection and power control CLKREQ# Output Used to indicate when REFCLK is needed (PCI Express only) webcode: a1275 95 Mobile WAKE# Power and Ground Output PCI Express function initiated wake event +3,3 V Primary voltage source +3,3 V AUX Auxiliary voltage source +1,5 V Secondary voltage source GND Return current path 2.5.5 Fazit Die grundsätzlichen Vorteile der ExpressCard-Technologie sind die sehr hohen Transferraten der Schnittstelle, der universelle Einsatz der Architektur und der günstige Formfaktor. Ein weiterer Pluspunkt des ExpressCard-Standards sind niedrige Kosten durch die geringe Leiterbahnanzahl und die einfache Verbindung. Auf der anderen Seite verlangt die Technologie eine neue Verbindungsarchitektur auf den System-Boards und neue Steckkarten wie die ExpressCard/34 und die ExpressCard/54. Eine Kompatibilität zwischen der ExpressCard und der PC-Card ist nicht vorgesehen und wird es zukünftig auch nicht geben. Erste serienreife ExpressCard-Devices wird es laut PCMCIA in der zweiten Jahreshälfte 2004 im Fachhandel zu kaufen geben. Dann soll auch bereits eine breite Infrastruktur von Systemen mit PCI-Express-Chipsätzen existieren, die ExpressCard-Komponenten direkt unterstützen. Sicherlich wird es ExpressCard in der Anfangsphase schwer haben, sich gegen die etablierte PC-Card-Busarchitektur und die vorhandene Basis von Steckkarten durchzusetzen. Allerdings sprechen die Vorteile für sich und sollten ExpressCard die herkömmliche Technologie schnell ablösen lassen. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact ExpressCard löst PC-Card ab a1275 S.92 PCI Express für Grafikkarten a1182 S.29 PCI Express: Der Highspeed-Datenbus im Detail p1003 – USB 2.0: Highspeed mit 480 Mbit/s a558 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 96 www.tecChannel.de Akku-Technologien 2.6 Akku-Technologien Die Laufzeit mobiler IT-Geräte und USVs ist das größte Manko, da Akkus die benötigte Energie liefern. Dieser Artikel beschreibt die aktuellen und künftigen Akku-Technologien und erklärt deren Vor- und Nachteile im Betrieb. Die mobilen Helfer wie Notebooks, PDAs oder Mobiltelefone sind wahre Multitalente und erfreuen sich heute zunehmender Beliebtheit – wie die Umsatzentwicklungen im Notebook- und Telekommunikations-Bereich zeigen. Nachteile der tragbaren elektronischen Geräte sind die begrenzte Einsatzdauer und oft das hohe Gewicht. Die Schuldigen sind in der Regel die sparsam bemessenen Energieversorger – die Akkumulatoren. So kann zum Beispiel das Gewicht eines Lithium-Ionen-Akkus 40 Prozent des Gesamtgewichts eines Handys (Nokia 6210) ausmachen. Bei Notebooks (Dell Latitude D800) liegt der Wert bei etwa 15 Prozent. Je nach Akku-Typ variieren die Laufzeiten der Geräte von sechs Tagen bei Handys bis zu vier Stunden bei Notebooks. Die Akkus erzeugen in einem chemischen Prozess elektrische Energie. Durch das begrenzte Volumen der Energiezellen und das eingesetzte chemische Verfahren ist die Leistung der mobilen Stromquellen beschränkt. In der Praxis bedeutet dies, dass die Akkus über eine endliche Zeit nur einen bestimmten Strom liefern können und somit die Laufzeit von mobilen Geräten bestimmen. Daher sollten die Energiespender für den mobilen Einsatz folgende Kriterien erfüllen: • lange Laufzeit ohne ständiges Nachladen • geringes Gewicht • minimales Volumen • schnelle Auflademöglichkeit • hohe Lebensdauer (Ladezyklen) • geringer Preis • unproblematische Entsorgung In diesem Artikel erklären wir detailliert die aktuellen Akku-Technologien BleiSäure, Nickel-Cadmium, Nickel-Metallhydrid und Lithium-Ionen/Polymer. Außerdem geben wir einen Ausblick auf die neuen Hoffnungsträger als Energielieferanten im mobilen Umfeld: die Brennstoffzelle und den Zink-Luft-Akku. 2.6.1 Funktionsweise eines Akkumulators Akkus, auch Sekundärelemente genannt, zählen zu den elektrochemischen Energiewandlern. Sie können chemisch gespeicherte Energie in elektrische Energie umwandeln – und umgekehrt. Letzteres können herkömmliche Batterien (Primärelemente) nicht. Sie müssen nach dem Gebrauch beziehungsweise der Entladung einer umweltverträglichen Entsorgung zugeführt werden. webcode: a1191 97 Mobile Ein Akku funktioniert wie folgt: In einem Behälter befindet sich eine elektrisch leitende Flüssigkeit (Elektrolyt). Darin sind zwei unterschiedliche leitfähige Metalle (Elektroden) eingetaucht. Sie erzeugen durch die verschiedenen chemischen Zusammensetzungen untereinander eine Spannung. Diese Eigenschaft von Metallen entdeckte Alessandro Volta im Jahre 1793 und definierte sie in der „Voltaschen Spannungsreihe“. Sie besagt: Je weiter zwei bestimmte Metalle in der Spannungsreihe auseinander liegen, desto höher ist die elektrische Spannung zwischen diesen beiden Elementen. Elektronen-Strom Ionen-Strom + Ionen-Strom - Kathode (-) (Nickel) poröse Trennwand (Separator) Anode (+) (Cadmium) + + Elektrolyt Elektrolyt Funktionsprinzip einer Akku-Zelle: Durch einen elektrochemischen Prozess entsteht ein Spannungspotenzial zwischen Anode und Kathode. © tecCHANNEL Im Elektrolyt trennt eine poröse Wand (Separator) die beiden Metallelektroden (Anode und Kathode), um einen Kurzschluss durch Berührung zu vermeiden. An der Anode herrscht Elektronenüberfluss und an der Kathode Elektronenmangel. Diese Elektronendifferenz definiert die elektrische Spannung. Ein Verbraucher zwischen den Elektroden ermöglicht den Elektronen, die Spannung abzubauen. Den Elektronenfluss von der Anode zur Kathode bezeichnet man als elektrischen Strom. Die Strommenge, die ein Akkumulator über ein Zeitintervall an einen Verbraucher abgeben kann, heißt Kapazität. Für einen ständigen Elektronenfluss muss der Stromkreislauf auch im Elektrolyt geschlossen sein. Das übernimmt der elektrochemische Prozess im flüssigen Elektrolyt durch Oxidation und Reduktion der entsprechend verwendeten Metalle. Es entsteht ein Ionen-Strom, der im Elektrolyt von der Kathode durch den Separator zur Anode fließt. Wird der Stromkreislauf unterbrochen, stoppt der Prozess der „Entladung“ – allerdings nicht vollständig. Bedingt durch einen temperaturabhängigen Reaktionsprozess im inneren des Akkus wandern Ladungen zwischen den Elektroden und entladen das chemische System. Man spricht dabei von so genannter Selbstentladung. Je nach Akku-Typ beträgt sie bis zu 30 Prozent der gespeicherten elektrischen Kapazität pro Monat. 98 www.tecChannel.de Akku-Technologien Um einen Akku aufzuladen, pumpt ein Ladegerät Elektronen von der Kathode zur Anode und reaktiviert die entladenen Elektroden. Der Lade- und Entladevorgang lässt sich je nach Akku-Typ bis zu 1000 Mal wiederholen. Dann ist die Akku-Zelle nicht mehr in der Lage, die elektrische in chemische Energie umzuwandeln. 2.6.2 Historie der Akku-Technologie Die Geschichte der Akku-Technologie begann mit Luigi Galvani (1737-1798) und Alessandro Cont di Volta (1745-1827) und der Erforschung der Elektrizität. So entdeckte Galvani 1789, dass Froschbeine zucken, wenn man sie mit zwei unterschiedlichen Metallen berührt. Daraus entwickelte er einen direkten Zusammenhang zwischen Elektrizität und Muskelbewegung und entdeckte damit die ersten elektrochemischen Prozesse. Etwa zehn Jahre später konstruierte Volta die erste brauchbare elektrochemische Spannungsquelle (Batterie). Dazu verwendete er Kupfer- und Zinkstreifen, die durch eine in Salzlösung getränkte Pappe getrennt waren. Historisch belegt: Die „Rittersche Säule“ gilt heute als Urform des modernen Akkumulators. Sie bestand aus Karton- und Kupferscheiben, die in eine Salzlösung getaucht waren. (Quelle: Varta) Die Urform des Akkumulators baute 1802 Johann Wilhelm Ritter. Der unter dem Namen „Rittersche Säule“ bekannte Versuchsaufbau konnte mit elektrischem Strom geladen werden und gab diesen bei der Entladung wieder ab. Die Säule bestand aus Karton- und Kupferscheiben, die in einem Gefäß mit einer Salzlösung lagen. Um 1850 experimentierten die Wissenschaftler Sinsteden und Plante mit den ersten Akkumulatoren auf der Basis von Blei, Schwefeldioxid und Bleidioxid. Die verwendeten Bleiplatten konnten durch mehrmaliges Auf- und Entladen webcode: a1191 99 Mobile – das so genannte Formatieren – elektrische Energie speichern und an einen Verbraucher abgeben. Die erste industrielle Nutzung von Bleiakkus läutete Faure 1880 mit einem Patent ein. Er bestrich eine Bleiplatte mit einer Paste aus Schwefelsäure und Bleipulver und erreichte nach dem ersten Aufladen bereits eine sehr hohe Kapazität (Energieleistung). Als Pioniere der Nickel-Cadmium-Akkus gelten die beiden Erfinder Thomas Alva Edison und Waldemar Jungner. Sie forschten auf dem Gebiet der elektrochemischen Energiespeicher und meldeten 1901 die ersten Patente für Nickel-Eisenund Nickel-Cadmium-Akkumulatoren an. Sie gelten auch als Urväter der ZinkLuft-Akku-Technologie. Der entscheidende Schritt zur kommerziellen Nutzung von NiCd-Akkus gelang aber erst Neumann im Jahr 1948 mit der Beschreibung einer gasdichten Gehäuseform für diese Akku-Technologie. Bedingt durch die hohen Umweltschutzauflagen ersetzten die Akku-Hersteller Anfang der 90er Jahre das hochgiftige Schwermetall des NiCd-Akkus durch einen metallisch gebundenen Wasserstoff. Damit begann der Siegeszug der Nickel-Metallhydrid-Akkus. Mit der steigenden Verbreitung mobiler IT-Geräte und dem damit verbundenen Wunsch nach leichten und leistungsstarken Akkumulatoren mit geringen Abmessungen entwickelte die Industrie Mitte der 90er Jahre den Lithium-Ionen-Akku. Mit der fortschreitenden Miniaturisierung der Geräte verlangten die Hersteller nach variablen Akku-Gehäuseformen der Li-Ion-Technologie. So entstand 1993 der Lithium-Polymer-Akku, der heute vorwiegend in Kleingeräten wie Handys oder PDAs zum Einsatz kommt. Große Hoffnung setzen die Akku-Entwickler auf die Brennstoffzelle als zukünftigen leistungsfähigen Energiespender. Bereits 1839 stellte der Physiker Sir Robert Grove die Weichen für diese Technologie. Er entwickelte den ersten funktionsfähigen Prototyp. Dieser bestand aus zwei Platin-Elektroden, die sich in separaten Glaszylindern befanden. Grove füllte einen Zylinder mit Sauerstoff und den anderen mit Wasserstoff und tauchte sie in eine verdünnte Schwefelsäure (Elektrolyt). Dieser Aufbau erzeugte eine messbare Spannung und gilt als Urform der Brennstoffzelle. Nach dieser Entdeckung geriet die Brennstoffzellen-Technologie lange Zeit in Vergessenheit. Erst 1950 entdeckten das Militär und die Raumfahrttechnik die kompakte und leistungsfähige Energiequelle wieder. Seit Beginn der 90er Jahre erforschen die Wissenschaftler auch die Nutzung der Brennstoffzellen-Technologie im industriell-kommerziellen Umfeld – mit guten Zukunftsaussichten. 2.6.3 Blei-Säure-Akku Die positive Elektrode eines herkömmlichen offenen Blei-Säure-Akkus besteht aus Bleidioxid (PbO2), als negatives Elektrodenmaterial kommen Bleiplatten zum Einsatz. Zwischen den Elektrodenplatten befindet sich ein Separator, der aus Glasfaser, Mikroglas oder PVC bestehen kann. Als Elektrolyt dient in einer Flüssigkeit gelöste Schwefelsäure. Mittlerweile ersetzen die Entwickler aus Effizienzgründen die Flüssigkeit durch eine gelartige Masse, die eine rasche Ausgasung 100 www.tecChannel.de Akku-Technologien des gebundenen Elektrolyts verhindert. Als Bauform kommt ein geschlossenes gasdichtes Gehäusesystem zum Einsatz. Dies schützt den Akku vor rascher „Austrocknung“ beziehungsweise Ausgasung und verlängert die Lebensdauer. Darüber hinaus vereinfacht der geschlossene Blei-Säure-Akku die Wartung und verhindert bei unsachgemäßer Behandlung beziehungsweise mechanischer oder elektrischer Überbeanspruchung das Auslaufen des Elektrolyts. Als Sicherheitsmechanismus dient ein Ventil, das bei einem kritischen Überdruck innerhalb des Akkus anspricht und das angestaute Gas entweichen lässt. Prinzipieller Aufbau eines Blei-Säure-Akkus von 1952: Der Blei-Säure-Akku ist bereits seit etwa 150 Jahren bekannt. Er gehört zu den ältesten elektrochemischen Energielieferanten und gehört auch heute noch zu den weltweit meistgenutzten Akkumulatoren. (Quelle: Bosch) Die Vorteile von Blei-Akkus sind die Hochstromfähigkeit und die äußerst niedrigen Herstellungskosten, da nur sehr preiswerte Grundmaterialien wie Blei und Schwefelsäure verwendet werden. Zusätzlich lassen sich die verwendeten Materialien einfach recyceln. Negative Eigenschaften, die die Nutzungsdauer des Akkus verkürzen, wie Memory-Effekt oder Lazy-Battery-Effekt, besitzt die Blei-SäureAkku-Technologie nicht. Demgegenüber steht die geringe spezifische Energie von 30 bis 50 Wh/kg. Zusätzlich schränkt das hohe Gewicht und das große Volumen des Akkus das Einsatzgebiet ein. Ein weiteres Manko ist die problematische Umweltverträglichkeit des Schwermetalls Blei. Verwendung findet der Blei-Akku vorwiegend in der Automobilindustrie und in der IT-Industrie als Energielieferant für Notstromversorgungen (USV). In diesen Einsatzgebieten besitzt der Blei-Säure-Akku – wie keine vergleichbare Akkuwebcode: a1191 101 Mobile Technologie – die Fähigkeit, in kurzer Zeit große Ströme zu liefern. Die Lebensdauer moderner gasdichter Bleiakkumulatoren beträgt bei sachgerechter Nutzung wie niedriger Luftfeuchtigkeit und spezifizierten Temperaturen zirka sechs Jahre. 2.6.4 Nickel-Cadmium-Akku Wie der Name suggeriert, besteht ein Nickel-Cadmium-Akkumulator aus der negativen Cadmium- und der positiven Nickel-Hydroxid-Elektrode. Als Elektrolyt kommt Kalium-Hydroxid zum Einsatz. Die Renaissance erlebte der NiCd-Akku mit dem Beginn der Entwicklung von mobilen PCs. Vor allem die ersten Notebooks profitierten von den Vorteilen der Akku-Technologie. Sie liefert kurzfristig hohe Energiemengen für die stromhungrigen Komponenten wie CPU, Display oder Festplatte. Zusätzlich verfügt der Akku über eine lange Lebensdauer. Ein weiterer positiver Aspekt sind die geringen Herstellungskosten durch die Verwendung preisgünstiger Materialien wie Nickel und Cadmium. Aufbau einer NiCd-Akku-Rundzelle: Bedingt durch das hochgiftige Cadmium müssen die Akkus absolut gasdicht aufgebaut sein. Auf Grund der hohen Druckverhältnisse im Inneren des Akkus muss eine runde Zellenform verwendet werden. (Quelle: Varta) Auf der Negativseite der NiCd-Akkus steht die geringe spezifische Energie mit 40 bis 60 Wh/kg im Vergleich zu aktuellen Akkus wie NiMH oder Lithium-Ion mit doppelt und dreifach so hohen Werten. Zusätzlich muss man bei der Verwendung der NiCd-Technologie den so genannten Memory-Effekt beachten. 102 www.tecChannel.de Akku-Technologien Ein Umweltproblem stellt das verwendete Elektrodenmaterial Cadmium dar. Es gehört zu den hochgiftigen Schwermetallen, so dass eine gasdichte Gehäuseform und gesonderte Entsorgung der Zellen am Ende des Lebenszyklus gewährleistet sein muss. Durch die sehr hohe Belastbarkeit der NiCd-Akkus kommen sie heute vorwiegend in Geräten mit hohem Strombedarf zum Einsatz. Dazu zählen in erster Linie Akku-Werkzeuge. Aber auch in schnurlosen Telefonen und Camcordern werden sie auf Grund der geringen Herstellungskosten gerne eingesetzt. 2.6.5 Der Memory-Effekt Ein typisches negatives Merkmal von Nickel-Cadmium-Akkus ist der so genannte „Memory-Effekt“. Diese Eigenschaft hängt mit dem verwendeten Cadmium an der negativen Elektrode zusammen, denn das Material neigt unter bestimmten Bedingungen zur Kristallbildung. Spannung (U) Dieses Phänomen tritt auf, wenn der Akku vor der vollständigen Entladung wieder aufgeladen wird. Als Folge der Auskristallisierung verringert sich die Kapazität des Akkus und liefert weniger Spannung an der entsprechenden Stelle der Entlade-Kennlinie (Memory-Effekt). Der Akku kann dann ein Gerät nicht mehr über die gesamte Zeitspanne seiner Betriebsdauer mit genügend hoher Spannung versorgen, denn das Gerät schaltet beim Erreichen der Geräteabschaltspannung vorzeitig ab (siehe Bild unten zum Memory-Effekt). Auch zu geringe Ladeströme jenseits der Spezifikationen führen zum unerwünschten Memory-Effekt. Beginn des Memory-Effekts Minimale Spannung für den Gerätebetrieb (Geräte-Abschaltspannung) Entladespannung ohne Memory-Effekt Verlorene Zeitspanne für den Gerätebetrieb Entladezeit (t) © tecCHANNEL Unerwünscht: Ein falsches Handling beim Laden und Entladen von NiCd-Akkus fördert den so genannten Memory-Effekt. Er verkürzt durch vorzeitiges Erreichen der Abschaltspannung die Betriebsdauer des Geräts entscheidend. webcode: a1191 103 Mobile Diese negative Eigenschaft der NiCd-Zellen ist reversibel. Durch ein mehrmaliges definiertes Entladen mit einem geringen Strom bis zur vorgeschriebenen Entladespannung und anschließendem Laden lässt sich der Memory-Effekt beseitigen. Dabei sind spezielle Akku-Ladegeräte mit so genannter Refreshing-Funktion hilfreich. Diese prozessorgesteuerten Akku-Lader können den aktuellen Ladezustand eines Akkus ermitteln und ein entsprechendes Ladeprogramm – auch für vorgeschädigte Akkus – mit den notwendigen Parametern starten. Nach dieser Prozedur erreicht der NiCd-Akku wieder seine volle Nennkapazität. 2.6.6 Nickel-Metallhydrid-Akku Mit der zunehmenden Anforderung von mobilen Geräten an Akkus, hohe und konstante Ströme über einen langen Zeitraum zu liefern, entwickelten die Ingenieure den Nickel-Metallhydrid-Akku. Seine Elektroden sind von einem alkalischen Elektrolyt umgeben. Der Pluspol der Energiezelle enthält Nickel-Hydroxid, und der Minuspol besteht aus einer Metalllegierung, die Wasserstoff binden kann. Der Aufbau gasdichter NiMH-Akkus entspricht prinzipiell dem von NiCd-Zellen. Aufbau einer NiMH-Akku-Rundzelle: Anders als die NiCd-Zelle enthält der NiMH-Akku kein hochgiftiges Schwermetall. Grundsätzlich unterscheiden sich die beiden Technologien im mechanischen Aufbau kaum. (Quelle: Varta) Durch seine Materialzusammensetzung liefert der NiMH-Akku bei identischem Volumen und gleichem Gewicht wie ein NiCd-Akku eine höhere spezifische Energie. Sie beträgt 60 bis 80 Wh/kg. Allerdings verzichtete man auf die Verwendung von giftigen Schwermetallen, so dass die Entsorgung der Akkus weniger 104 www.tecChannel.de Akku-Technologien problematisch ist als bei NiCd-Akkus. Ein gravierender Nachteil der NiMH-Technologie besteht im kapazitätsmindernden Lazy-Battery-Effekt – ähnlich dem Memory-Effekt bei NiCd-Zellen. Auf Grund der guten Umweltverträglichkeit und einer sehr hohen Kapazität umfasst das Einsatzgebiet des NiMH-Akkus vorwiegend Handys, Camcorder, Notebooks und Audio-Geräte. 2.6.7 Der Lazy-Battery-Effekt Spannung (U) Der reversible Lazy-Battery-Effekt ist prinzipiell mit dem Memory-Effekt vergleichbar. Er entsteht durch eine nicht vollständige Entladung des Akkus während des Betriebs beziehungsweise durch eine Dauerladung mit einem zu geringen, nicht spezifikationskonformen Strom. Ähnlich wie beim Memory-Effekt bilden sich Kristalle an der positiven Nickelhydroxid-Elektrode aus. Allerdings bricht die Spannung beim Lazy-Battery-Effekt nicht erst an der Stelle der Teilentladung ein, sondern sie fällt über die gesamte Entladezeit geringfügig ab. Lazy-Battery-Effekt Entladespannung ohne Lazy-Battery-Effekt Minimale Spannung für den Gerätebetrieb (Geräte-Abschaltspannung) Verlorene Zeitspanne für den Gerätebetrieb Entladezeit (t) © tecCHANNEL Lazy-Battery-Effekt: Bei unsachgemäßer Akku-Pflege vermindert sich die elektrische Kapazität des NiMH-Akkus über die gesamte Entladezeit. Der Lazy-Battery-Effekt wirkt sich weit weniger dramatisch aus als der MemoryEffekt. Die Akku-Spannung liegt beim Entladen zwar unter der Normspannung, das verkürzt die Betriebsdauer jedoch nur geringfügig. Um diese negative Eigenschaft zu beseitigen, muss der Akku zwei bis drei Mal hintereinander vollständig entladen werden. Wie schon beim Memory-Effekt kann hier ein modernes Ladegerät mit entsprechenden Lade- und Entladefunktionen helfen, die ursprüngliche Leistungsfähigkeit des Akkus wiederherzustellen. webcode: a1191 105 Mobile 2.6.8 Lithium-Ion-Akku Der Lithium-Ionen-Akku ist die jüngste Evolution in der Akku-Technologie. Er hat mit 90 bis 110 Wh/kg die höchste spezifische Energie unter den wiederaufladbaren Systemen. Ein zusätzliches Plus besteht in der geringen Selbstentladung und somit der langen Lagerfähigkeit ohne erneutes Aufladen der Zellen. Ein besonderer Vorteil der Lithium-Ionen-Technologie ist, dass weder Memory-Effekt noch Lazy-Battery-Effekt auftreten. Auch liefert die Lithium-Ionen-Zelle über den gesamten Entladezeitraum eine nahezu konstante Ausgangsspannung, die deutlich über der Nennspannung von zirka 3,6 V liegt. Lithium-Ionen-Akku: Die Lithium-Ionen-Technologie besitzt im Vergleich zu den herkömmlichen Akkus wie NiCd oder NiMH die höchste spezifische Energie. (Quelle: Varta) Anders als NiCd- oder NiMH-Akkus verfügt ein Li-Ion-Energiespeicher über eine Systemspannung von typisch 3,6 V statt 1,2 V. Grund dafür ist der Aufbau. So enthält der Li-Ion-Akku als Material für die Kathodenelektrode eine Lithiumverbindung, die aus Cobalt-, Mangan- oder Nickel-Oxid bestehen kann. Die Anode setzt sich aus einer Graphitverbindung zusammen. Als Isolierung zwischen den Elektroden dient eine mikrodurchlässige Kunststoffmembran. Das Elektrolyt besteht aus einer organischen Flüssigkeit mit einem gelösten Lithium-Salz. 106 www.tecChannel.de Akku-Technologien © tecCHANNEL Entladekurve eines Lithium-Ionen-Akkus: Die Spannung während des Entladevorgangs liegt nahezu über die gesamte Zeitspanne über der Nennspannung von 3,6 V. Negative Phänomene wie der Memory- oder Lazy-Battery-Effekt treten nicht auf. Lithium ist ein hoch reaktives Leichtmetall, so dass bei starker Erwärmung das leicht entzündliche Material explodieren kann. Aus diesem Grund verwenden die heutigen Akkus – wie oben beschrieben – ein organisches Elektrolyt. Trotzdem besitzt jeder moderne Lithium-Ionen-Akku aus Sicherheitsgründen ein Ventil zum Druckabbau und ein besonders druckfestes Gehäuse. Zusätzlich muss jeder Lithium-Akku mit einer speziellen angepassten Ladeelektronik ausgestattet sein. Sie verhindert einen zu hohen Stromfluss vom und zum Akku, regelt das Ladeund Entladeverhalten und schützt die Energiezelle vor Überhitzung. Alle diese Sicherheitsmaßnahmen schlagen sich im Preis nieder. So ist eine aufladbare Lithium-Ionen-Batterie gegenüber einem NiMH-Akku um zirka 30 Prozent teurer. In Bezug auf Gewicht und Volumen hat die Lithium-Ionen-Technologie das höchste Energiespeichervermögen gegenüber den herkömmlichen Akkus wie NiCd und NiMH. Allerdings erreichen die Lithium-basierenden Akku-Zellen nicht die Kapazität. Die bevorzugten Einsatzgebiete für Lithium-Ionen-Akkus sind mobile Geräte wie Handys, digitale Kameras und Notebooks. 2.6.9 Lithium-Polymer-Akku Die Lithium-Polymer-Akkus haben prinzipiell den gleichen Aufbau wie LithiumIonen-Zellen – mit einem Unterschied: Sie enthalten keine wässrigen Elektrolyte und sind daher auslaufsicher. Den flüssigen Reaktionsstoff in der Akuzelle ersetz- webcode: a1191 107 Mobile ten die Entwickler durch ein festes beziehungsweise gelartiges Polymerelektrolyt. Trotz der veränderten Zusammensetzung verfügt der Lithium-Polymer-Akku über die gleiche spezifische Energie wie das Lithium-Ionen-Pendant. Lithium-Polymer-Akku: Durch das feste Polymer-Elektrolyt lassen sich die Abmessungen des Akkus (Gehäuseformen) frei variieren. (Quelle: Varta) Die klassischen Gehäuseformen wie zylindrische oder rechteckige Metallgefäße sind mit der Einführung der Lithium-Polymer-Technologie passé. So kann man jetzt durch entsprechende Aluminium- oder metallisierte Kunststofffolien nahezu alle Formen von Lithium-Polymer-Akkus realisieren. Komplizierte Hohlräume von Geräten lassen sich auf diese Weise mit einem Li-Polymer-Akku mit wenig mechanischem Aufwand ausfüllen. 2.6.10 Zink-Luft-Akku Die Entwicklung von Zink-Luft-Akkus steckt noch in den Kinderschuhen, ist aber keinesfalls neu. Der grundlegende Aufbau eines Zink-Luft-Akkus setzt sich aus einer negativen Zink-Elektrode und einer positiven Aktivkohle-Elektrode zusammen. Die negative Elektrode besteht aus einem mechanisch gepressten Zinkschwamm oder -pulver. Mit ihrer großen Oberfläche gewährleistet sie eine optimale chemische Reaktion durch leichtes Freisetzen von Elektronen. Als aktives Reaktionsmittel des Pluspols fungiert der Luftsauerstoff. Deshalb verwendet man als Elektrodenmaterial speziellen Kohlenstoff (Aktivkohle in Form von Sauer- 108 www.tecChannel.de Akku-Technologien stoffmembranen), der den Luftsauerstoff absorbiert und dem Reaktionsprozess zuführt. Je nach Einsatzgebiet und Bauform des Akkus setzt der Hersteller eine flüssige oder pastöse Kalilauge als Elektrolyt ein. Alle benutzten Komponenten sind frei von umweltbedenklichen Giften und lassen sich leicht recyceln. Die Zink-Luft-Technologie wird daher als umweltfreundlich eingestuft. Darüber hinaus sind die eingesetzten Materialien preiswert. Aufbau einer ZinkLuft-Akku-Zelle: Zink, Kalilauge und Luftsauerstoff sind die drei Grundstoffe, die als Energieerzeuger dienen. (Quelle: Zoxy) Der Nachteil des Zink-Luft-Akkus besteht darin, dass er ein offenes chemisches System bildet. Denn beim Entladen muss Außenluft an die Reaktionsfläche gelangen, und beim Laden muss der freigesetzte Sauerstoff entweichen. In luftdichter Umgebung ist der Akku daher nicht einsetzbar. Ein Vorteil des Akkus ist dagegen seine geringe Selbstentladung im versiegelten (luftdichten) Zustand. Lagerhaltungen ohne Elektrolyt sind sogar bis zu zehn Jahren möglich. Ein weiterer Pluspunkt für die Zink-Luft-Technologie ist die hohe elektrische Kapazität. Sie beträgt bis zum Dreifachen eines vergleichbaren Lithium-Ionen-Akkus. Außerdem braucht man keine negativen Eigenschaften wie Memory- oder Lazy-Battery-Effekt bei der Nutzung der Akkus zu beachten. Zink-Luft-Technologie wird wegen der hohen spezifischen Energie von bis zu 350 Wh/kg vorwiegend als Batteriezelle in Hör- und Personenrufgeräten genutzt. Als wiederaufladbare Akku-Zelle wird sie für stationäre Energiespeichersysteme, webcode: a1191 109 Mobile wie unterbrechungsfreie Stromversorgungen (USV), verwendet. Erste Prototypen für den mobilen Einsatz, wie in Notebooks, sind noch in der Entwicklungsphase. Wann es serienreife Produkte geben wird, steht derzeit nicht fest. 2.6.11 Kenndaten aktueller Akku-Technologien In der folgenden Übersicht vergleichen wir die im Artikel beschriebenen AkkuTechnologien. Es werden nicht nur die typischen elektrischen Kenngrößen der Akku-Zellen (vergleichbar mit Mignon-Zelle, Format AA) aufgelistet, sondern auch die Vor- und Nachteile der entsprechenden Technologie erwähnt. Aktuelle Akku-Technologien im Vergleich Typ Li-Ion / Polymer NiCd NiMH Pb Zn-Luft Zellen-Spannung (V) 3,6-3,7 1,2 1,2 2,0 1,4 Kapazität (mAh) kleiner 1000 1000 2000 größer 1000 k. A. Spezifische Energie (Wh/ kg) 90-110 40-60 60-80 30-50 200-350 Energiedichte (Wh/l) 250-350 80-200 200-300 60-100 bis 500 Entladeschluss (V) 2,5 0 0,8 1,7 k. A. Ladeschluss (V) 4,1-4,2 nicht definiert nicht definiert 2,4 k. A. Ladezyklen/ Lebensdauer 500-800 500-800 300-500 200-300 k. A. Verlauf der Entladespannung bei Belastung nahezu waagerecht fallend gering fallend stark fallend k. A. Selbstentladung (pro Monat) gering, 10 Prozent mittel, 20 Prozent hoch, 30 Prozent gering, kleiner 10 Prozent k. A. 110 www.tecChannel.de Akku-Technologien Entladerate / Belastbarkeit (x-fache der Nennkapazität) 3 20 10 10 hoch Schnellladung (Min) 120 10 30 k. A. k. A. Material der Minus-Elektrode LiC6 Cd MH Pb Zn Material der Plus-Elektrode LiCoO2 NiOOH NiOOH PbO2 C (O2) Empfohlener Ladezustand bei langer Lagerung geladen (voll) entladen geladen geladen entladen (deaktiviert) Mechanische Belastbarkeit sehr gering sehr hoch mittel hoch k. A. Preis sehr teuer günstig teuer sehr günstig k. A. Bei den Angaben handelt es sich um Zirka-Werte. 2.6.12 Lagerung und Pflege von Akkus Auch wenn ein Akku im geladenen Zustand längere Zeit unbenutzt bleibt, der chemische Prozess innerhalb einer Akku-Zelle bleibt weiterhin aktiv und beeinflusst die Eigenschaften der Zelle negativ. Diese so genannte Selbstentladung bewirkt, dass innerhalb weniger Wochen beziehungsweise Monate eine „volle“ Akku-Zelle einen Teil ihrer elektrischen Kapazität verliert. Zusätzlich beschleunigen hohe Temperaturen den unerwünschten Ladungsverlust eines Akkus. Um der Selbstentladung entgegenzuwirken, sollte der Akku trocken und bei kühler Umgebungstemperatur lagern. Darüber hinaus verhindert ein Nachladen des Akkus in bestimmten Zeitintervallen eine Tiefenentladung und verlängert somit deutlich die Lebensdauer des Energiespenders. Positiv auf die Brauchbarkeit und Kapazität von Akkus wirkt sich ein effektiver Aufladeprozess aus. Hierbei hilft die moderne Elektronik in entsprechenden Ladegeräten. Ein prozessorgesteuertes Ladegerät kann zum Beispiel unterschiedliche physikalische Eigenschaften einer Akku-Zelle (Strom, Spannung, Temperatur) während des Ladeprozesses sammeln und mit den spezifischen gespeicherten Parametern beziehungsweise Kennlinien vergleichen. Damit ist gewährleistet, dass die Energiezelle stets mit der optimalen Spannung beziehungsweise optimalem Strom aufgeladen wird. Darüber hinaus erkennt eine intelligente prozessorgewebcode: a1191 111 Mobile steuerte Ladeelektronik das Ladeende des Akkus. Sie kann anschließend in den Modus der Erhaltungsladung übergehen und den Akku einsatzbereit halten. In diesem Zustand wird die Zelle in bestimmten Zeitintervallen kurz nachgeladen. Weitere Vorteile von professionellen Ladegeräten sind Regenerierungs-, Konditionierungs- und Pflegeprogramme für den jeweiligen Akku-Typen. Sie bestehen aus speziellen Lade- und Entladezyklen mit abgestimmten elektrischen Parametern für den Akkumulator. Damit helfen die Programme des Ladegeräts, die Lebensdauer einer Sekundärzelle entscheidend zu verlängern. Außerdem erhalten sie seine Nennkapazität – das ist die Fähigkeit eines neuen Akkus, eine bestimmte Menge an elektrischer Energie chemisch zu speichern. 2.6.13 Die Brennstoffzelle Im Bereich mobiler Energieversorgung besitzt die Brennstoffzellen-Technologie gegenüber den klassischen Verfahren wie NiCd, NiMH und Lithium-Ion das größte Zukunftspotenzial. Die Brennstoffzelle kehrt das herkömmliche Verfahren der Elektrolyse, das unter Zuführung von elektrischer Energie Wasser in die Gase Sauerstoff und Wasserstoff aufspaltet, um. Der so gewonnene Wasserstoff dient als Energieträger bei Verbrennungsprozessen (Knallgaseffekt). Elektronen-Strom Anode (+) Kathode (-) Energie Wasserstoff Die Elektrolyse: Unter Zuführung von Energie wird das Elektrolyt (wässrige Salzlösung) in Wasserstoff und Sauerstoff aufgespalten. Sauerstoff Elektrolyt Ionen-Strom Prinzip der Elektrolyse © tecCHANNEL Der prinzipielle Funktionsprozess der Brennstoffzelle verwendet Luftsauerstoff und Wasserstoff als Energielieferant. In einem chemischen Verfahren – der so genannten „kalten Verbrennung“ – wandelt sie die beiden Elemente in elektrische Energie um. Als Abfallprodukt entstehen Wärme und Wasser. Diese Methode erzeugt doppelt so viel Energie wie das klassische Verbrennungsverfahren. 112 www.tecChannel.de Akku-Technologien Die Brennstoffzelle: Die Brennstoffzelle erzeugt in einer so genannten „kalten Verbrennung“ von Luft und Wasserstoff elektrische Energie und Wärme. Anode (+) Kathode (-) Elektrolyt Wasserstoff Energie Luft Wärme Wasser © tecCHANNEL Die Brennstoffzelle ist in ihrer Struktur einfach aufgebaut. Die wichtigste Komponente einer Brennstoffzelle ist eine semipermeable elektrolytische Membran auf Polymerbasis. Sie verhindert, dass die beiden Reaktionsstoffe Wasserstoff und Luftsauerstoff sich zu Wasser verbinden, da sie nur Kerne der Wasserstoffatome (Protonen) passieren lässt. Die Elektroden der Anode und Kathode dienen als Katalysator für den Wasserstoff beziehungsweise Luftsauerstoff. Der Prozess der „kalten Verbrennung“ läuft wie folgt ab: In der Kathode der Brennstoffzelle befindet sich der Sauerstoff und in der Anode der Wasserstoff. Die elektrolytische Membran trennt den Wasserstoff in Elektronen und Ionen (geladene Atomkerne) auf. Die Wasserstoff-Ionen wandern durch die Membran und wollen mit dem Sauerstoff zu Wasser oxidieren. Dazu fehlen aber die auf der Wasserstoffseite befindlichen Elektronen, die durch die isolierende Membran von der Sauerstoffseite getrennt sind. Verbindet man nun die Kathode und die Anode einer Brennstoffzelle, so kann ein nutzbarer elektrischer Strom fließen, der die Elektronendifferenz ausgleicht. Der elektrochemische Prozess in der Energiezelle läuft so lange, bis sie einen der Reaktionsstoffe aufgebraucht hat. Vorteile der Brennstoffzellen-Technologie sind ein hoher Wirkungsgrad und eine hohe Energiedichte gegenüber den aktuellen Akku-Systemen. Ein Nachteil ist der geringe Strom, den die Brennstoffzelle liefert. So benötigen derzeitige Prototypen von Brennstoffzellen in mobilen Geräten immer noch Energiepuffer in Form von Akkus, um kurzzeitig hohe Ströme an das elektrische System zu liefern. In diesem Aufbau besteht die wesentliche Aufgabe der Brennstoffzelle lediglich im stetigen Nachladen der Akku-Zellen. Funktionsfähige Prototypen von Brennstoffzellen für Notebooks haben Firmen wie Motorola, NEC und Toshiba bereits in den Jahren 2000 bis 2003 vorgestellt. Allerdings wollen die Hersteller die ersten kommerziell nutzbaren Zellen erst Ende 2004 auf den Markt bringen. webcode: a1191 113 Mobile 2.6.14 Fazit Die herkömmlichen Akku-Technologien wie NiCd und NiMH sind technologisch nahezu ausgereizt. NiCd-Akkus spielen durch die problematischen Materialien und die geringe spezifische Energie im mobilen Umfeld keine Rolle mehr. Lediglich wo sehr hohe Stromstärken gefordert werden, kann der NiCd-Akku seinen Vorteil eines hohen Entladestroms (20fache Nennkapazität) ausspielen. Die NiMH-Akkus gehören heute zu den gängigsten wiederaufladbaren Energielieferanten. Sie verfügen über eine hohe spezifische Energie und Kapazität sowie Belastbarkeit. Zusätzlich sind sie weniger schädlich als die NiCd-Zellen, da das hochgiftige Cadmium durch Metallhydrid ersetzt wurde. Zu den Nachteilen zählen die geringe Lebensdauer (Ladezyklen) und die hohe Selbstentladung. Ein hohes Entwicklungspotenzial für den mobilen Einsatz besitzt zurzeit die Lithium-Ionen- beziehungsweise die Lithium-Polymer-Technologie. Sie bietet eine hohe spezifische Energie, geringe Selbstentladung und keine negativen Eigenschaften wie den Memory- oder Lazy-Battery-Effekt. Zudem ist der Lithium-Polymer-Akku durch die variablen Abmessungen universell einsetzbar. Diese Vorteile bezahlen die Anwender jedoch mit einem hohen Preis bei der Anschaffung. Als künftige Energieversorger für mobile Geräte kommen die Brennstoffzelle und die Zink-Luft-Akku-Technologie in Frage. Sie befinden sich noch in der Entwicklungsphase, die ersten Ergebnisse von Prototypen sind aber vielversprechend. Der Blei-Säure-Akku zählt zu den ältesten und weltweit meistgenutzten Energielieferanten. Als Notstromreserve in USVs oder Starterbatterien bietet diese Technologie ein konkurrenzloses Preis-Leistungs-Verhältnis, da als Grundstoff das preiswerte und in großen Mengen verfügbare Schwermetall Blei dient. Zusätzlich ist der Blei-Säure-Akku durch moderne Herstellungsverfahren in der Handhabung unproblematisch. Auf der Negativseite stehen die sehr geringe Energiedichte gegenüber anderen Akku-Technologien und das giftige Schwermetall Blei. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact Akku-Technologien a1191 S.97 Notebook-Laufzeit optimieren a1195 S.115 Test: Centrino-Notebooks mit 15-Zoll-Displays a1201 – Test: Pentium M für Notebooks a1142 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 114 www.tecChannel.de Notebook-Laufzeit optimieren 2.7 Notebook-Laufzeit optimieren Bei Notebooks entscheidet in erster Linie die Kapazität des Akkus über die stromnetzunabhängige Laufzeit. Zusätzlich hängt sie von den verwendeten Komponenten und deren effektivem Powermanagement ab. Im normalen Arbeitsbetrieb gehört der LCD-Bildschirm eines Notebooks zu den Topverbrauchern – er benötigt über 30 Prozent der Akku-Gesamtleistung. Erst dann folgen mit zirka 10 Prozent der Prozessor und der Chipsatz. Bei rechenintensiven Anwendungen verschieben sich die Anteile zu Ungunsten des Prozessors. Die Hersteller mobiler Geräte versuchen ständig, die Einsatzdauer im Akku-Betrieb durch verschiedene Maßnahmen zu erhöhen. So entwickelt die Industrie Mobile-Prozessoren mit speziellen Energiesparmechanismen. Auch die LCDDisplays von Notebooks unterscheiden sich durch reduzierten Stromverbrauch von den netzabhängigen Desktop-Versionen. Darüber hinaus forschen die Hersteller auf dem Gebiet strommindernder Technologien wie zum Beispiel ALS oder USB Suspend. Doch auch der Anwender kann durch sein Nutzungsverhalten die Laufzeit seines mobilen Helfers beeinflussen. In diesem Artikel zeigen wir die wichtigsten Stromverbraucher in einem Notebook und deren Auswirkung auf die Akku-Laufdauer. Zusätzlich erläutern wir, wo und in welchem Umfang die Akku-Ressourcen bei der täglichen Arbeit mit dem Notebook geschont werden können. 2.7.1 Elektrische Leistungsverteilung in Notebooks Messungen der elektrischen Leistung von Notebooks sind sehr komplex. Denn die ermittelten Werte variieren je nach eingesetzter Hard- und Software stark. Zusätzlich können in der Praxis bestimmte Komponenten wie CPU oder Grafikkarte nicht einzeln, sondern nur in Verbindung mit anderen Bauteilen gemessen werden. Im mobilen Einsatz übernimmt der Akku die Stromversorgung der elektrischen Komponenten eines Notebooks. Seine gespeicherte Energie bestimmt die Betriebsdauer des Geräts wie folgt: Die Laufdauer eines Akkus in Stunden ergibt sich aus der Leistungskapazität des Akkus, gemessen in Watt-Stunden, dividiert durch die durchschnittliche Leistungsaufnahme des Geräts, ermittelt in Watt. Ein Blick auf die Verteilung der elektrischen Leistung eines Notebooks verdeutlicht, wo in punkto Leistungseinsparung noch Entwicklungspotenzial besteht. Ein Drittel der Akku-Kapazität beansprucht im „Normalbetrieb“ das Display. Erst dann folgen mit deutlichem Abstand die CPU und die Stromversorgung. Letztere ist eine rein thermische Verlustleistung der Spannungsregler. Denn die Regelelektronik muss aus einer hohen Akku-Spannung viele unterschiedliche kleine Spannungen für die einzelnen Notebook-Komponenten erzeugen. Diese Regelkreise webcode: a1195 115 Mobile haben einen bestimmten Wirkungsgrad, der sich wie folgt berechnet: Eingangsleistung dividiert durch Ausgangsleistung. Je höher der Wirkungsgrad (Effizienz), desto weniger „nutzlose“ thermische Leistung erzeugt ein elektrisches Gerät. Taktgenerator 5% Intel DVD LAN Lüfter 2% ICH 2% 2% 3% Festplatte 8% Display 33% Grafik 8% Sonstiges 8% Intel MCH 9% CPU 10% Stromversorgung 10% © tecCHANNEL Status quo: Das Diagramm zeigt, welche Komponenten in einem Notebook bei „normaler Nutzung“ prozentual wie viel elektrische Energie verbrauchen. (Quelle: Intel) Fazit: Durch eine geringere Akku-Spannung erhöht sich der elektrische Wirkungsgrad der internen Gerätestromversorgung, gleichzeitig sinken die hohen thermischen Verluste. Daraus resultiert eine längere Akku-Laufzeit. 90 % Effizienz (%) 80 % Vdc = 9V Vdc = 19.0V 70 % 60 % 50 % 40 % Thermische Verluste EBLAuswirkung 1 5 10 15 20 Strom (A) 25 30 © tecCHANNEL Effizienz-Verluste: Durch hohe Akku-Spannungen (Vdc) sinkt die Effizienz (Wirkungsgrad) der gesamten Stromversorgung im Notebook. (Quelle: Intel) 116 www.tecChannel.de Notebook-Laufzeit optimieren 2.7.2 Extended Battery Life Workgroup (EBL WG) Um die Akku-Laufzeit von mobilen Geräten zu verlängern, formierten sich im Oktober 2002 auf dem Intel Developer Forum in San Jose unter der Führung von Intel namhafte Hersteller wie Dell, Fujitsu, IBM, Microsoft, NEC, Samsung und Toshiba zu der Extended Battery Life Working Group (www.eblwg.org). Die Mitglieder beschlossen eine industrieweite Kooperation. Als Hauptziel setzte sich das EBL-Konsortium, die Leistungsaufnahme bestimmter Gerätekomponenten zu untersuchen und gegebenenfalls durch geeignete Technologien zu reduzieren. Die folgende Tabelle zeigt die mittlere Leistungsaufnahme verschiedener Funktionsgruppen in einem Standard-Notebook und die von der EBL Working Group erwartete Entwicklung im Jahr 2004. Mittlerer Leistungsverbrauch in einem Beispiel-Notebook Komponente Elektrische Leistungsaufnahme (W) 2003 Erwartete elektrische Leistungsaufnahme (W) 2004 LCD (14 Zoll) und Elektronik 4,20 3,20 CPU 1,00 0,80 Intel GMCH 1,00 1,10 Speicher 0,30 0,50 Intel ICH 0,60 0,75 Wireless-LAN 0,15 0,15 Sonstiges 1,20 1,20 Takt Generator 0,70 0,50 Lüfter 0,30 0,30 Festplatte 1,20 1,20 DVD /CD-RW 0,40 0,40 Verluste der Spannungsversorgung 1,11 0,89 Einsatz von EBLTechnologien (1) Gesamtleistung -1,00 12,16 9,99 Werte ermittelt mit Mobile Mark 2002 und den Optionen: Workload Avarage Power und Adaptive Mode. (Quelle: Intel) webcode: a1195 117 Mobile Nach dem Willen der EBL-Workgroup soll durch den Einsatz verschiedener EBLTechnologien der Gesamtverbrauch der elektrischen Leistung eines Notebooks um zusätzlich ein Watt reduziert werden. Die folgende Auflistung gibt detailliert wieder, wie viel Energie bestimmte Funktionsgruppen durch elektrische Optimierungen mittels entsprechender EBL-Techniken einsparen. Einfluss der EBL-Technologie auf die elektrische Leistung (1) EBL-Komponente Erwartete elektrische Leistungsreduzierung (W) Optimierung des LCD-Displays 0,2 Optimierung des DVD-Laufwerks 0,3 LCD-Helligkeitssteuerung (ALS) 0,2 Optimierung der I/O-Spannungsversorgung 0,2 Reduzierung der Akku-Versorgungsspannung 0,1 Gesamt 1,0 2.7.3 Energieverbraucher Nr.1 – das Display Eine kleine Revolution auf dem Gebiet der LCD-Displays gab es mit der Einführung der Low-Temperature-Poly-Silicon-TFTs (LTPS-TFT) Ende 2001. Im Vergleich zu herkömmlichen TFT-Displays basiert die neue LTPS-Technologie auf einem modifizierten Fertigungsprozess. Ein speziell entwickeltes Glassubstrat ermöglicht eine hohe Beweglichkeit der Elektronen im Material. Zusätzlich sind, bedingt durch die niedrig gehaltene Temperatur während des Fertigungsprozesses, die Treiberbausteine für die TFTMatrix direkt im Glassubstrat integriert. Die Poly-Silicon-Technologie zeichnet sich besonders durch hohe Auflösung und Helligkeit sowie eine um bis zu 40 Prozent geringere Stromaufnahme aus. Die folgenden Diagrammkurven zeigen deutlich, dass die Leistungsaufnahme der Hintergrundbeleuchtung inklusive Treiberbausteinen bei den aktuellen LCD-Displays nicht optimal aufeinander abgestimmt ist. Im typischen Bereich der Helligkeit eines Notebook-Displays bei 60 cd/m² erreicht das optisch-elektrische System eine Effizienz von lediglich 55 Prozent. Hier besteht für die Hersteller Handlungsbedarf, indem sie die Leistungsaufnahme der Matrixtreiber-ICs reduzieren und somit die Effizienz des gesamten Systems erhöhen. 118 www.tecChannel.de Notebook-Laufzeit optimieren 5.00 100% 4.50 Leistung (W) 80% 3.50 3.00 70% 2.50 60% 2.00 1.50 50% Treiber Lampe 1.00 Effizienz 40% 0.50 0.00 Effizienz (%) 90% 4.00 20 40 60 80 100 120 Helligkeit (cd/m2) 140 160 30% © tecCHANNEL Kleine Differenzen: Eine Leuchtstärke geringer als 60 cd/m² wirkt sich negativ auf die Effizienzbetrachtung der optischen Komponenten (Hintergrundbeleuchtung) und elektrischen Funktionsgruppen (Matrixtreiber) eines LCD-Panels aus. (Quelle: Intel) Ein weiterer Schritt, um den enormen Leistungshunger künftiger LCD-Displays zu zügeln, ist der Einsatz der so genannten Ambient Light Sensor Technology (ALS). Der Anwender kann mittels eines User-Interface die gewünschte Helligkeit eines Displays einstellen. Ein ALS-Treiber gibt die Anwenderinformationen an die ACPI-Schnittstelle weiter. Diese regelt über eine Elektronik die Helligkeit des LCD-Panels. Gleichzeitig erhält das ACPI-Interface von der Steuerelektronik eines Lichtsensors aktuelle Informationen über die Umgebungshelligkeit und passt die Hintergrundbeleuchtung entsprechend der vorgegebenen und ermittelten Daten (Ist-Soll-Vergleich) automatisch an. User-Interface ALS-Treiber Inverter Panel intergrierter Controller LichtSensor ACPI © tecCHANNEL ALS-Technologie im Detail: Die automatische Steuerung der Hintergrundbeleuchtung durch die Ambient-Light-Sensor-Technologie (ALS) reduziert den Strombedarf mobiler Geräte und vereinfacht die Regelung der Helligkeit. webcode: a1195 119 Mobile Die hier vorgestellten technischen Maßnahmen haben ein gemeinsames Ziel: Die elektrische Leistungsaufnahme der zukünftigen LCD-Displays in Standard-Notebooks soll von den derzeit gängigen 4,2 Watt auf unter 3 Watt sinken. 2.7.4 Strom sparen an der USB-Schnittstelle Mittlerweile gehören bei gängigen Notebooks mehrere USB-Schnittstellen zur Standardausstattung: Der Universal Serial Bus bietet eine schnelle und einfache Verbindungsart zwischen den mobilen Helfern und externen Geräten. Zusätzlich liefert er eine Stromstärke von bis zu 500 mA pro Port. Das erspart oft lästige zusätzliche Netzteile für die Geräte. Leistungsverbrauch verschiedener USB-Komponenten USB-Komponente Leistungsaufnahme (mW) Einfluss auf die AkkuLaufzeit (Minuten) Einfluss auf die AkkuLaufzeit (Prozent) Microsoft Wheel Mouse Optical USB 372 - 11 - 3,1 Microtech USB CameraMate DPCM-USB (CF-Reader) 258 - 8. - 2,2 Qtronix USB Tastatur Scorpius 980A 118 -4 - 1,1 Sony Micro Vault 256 MB (USB-2.0-USB-Stick) 610 - 18 - 5,0 Sony Micro Vault 256 MB (USB-2.0-USB-Stick) schreiben/lesen 691 - 20 - 5,6 Plextor USB-Stick 128 MB 640 - 19 - 5,3 Plextor USB-Stick 128 MB schreiben/lesen 595 - 17 - 4,7 MSI PC2PC Bluetooth 305 -9 - 2,5 MSI PC2PC Bluetooth senden/empfangen 720 - 21 - 5,9 Die Messungen haben wir mit einem Toshiba Tecra S1 durchgeführt. Das Notebook läuft im typischen Schreibbetrieb ohne hohe CPU-Belastung 5,97 Stunden bei einer durchschnittlichen Leistungsaufnahme von 11,7 W. Die Leistungsmessung erfolgte per Adapter direkt an der USBSchnittstelle mit dem Multimeter Voltcraft M-4660M. 120 www.tecChannel.de Notebook-Laufzeit optimieren Für Notebooks stellt die „Bus-Powered-Schnittstelle“ einen gravierenden Nachteil dar, denn der Betrieb der Geräte verschlingt Akku-Energie und verkürzt somit die Betriebsdauer des Notebooks spürbar. In der Tabelle auf der vorherigen Seite finden Sie einige USB-Geräte und deren Leistungsaufnahme sowie die rechnerische Auswirkung auf die Laufzeit eines Notebooks. Das Betreiben von USB-Geräten an Notebooks und deren Energieverbrauch ist weitaus vielschichtiger, als Intel auf dem Frühjahrs-IDF 2003 erläuterte. So erreicht man durch das effiziente Einsetzen des so genannten „USB Selective Suspend“ eine Erhöhung der Akku-Laufzeit von fünf bis zehn Prozent – vorausgesetzt das Betriebssystem, wie Windows XP oder Linux, und die angeschlossene USB-Hardware unterstützen diesen Betriebsmodus. USB Selective Suspend: Die Funktion verhindert, dass ständig Busmaster-Anfragen an den Prozessor erfolgen und er somit nicht in den C3/C4Stromsparmodus gelangen kann. Prozessor Cache Speicher CacheZugriff Northbridge Southbridge USB-HostController USB-Gerät © tecCHANNEL Der USB Selective Suspend arbeitet prinzipiell wie folgt: Windows XP mit aktiviertem ACPI ist in der Lage, einen mobilen Prozessor in den definierten C3/C4Stromsparmodus zu versetzen. Im C3/4-Zustand wird nicht nur die Spannung herabgesetzt beziehungsweise für bestimmte Funktionseinheiten ausgeschaltet, sondern zusätzlich wird die Taktfrequenz einzelner interner Funktionsgruppen schrittweise reduziert. In diesem Modus arbeitet der Prozessor sehr eingeschränkt, allerdings nur so lange, wie keine Bus-Master-I/O-Anfragen von den USB-HostControllern oder anderen Devices kommen. Bisher erfolgen bei angeschlossenem USB-Gerät periodisch (UHCI: 1 ms, EHCI: 125µs) Busmaster-Zugriffe auf den Prozessor, so dass dieser nicht in den C3/C4Stromsparmodus übergehen kann. Mit Hilfe der Funktion USB Selective Suspend webcode: a1195 121 Mobile erfolgen nur dann Busmaster-Operationen, wenn das USB-Gerät benutzt wird. In der übrigen Zeit belästigt der USB-Host-Controller den Prozessor nicht, und er kann in den so genannten Strom sparenden Schlafmodus (C3/C4) übergehen. 2.7.5 Strom sparen mit Powermanagement Anhand der speziellen Powermanagement-Funktionen des Notebooks Toshiba Tecra Si mit Centrino-Technologie erläutern wir exemplarisch die Stromsparfunktionen und die Auswirkung auf die Akku-Laufzeit. Zu Beginn unserer Messreihe ermitteln wir die maximal mögliche Akku-Laufzeit des Notebooks unter Ausnutzung der Powermanagement-Funktionen: CPU im SpeedStep-Modus, minimale Display-Helligkeit und Festplatte nach drei Minuten aus (alle zehn Minuten erfolgt Script-gesteuert ein Zugriff, um die Festplatte zu reaktivieren). Sparbüchse: Die verschiedenen Stromsparfunktionen eines Notebooks (hier: Toshiba Tecra S1) beeinflussen die Akku-Laufdauer entscheidend. 122 www.tecChannel.de Notebook-Laufzeit optimieren Bei diesen Einstellungen messen wir mit dem Multimeter Voltcraft M-4660M eine durchschnittliche Leistungsaufnahme des Notebooks von 11,66 Watt. Um ein praxisnahes und repräsentatives Ergebnis zu bekommen, betätigt unser tecSimulator-Automat jede Sekunde eine Taste. Mit diesen festgelegten Testvorgaben erreicht das Toshiba Tecra S1 eine Laufdauer von 5,97 Stunden. Die ermittelten Ergebnisse der Leistungsaufnahme und der Laufzeit dienen als Grundlage für weitere Berechnungen. Sie beziehen sich auf die einzelnen Stromsparfunktionen unseres Testkandidaten Toshiba Tecra S1. So kann der Anwender zum Beispiel per Schieberegler die Taktfrequenz und die Monitorhelligkeit in vom Hersteller festgelegten Stufen verändern. Die Funktionen „Monitor / Festplatte ausschalten“ sowie der System-Standby erwarten bestimmte Zeitvorgaben pro Stromsparstufe. In der folgenden Tabelle haben wir den Einfluss der verschiedenen Energiesparfunktionen auf die Akku-Laufzeit aufgelistet. Powermanagement-Funktionen in der Praxis PowermanagementFunktion Leistungsaufnahme (MaximumEinstellung aller Funktionen) Leistungsaufnahme (MinimumEinstellung der Funktion) Leistungsdifferenz Laufdauerdifferenz im Vergleich zur Maximum-Einstellung Taktfrequenz 17,7 W 13,7 W 4,0 W + 69 Min. DisplayHelligkeit 17,7 W 14,4 W 3,3 W + 54 Min. Display ausschalten 17,7 W 12,4 W 5,3 W + 101 Min. Festplatten ausschalten 17,7 W 17,0 W 0,7 W + 11 Min. SystemStandby 17,7 W 0,54 W 17,2 W + 125 Std. Die Tabelle zeigt, welche Funktion wie viel Einsparpotenzial in Bezug auf die Laufzeit des Notebooks bietet. Benötigt der Anwender zum Beispiel bei OfficeAnwendungen nicht die volle Prozessorleistung, ist es vorteilhaft, die Taktfrequenz auf ein Minimum zu reduzieren. Diese Maßnahme verlängert die Laufzeit des mobilen Geräts um bis zu 69 Minuten. Wenn es die Lichtverhältnisse zulassen, spart eine reduzierte Display-Helligkeit zusätzlich Akku-Ressourcen. Die Differenz der Akku-Laufzeit zwischen der maximalen und der minimalen eingestellten Leuchtstärke beträgt bei unserem Testkandidaten 54 Minuten. webcode: a1195 123 Mobile Besonders Energie sparend arbeitet der Standby-Modus. Er schaltet nahezu alle Funktionsgruppen (außer Speicher oder bestimmte Funktionen des Chipsatzes) bei Nichtbenutzung des Notebooks ab, bietet aber bei Reaktivierung eine schnelle Systemverfügbarkeit. Im Standby-Modus reicht die Akku-Kapazität bei unserem Probanden für insgesamt 125 Stunden. 2.7.6 Strom sparen in der Praxis Neben den speziellen Powermanagement-Funktionen beeinflusst im Wesentlichen der praxisnahe Umgang mit verschiedenen Anwendungen und Komponenten die Akku-Laufzeit. Ein häufiger Arbeitsvorgang auf Notebooks ist das Lesen, Speichern und Kopieren von Dateien auf der Festplatte. Auch das DVD- oder CDROM-Laufwerk wird oft als Abspielgerät benutzt. Diese beiden Anwendungen kosten bei unseren Messungen im ungünstigsten Fall je bis zu 25 Prozent der Gesamtlaufzeit des Akkus. Allerdings sind die einzelnen Komponenten nicht alleine für den Leistungshunger verantwortlich. Sie benötigen Unterstützung vom Chipsatz, Prozessor und Systemspeicher. In der folgenden Tabelle finden Sie eine Auflistung einiger Anwendungen auf einem Notebook und deren Einfluss auf die Akku-Laufzeit. Einfluss verschiedener Anwendungen auf die Akku-Laufzeit Anwendung Leistungsdifferenz zwischen Ruhezustand und Anwendung (W) Einfluss auf die Akku-Laufzeit (Minuten) Einfluss auf die Akku-Laufzeit (Prozent) Festplatte, kopieren 3,8 - 88 - 25 DVD abspielen 4,0 - 91 - 25 SYSmark 2002 0,8 - 23 - 6,4 3DMark 2001 SE 18,6 - 138 - 39 Auch Office-Anwendungen wie Word, Excel oder Access und 3D-Applikationen, wie zum Beispiel Animationen, Simulationen oder Spiele, wirken sich auf die Betriebsdauer eines Notebooks negativ aus. So reduziert das Benchmark-Programm SYSmark 2002, das wir stellvertretend für das Arbeiten mit Office-Programmen verwendeten, die Akku-Laufzeit nur um 6,4 Prozent. Komplexe 3D-Programme simulieren wir mit 3DMark 2001 SE. Die Messergebnisse zeigen, dass sie die Akku-Laufzeit um bis zu 39 Prozent verkürzen. 124 www.tecChannel.de Notebook-Laufzeit optimieren 2.7.7 Strom sparen mit WLAN und LAN Einflüsse auf die Akku-Laufzeit haben auch Komponenten wie LAN-Karten oder integrierte beziehungsweise externe Wireless-LAN-Adapter. Die folgende Tabelle gibt eine Übersicht über den Leistungverbrauch dieser Geräte. Auswirkung von LAN-Geräten auf die Akku-Laufzeit Komponente Leistungsverbrauch (mW) Einfluss auf die Akku-Laufzeit (Minuten) Einfluss auf die Akku-Laufzeit (Prozent) Interner Intel Wireless LAN 2100 3B Mini PCI Adapter (betriebsbereit, Antenne deaktiviert) 371 - 11 - 3,1 Interner Intel Wireless LAN 2100 3B Mini PCI Adapter (betriebsbereit, Antenne aktiviert) 934 - 27 - 7,5 Lindy Wireless LAN PC Card 11 Mbps (betriebsbereit ) 1279 - 35 - 9,7 3Com EtherLink III LAN PC Card 3C589D-Combo 529 - 16 - 4,5 Eine voll funktionsfähige externe Wireless-LAN-Karte kostet nahezu 10 Prozent der Akku-Gesamtlaufzeit. Ein internes Gerät nimmt zirka 7,5 Prozent in Anspruch. Um diesen Wert für die internen WLAN-Adapter zu reduzieren, bieten die Notebook-Hersteller die Möglichkeit an, die Antennenfunktion zu deaktivieren. Das spart zusätzlich etwa 3,5 Prozent an Laufzeit, wenn sie nicht benötigt wird. Zu empfehlen wäre allerdings, das Gerät gleich völlig abzuschalten. 2.7.8 Fazit Die Hersteller mobiler Geräte unternehmen große Anstrengungen, um die AkkuLaufzeit entscheidend zu verlängern. Ihr Fokus richtet sich auf Energiesparmaßnahmen bei den eingesetzten Komponenten wie Display, CPU oder USB-Schnittstelle. So sollen neue Technologien wie Ambient Light Sensor Technology (ALS) oder USB Selective Suspend die Akku-Laufzeit von Notebooks steigern. Sie steuern intelligent mit Hilfe der Vorgaben des Anwenders die Stromversorgung der entsprechenden Komponente. Darüber hinaus optimieren die Entwickler die Elektronik der internen Notebook-Stromversorgung, um die „nutzlose“ Verlustwebcode: a1195 125 Mobile leistung zu reduzieren. Doch nicht nur die Hardware ist gefordert, sondern auch das Betriebssystem muss in der Lage sein, die Hardware entsprechend anzusteuern. Auch hier stehen die Entwickler in der Pflicht, die Powermanagement-Software weiter zu optimieren. Ebenfalls bedeutend für die Betriebsdauer von mobilen Geräten sind der praktische Einsatz und die konsequente Nutzung der Powermanagement-Funktionen durch den Anwender. Der Gewinn: Die Betriebszeit des Notebooks lässt sich bis zu einer Stunde verlängern. Besonders von einer ausgewogenen Kombination vieler unterschiedlicher Stromsparfunktionen profitiert die Akku-Laufzeit. Zusätzlich sollte der Benutzer integrierte und optionale Peripherie wie USBSticks oder Wireless-LAN-Karten mit Bedacht einsetzen. Sie kosten als einzeln angeschlossenes Gerät bis zu 7,5 Prozent der Akku-Laufzeit. Bernhard Haluschak tecCHANNEL-Links zum Thema Webcode Compact Notebook-Laufzeit optimieren a1195 S.115 Aktuelle und zukünftige Akku-Technologien a1191 S.97 Transmeta Efficeon a1264 S.85 Intel Centrino a1141 S.76 Test: Centrino-Notebooks mit 15-Zoll-Displays a1201 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 126 www.tecChannel.de Meinung 2.8 Meinung AMD, Intel und Transmeta – drei Prozessorhersteller buhlen mit ihren MobileCPUs um die Gunst der Käufer. Und natürlich hält jeder sein Produkt für das beste. Zwei davon sind wirklich echte Mobile-Prozessoren, und einen davon gibt es sogar in Produkten verpackt zu kaufen. Kaufen Sie also ein Notebook mit Intels Pentium M „Centrino“. Nein, dieser Satz kommt nicht aus Intels Marketing-Abteilung, ich bekomme für meine Wortwahl auch kein Geld von Intel. Und die Intel-Werbung mit dem Centrino-Notebook auf dem stürmischen Mount Everest in 5181 Meter Höhe entfacht bei mir ebenfalls keine Begeisterungsstürme. Denn bei -30 Grad Celsius würde alleine das Display wohl schon streiken, und ganz bestimmt gibt es auf dem Berg dort oben Hotspots, um online zu gehen und E-Mails zu empfangen... Fakt ist aber, der Pentium M bietet eine sehr gute Performance und geht sparsam mit der Energie um. Einfach gesagt, ein idealer Mobile-Prozessor. Und die hohe Marktpräsenz von Intel sorgt für Centrino-Notebooks in den verschiedensten Kategorien. Ab Februar 2004 wird die Mobile-CPU mit dem Pentium-M-Nachfolger „Dothan“ sogar nochmals besser. Man sollte allerdings aufpassen, beim Kauf nicht eine alte Centrino-Version zu erwischen. Aber da gibt es ja auch noch Transmetas Efficeon. Die kleine Prozessorschmiede aus Santa Clara gab sich bei der Vorstellung im Oktober 2003 äußerst optimistisch. Meiner Meinung nach ist der Efficeon eine sehr pfiffige Mobile-CPU, die dem Pentium M in nichts nachsteht. Ich würde Transmeta einen Erfolg gönnen, denn Konkurrenz belebt das Geschäft, und immer nur Centrino-Notebooks testen wird langweilig. Viele Monate nach dem Launch gibt es jedoch immer noch keine Efficeon-Notebooks zu kaufen – außer in Japan. Aber wir sind hier in Europa, und den Efficeon könnte das gleiche Schicksal ereilen wie seinen Vorgänger Crusoe: Die großen Hersteller bleiben Intel treu und geben den kleinen Transmetas keine Chance. Beim Crusoe war es ja noch verständlich, die CPU war einfach zu langsam. Der Efficeon ist aber schnell. Fürchten manche Notebook-Hersteller den Groll Intels, wenn sie es wagen würden, eine Konkurrenz-CPU zu verwenden? AMD sollte ich noch erwähnen – oder besser nicht. AMDs Athlon 64 ist zweifelsohne ein guter Prozessor, aber er gehört nicht in Notebooks. Denn was AMD als Athlon 64 für Notebooks anbietet, ist nichts anderes als ein verkappter DesktopProzessor. Ein Notebook soll lange laufen, dafür ist es ein Notebook geworden. Und eine Mobile-CPU mit über 80 Watt TDP ist hier fehl am Platze. Ähnliches gilt übrigens auch für den Mobile Pentium 4. Wenn Sie Ihr Notebook allerdings nur auf den Schreibtisch stellen wollen und Mobilität nebensächlich ist, dann können Sie ruhig zu diesen CPUs greifen. Ansonsten – wählen Sie den Pentium M. Christian Vilsbeck, Redakteur Hardware www.tecChannel.de 127 Server 3. Server Die Auswahl der Server-Plattform ist eine strategische Entscheidung, und Informationen über künftige Entwicklungen sind dabei unabdingbar. Was passiert mit Intels Xeon-CPUs? Bleibt der Itanium weiterhin plattformkompatibel, oder soll man doch auf AMDs Opteron setzen? Besonders über die Frage, ob der Umstieg auf 64 Bit Sinn macht, streiten sich die Gemüter. Unsere Server-Benchmarks helfen bei der Entscheidungsfindung. Wer umfangreich in SCSI-Equipment investieren will, sollte das kommende Serial Attached SCSI berücksichtigen. Das neue Interface löst Ultra320 SCSI ab und wartet mit viel versprechenden Features auf. 3.1 Server- & Workstation-CPUs Besonders im Server-/Workstation-Umfeld dauert die Entwicklung und Validierung oft sehr lange. Schließlich sollen die Systeme bei der Markteinführung stabil und sicher laufen. Die Industrie benötigt von AMD und Intel deshalb möglichst frühzeitig detaillierte Informationen über geplante neue Prozessoren. Diese Informationen gelangen oft zu tecCHANNEL – aber nicht offiziell von den CPU-Herstellern. Spekulationen über Taktfrequenzen und Features weichen damit den Fakten. So spendiert Intel dem IA-64-Prozessor Itanium 2 ungewöhnlich große Caches – das macht die CPUs teuer. Und ab 2005 arbeiten zwei Cores auf den Itaniums. Zusätzlich stattet Intel die Itanium-Prozessoren dann mit einer Hardware-Multithreading-Technologie aus. Bei den IA-32-Prozessoren aus Intels Xeon-Serien steht in einigen Jahren ebenfalls der Wechsel zum Dual-Core an. Vorher wird aber noch erheblich an den Taktfrequenzen und Caches gedreht. Den Takt erhöht AMD auch beim Opteron, Strom sparende Versionen hat der Hersteller für 2004 ebenfalls auf der Agenda. Wir weisen darauf hin, dass Informationen aus inoffiziellen Roadmaps erfahrungsgemäß mit Vorsicht zu genießen sind. Schon öfter haben CPU-Hersteller noch kurz vor dem Launch für Überraschungen gesorgt oder den Start verschoben. Unsere Informationen aus verschiedenen Quellen bestätigen allerdings die Plausibilität der aktuellen Hersteller-Roadmaps. 3.1.1 Opteron „Athens, Troy & Venus“ AMD bietet die Opteron-Prozessoren in den Serien 100, 200 und 800 an. Als Modell 148, 248 und 848 arbeiten die Opterons mit einer maximalen Taktfrequenz von 2,2 GHz. Die Einstiegsmodelle 140, 240 und 840 operieren mit 1,4 GHz Taktfrequenz. In der zweiten Jahreshälfte 2004 will AMD seine SOI-Fertigung von 130 nm auf 90 nm umstellen. Dann sollen die Opteron-Nachfolger mit Codena- 128 www.tecChannel.de Server- & Workstation-CPUs men Venus (100er Serie), Troy (200er Serie) und Athens (800er Serie) debütieren. Von radikalen Änderungen am Core sieht AMD bei den neuen Modellen ab. Der L2-Cache bleibt bei dem 1 MByte der aktuellen Opteron-Prozessoren. Neu bei Venus, Troy und Athens soll dagegen die Unterstützung von DDR2-SDRAM sein. Keine Änderungen gibt es beim Steckplatz mit dem Socket 940. "Athens" 90 nm SOI, Full & Low Power 800 Series, 1-8 way "Egypt" 90 nm SOI AMD Opteron 130 nm SOI, 1-8 way "Troy" 90 nm SOI, Full & Low Power, 200 Series, 1-2 way "Italy" 90 nm SOI AMD Athlon MP 130 nm, 1-2 way "Venus" 90 nm SOI, Full & Low Power, 100 Series, 1 way "Denmark" 90 nm SOI As market requires 2H03 1H04 2H04 1H05 2H05 © tecCHANNEL Öffentlich: Mehr Details als in dieser Roadmap gibt es von AMD offiziell nicht. Der Athlon MP sieht demnach seinem Ende entgegen. AMD plant ebenfalls in der zweiten Jahreshälfte 2004 die Einführung von Opteron-Prozessoren, die als Low-Power-Versionen weniger Energie brauchen. Diese CPUs sollen etwa in Blade-Servern und im Storage-Bereich zum Einsatz kommen. Geplant sind jeweils zwei Energiesparmodelle quer durch die Opteron-Serien 100, 200 und 800. Den angestrebten TDP gibt AMD mit 55 und 30 Watt an. Zum Vergleich: Die derzeit auf dem Markt befindlichen Opteron-CPUs verbrauchen zwischen 85 und 90 Watt. Laut AMD könnte die geringere Wärmeabgabe der neuen CPUs auch ein Kriterium für große Server-Farmen sein, bei denen die Kühlung der Server-Räume immense Kosten verursache. Durch den Schritt in dieses Marktsegment zieht AMD mit Intel gleich. Der Rivale hatte am 8. September 2003 den Low-Voltage-Itanium-2 (Deerfield) mit 1 GHz Taktfrequenz und 1,5 MByte L3-Cache vorgestellt. Der Deerfield benötigt mit 62 Watt im Vergleich zum Itanium 2 mit Madison-Core nur halb so viel Energie. Für die zweite Jahreshälfte 2005 steht mit Denmark, Italy und Egypt eine erneute Ablösung der Opteron-Serien 100, 200 und 800 an. Diese Prozessoren will AMD weiterhin mit 90 nm Strukturbreite herstellen. Welche neuen Features die Modelle erhalten, ist dagegen noch nicht bekannt. Allerdings könnte es sich dabei schon um einen Dual-Core handeln. Entsprechende Hinweise auf eine Dual-Core-Unterstützung fanden sich bereits in den ersten Datenblättern der AMD64-Architektur (webcode: p1022) zur Vorstellung auf dem Microprocessor Forum 2001. webcode: a1118 129 Server 3.1.2 Xeon DP „Nocona & Jayhawk“ Der Xeon DP für Single- und Dual-Prozessorsysteme basiert aktuell auf dem Prestonia-Core, der im Prinzip dem Northwood-Core des Pentium 4 entspricht. Die schnellste Xeon-Variante arbeitet mit 3,20 GHz und verwendet einen 533 MHz schnellen FSB. Wie der Pentium 4 beherrschen die Xeons Hyper-Threading (webcode: a840) und werden durch einen 512 KByte großen L2-Cache unterstützt. Ab dem Xeon mit 3,06 GHz Taktfrequenz verfügt die CPU über einen 1 MByte großen L3-Cache. Noch im ersten Quartal 2004 stellt Intel einen Xeon 3,20 GHz mit einem 2 MByte großen L3-Cache vor. Damit entspricht dieser Prozessor im Prinzip dem Pentium 4 Extreme Edition. Beim Xeon bleibt der FSB allerdings auf 533 MHz Taktfrequenz beschränkt. Im zweiten Quartal 2004 kommt der mit dem Codenamen Nocona versehene Nachfolger der Xeon DPs auf den Markt. Der Nocona basiert auf dem PrescottCore (webcode: a1124). Die Taktfrequenz des in 90-nm-Technologie gefertigten Nocona beträgt zum Debüt 2,80, 3,00, 3,20, 3,40 sowie 3,60 GHz. Den FSB erhöht Intel auf 800 MHz – ursprünglich sollte er auf 533 MHz verharren. Dem Nocona stellt Intel mit dem E7501-Nachfolger „Lindenhurst“ gleich den passenden Server-Chipsatz zur Seite. Lindenhurst basiert auf Intels GrantsdaleChipsatz für die Prescott-Prozessoren. Die Highlights des Chipsatzes sind die Unterstützung von DDR2-Speicher (webcode: a1147) sowie PCI Express (webcode: a1003). Für Workstations offeriert Intel zusätzlich den E7505-Nachfolger „Tumwater“ mit PCI-Express-Grafikkarten-Interface. Im dritten Quartal 2004 erhöht Intel die Taktfrequenz des Nocona auf 3,80 GHz. Ebenfalls für diesen Zeitraum vorgesehen ist eine Low-Voltage-Variante des Nocona mit 2,80 GHz Taktfrequenz. Im ersten Quartal 2005 soll dann der NoconaNachfolger mit dem Codenamen Jayhawk erscheinen. Hierbei handelt es sich um eine neue Prozessorgeneration – bei den Desktop-CPUs heißt das Pendant Teja. Jayhawk arbeitet mit einer FSB-Taktfrequenz von 800 MHz und wird im 90-nmProzess gefertigt. Den L2-Cache dimensioniert Intel auf großzügige 2 MByte. Weitere Details sind zum Jayhawk noch nicht bekannt. 3.1.3 Xeon MP „Potomac“ Geht man nur nach der Taktfrequenz, hinken die Xeon MPs immer um einiges hinter den Xeon-DP-Modellen her. Entscheidender als der Takt ist bei SMP-Systemen aber der Speicherzugriff. Um hier den Flaschenhals zu erweitern, hat Intel dem Gallatin-Core der Xeon MPs neben dem 8-KByte-L1- und 512-KByte-L2Cache noch einen 2 MByte großen L3-Cache spendiert. Die aktuell schnellste Xeon-MP-Variante läuft mit 2,80 GHz Taktfrequenz. Der FSB arbeitet weiterhin mit 400 MHz. Bewegung in der Roadmap gibt es wieder im ersten Quartal 2004: Intel bietet den Xeon MP mit einem 4 MByte großen L3- 130 www.tecChannel.de Server- & Workstation-CPUs Cache an. Die Taktfrequenz der CPU beträgt dann 3,00 GHz. Gefertigt werden die Xeon MPs mit dem Gallatin-4M-Core im 0,13-µm-Prozess. Ebenfalls neu im ersten Quartal sind die Varianten 2,20 und 2,70 GHz mit 2 MByte L3-Cache. Xeon MP FSB400 3,00 GHz 4M L3 Xeon MP FSB400 3,00 GHz 4M L3 Xeon DP FSB533 3,20 GHz / 2M L3 Nocona FSB800 3,60 GHz Nocona FSB800 3,80 GHz Q2'04 Q3'04 Q1'04 Xeon MP Pentium 4 HT FSB400 FSB800 3,00 GHz 3,20/3,00/ 4M L3GHz 2,80/2,60 Xeon MP FSB400 3,00 GHz 4M L3 Nocona FSB800 4,00 GHz Q4'04 Pentium 4 HT FSB800 Potomac 3,20/3,00/ 2,80 GHz Jayhawk FSB800 2M L2 Q1'05 © tecCHANNEL Roadmap Xeon: Die Xeon MPs benötigen im ersten Quartal 2005 eine neue Plattform. Der Xeon-DP-Nachfolger Nocona muss im zweiten Quartal 2004 das Mainboard wechseln. Da die Mühlen im Server-Bereich langsamer mahlen und Kontinuität wichtig ist, gibt es für die großen IA-32-Server im ersten Quartal 2005 eine neue Plattform. Dann erscheint der Potomac zusammen mit dem Chipsatz Twin Castle für vier Prozessoren. Hinter Potomac verbirgt sich im Prinzip der Prescott-Core (webcode: a1124), erweitert um die SMP-Fähigkeit und einen L3-Cache. Die Fertigung von Potomac erfolgt im 90-nm-Prozess. Wie der Lindenhurst-Chipsatz für Xeon DPs unterstützt Twin Castle DDR2-SDRAM-Speicher (webcode: a1147) und PCI Express (webcode: a1003). 3.1.4 Xeon MP „Tulsa“ Paul Otellini, Corporation President und COO bei Intel, gab während der Keynote zum IDF Fall 2003 erstmals Details zu den Plänen künftiger Xeon-Prozessoren bekannt. Bei dem mit Codenamen Tulsa versehenen Prozessor handelt es sich um einen Xeon MP mit Dual-Core. Durch die zusätzliche Hyper-Threading-Technologie wird Tulsa vom System als vier Prozessoren erkannt. Beim Tulsa handelt es sich demnach um den Potomac-Nachfolger. Die Dual-Core-CPU soll laut Otellini 2005 oder 2006 auf den Markt kommen. 3.1.5 Itanium 2 „Fanwood & Madison 9M“ Die aktuellen Itanium 2 mit Madison-Core stellte Intel im Juni 2003 vor. Die IA64-Prozessoren arbeiten mit 1,3, 1,4 und 1,5 GHz Taktfrequenz und verfügen über L3-Caches von 3, 4 und 6 MByte. Im September 2003 gesellte sich eine Variante mit 1,4 GHz und 1,5 MByte L3-Cache hinzu. Zusätzlich erschien in diesem Zeit- webcode: a1118 131 Server raum eine Low-Power-Variante mit dem Codenamen Deerfield. Der für Dual-Processing ausgelegte LV-Itanium 2 mit 1,0 GHz Taktfrequenz und 1,5 MByte L3Cache besitzt eine TDP von nur 62 Watt. Damit liegt er deutlich unterhalb der plattformstabilen 130 Watt der restlichen Itanium-2-Familie. Neuigkeiten gibt es auf der Itanium-Roadmap erst wieder im dritten Quartal 2004: Der mit dem Codenamen Madison 9M versehene Itanium 2 für Enterprise-Server darf dann auf einen 9 MByte großen L3-Cache zugreifen. Die Transistorzahl übersteigt beim Madison 9M bereits 500 Millionen Stück. Ebenfalls gesteigert wird die Taktfrequenz: Mehr als 1,5 GHz sind im Gespräch. Evolution Itanium-Prozessoren Itanium Itanium 2 Itanium 2 „McKinley“ „Madison“ Itanium2 „Madison 9M“ Vorstellung 2001 2002 2003 2004 Architektur EPIC EPIC EPIC EPIC Fertigung 180 nm 180 nm 130 nm 130 nm Transistoren On-Die 25 Mio. 221 Mio. 410 Mio. > 500 Mio. L3-Cache 0 3 MByte 6 MByte 9 MByte Taktfrequenz 800 MHz 1,0 GHz 1,5 GHz > 1,5 GHz Core-Spannung 1,6 V 1,5 V 1,3 V 1,3 V Leistungsaufnahme 130 W 130 W 130 W 130 W Den Fertigungsprozess belässt Intel auf der Strukturbreite von 0,13 µm. Trotz unveränderter Core-Spannung von 1,3 V soll sich der Madison 9M weiterhin mit 130 Watt Verlustleistung begnügen. Hier bedarf es wohl einiger Kunstgriffe im Schaltungsdesign und eines ausgeklügelten Power-Managements. Intel will beim Madison 9M weiterhin die thermische, elektrische und mechanische Kompatibilität zu vorhandenen Itanium-2-Systemen garantieren. Die für Dual-Processing ausgelegten Itanium 2 mit 1,4 GHz Taktfrequenz und 1,5 MByte L3-Cache erhalten mit dem Fanwood ebenfalls im dritten Quartal 2004 eine Auffrischung. Der Fanwood basiert auf dem Madison 9M und bleibt weiterhin auf dem 400-MHz-Prozessorbus. Die Taktfrequenz von Fanwood soll über 1,5 GHz liegen. Im vierten Quartal 2004 will Intel den Fanwood dann alternativ auch mit einem auf 533 MHz Taktfrequenz gesteigerten FSB anbieten. Für den Deerfield plant Intel gleichfalls im dritten Quartal 2004 einen „refresh“. Der für Dual-Processing ausgelegte LV-Itanium 2 basiert dann auch auf dem Fanwood-Core. Über den LV-Fanwood ist bislang nur bekannt, dass die Taktfrequenz über 1,0 GHz liegen und der FSB mit 400 MHz arbeiten soll. 132 www.tecChannel.de Server- & Workstation-CPUs 3.1.6 Itanium 2 „Montecito“ Im Jahr 2005 will Intel mit dem Montecito die nächste IA64-Prozessorgeneration vorstellen. Bei Montecito handelt es sich um den Nachfolger des Madison 9M. Der weiterhin zum Itanium 2 kompatible Prozessor enthält als Highlight zwei unabhängige Cores, vereint auf einem Siliziumplättchen. Beim Montecito besitzen beide Cores ihren eigenen L3-Cache. Von einem Unified-L3-Cache hat Intel abgesehen, weil die Latenzzeit beim Zugriff zu hoch wäre. Jeder Core entspricht beim Montecito einem Madison 9M. Allerdings will Intel den Cores nochmals einen größeren L3-Cache spendieren. Damit verfügt der Itanium 2 im Jahr 2005 über insgesamt mindestens 18 MByte L3-Cache – im Gespräch sind 24 MByte. Die Fertigung des Montecito soll im 90-nm-Prozess erfolgen. Montecito wird Intels erste CPU mit über 1000 Millionen Transistoren sein. Ein Arbiter schaltet die beiden Cores des Montecito auf ein gemeinsames Bus-Interface. Intel verwendet beim Montecito somit wieder den Itanium-2-Sockel PAC611. Ebenfalls mit Montecito debütiert Hardware-Multithreading bei den IA64-CPUs. Der Prozessor würde sich dann nach außen wie ein 4-Wege-System präsentieren. Ein für Dual-Processing – zwei physikalische CPUs – ausgelegter Montecito steht 2005 ebenfalls auf Intels Roadmap. Dieser Prozessor ist somit der Nachfolger des Fanwood und besitzt den Codenamen Millington. Auch ein LowVoltage-Millington soll 2005 auf den Markt kommen. 3.1.7 Itanium 2 „Tanglewood“ Während der Eröffnungs-Keynote zum IDF Fall 2003 in San Jose stellte Intels Corporation President und COO Paul Otellini das Tanglewood-Projekt vor. Der IA-64-Prozessor der Itanium-Serie arbeitet mit einem Multi-Core-Die. Die CPU soll laut Otellini die 7fache Performance von aktuellen Itanium-2-CPUs mit Madison-Core aufweisen. Die Entwicklung von Tanglewood (Englisch „tangle“: Wirrwarr, verwirrt sein) führt das von Intel übernommene ehemalige Digital Alpha-Prozessor-Design-Team durch. Wie viele Cores Tanglewood auf einem Die vereint, gab Otellini noch nicht bekannt. Von mindestens vier Cores ist dabei auf jeden Fall auszugehen. Bei späteren Versionen von Tanglewood munkelt man von bis zu 16 Cores auf einem Siliziumplättchen. Auf dem Microprocessor Forum 2002 gab Intel erstmals Pläne über Itanium-Prozessoren mit mehreren Cores bekannt. Damals verkündete Intel-Fellow John Crawford Aussichten auf Itanium-Prozessoren mit vier Cores auf einem Die. Crawford nannte 2007 als Zeitpunkt für die Markteinführung eines entsprechenden Produkts. Der Multi-Core-Itanium ist zusätzlich mit einer Hardware-Multithreading-Technologie ausgestattet. Vom Codenamen Tanglewood wurde damals aber noch nicht gesprochen. Dass es sich dabei bereits um Tanglewood handelte, ist nach Otellinis Ankündigung klar: Er nannte für den Tanglewood ebenfalls 2007 als wahrscheinliches Launch-Datum. webcode: a1118 133 Server 3.1.8 Fazit Erfreulich ist, dass Intel bei den IA64-Prozessoren der Itanium-Serie den Sockel PAC611 und das Busprotokoll mindestens bis zum Montecito nicht verändert. Das kommt jedoch nicht von ungefähr: Im Umfeld des Itanium werden oft langfristige lösungsbasierte Verträge geschlossen: Der Server-Hersteller garantiert dem Kunden zum Festpreis eine Performance-Steigerung über einige Jahre hinweg. Ist diese durch ein simples Update der CPU möglich, können die Systeme günstiger angeboten werden und haben somit bessere Marktchancen. Wie ernst Intel aber AMDs 64-Bit-Prozessor Opteron (webcode: a1164) nimmt, sieht man am Beispiel Deerfield: Zu einem Kampfpreis von 744 US-Dollar (Stand: Dezember 2003) soll 64-Bit-Computing auch mit Intel-Produkten erschwinglich werden. Die ebenfalls mit dem Opteron konkurrierenden 32-bittigen Xeon DP und MP rüstet Intel zudem kräftig auf mit integrierten L3-Caches und deutlichen Taktfrequenzsteigerungen. Intel profitiert natürlich von dem Vorteil, seit Jahren fest im Server-Bereich etabliert zu sein. Denn wie bereits zitiert, mahlen die Mühlen im Server-Umfeld langsam. Hier scheut man oft den Umstieg auf eine komplett neue Architektur – ein nicht zu unterschätzender Nachteil für AMDs Opteron – und den Intel Itanium. Christian Vilsbeck tecCHANNEL-Links zum Thema Webcode Compact Roadmap: Server- & Workstation-CPUs a1118 S.128 Multiprocessing: Funktion & Besonderheiten p693 – Supercomputing a696 – Hyper-Threading im Detail p840 – Hyper-Threading Benchmarks a1064 – Hyper-Threading: Optimierungen und Fallen a1108 – Test: Opteron- vs. Xeon-Architektur a1164 – Test: Opteron im Server p1163 – Desktop-Prozessoren im Detail p1248 – Alle Details zur AMD64-Architektur p1022 – Speicher-Roadmap a1147 S.19 Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 134 www.tecChannel.de Itanium Grundlagen 3.2 Itanium Grundlagen Weder die Anwender noch Intel selbst konnten mit der ersten Itanium-Generation zufrieden sein. Doch inzwischen startet die dritte Generation mit Madison-Core durch und lehrt andere 64-Bit-CPUs das Fürchten. Nachdem andere 64-Bit-Prozessoren wie etwa MIPS, Alpha oder UltraSparc schon seit zehn Jahren auf dem Markt waren, stellte Intel im Jahre 2001 mit dem Itanium seinen ersten 64-Bit-Prozessor vor. Trotz vieler innovativer Konzepte überwogen bei der ersten Itanium-Generation die Schwächen des neuen Designs. Zudem waren auch die Compiler noch nicht ausgereift, so dass der neue Prozessor leistungsmäßig sogar von gängigen 32-Bit-CPUs überholt wurde. Mit einem radikalen Redesign und unter dem neuen Namen Itanium 2 (Codename McKinley) hat Intel 2002 viele Schwachpunkte behoben. Seit Mitte 2003 ist nun schon die dritte Version des Itanium mit dem so genannten Madison-Core auf dem Markt. Da er Hardware-kompatibel zu McKinley ist, lässt ihn Intel aber unter der alten Itanium-2-Flagge segeln. Roadmap: Neben dieser offiziellen Roadmap verspricht Intel bis mindestens 2005 kompatible Itanium-2-CPUs mit mehreren Cores und bis zu 24 MByte Cache. (Quelle: Intel) Durch den Übergang zur 0,13-µm-Fertigung konnte Intel die früheren Schwachstellen wie zu kleine Caches oder eine zu geringe Taktfrequenz überwinden. Die offizielle Intel-Roadmap zeigt mindestens bis 2005 immer schneller getaktete Itanium-Modelle mit bis zu 24 MByte Cache und mehreren Cores auf einem Die. Dabei verspricht Intel, Hard- und Software-kompatibel zum aktuellen Itanium 2 webcode: p1281 135 Server zu bleiben. Speziell bei großen Servern ist dieser Investitionsschutz ein entscheidendes Kaufkriterium. So ausgestattet kann sich der Itanium nun endlich anschicken, den 64-Bit-Markt in gewohnter Intel-Manier zu erobern. 3.2.1 Eckwerte Der Itanium ist keine reinrassige Intel-Entwicklung. Bereits im Mai 1994 gaben die Firmen HP und Intel ihre Zusammenarbeit zur Entwicklung eines neuen 64Bit-Prozessors bekannt. Das Resultat dieser Kooperation, die unter dem Codenamen Merced entwickelte Itanium Architecture (IA, früher Intel Architecture 64, IA-64), wurde im Mai 2000 von beiden Konzernen vorgestellt. Die Eckdaten dieser Architektur sind 128 allgemeine Register, 128 Register zur Gleitkommaverarbeitung, 64 Predicate-Register und eine 64-Bit-Speicheradressierung. Itanium Blockdiagramm und Datenfluss: Die Zahlen an den verschiedenen internen und externen Bussen geben die Busbreite in Bits an. (Quelle: Intel) Damit sind 264 Bytes an Speicherplatz direkt und linear adressierbar, dies sind 16 Exabyte oder 16 Mega-Mega-Megabyte. Eine solche Speichermenge wird sicherlich in den nächsten Jahren noch nicht benötigt werden. Physikalisch nutzt Intel daher nur 50 Bit, genug für 1024 Terabyte (TByte). Die Beschränkungen von Intels 32-Bit-Architektur (IA-32), die nur eine direkte Adressierung von 4 Gigabyte an Speicher erlaubt, ist damit langfristig überwunden. Sie erschwert den Einsatz des „kleinen“ Server-Prozessors Xeon in Highend-Computern spürbar. 136 www.tecChannel.de Itanium Grundlagen 3.2.2 Stammbaum Während der erste der Itanium-Prozessoren, Merced, noch mit 25 Millionen Transistoren auskam, erhöhte sich diese Zahl mit dem Itanium 2 McKinley auf 220 Millionen Transistoren. Für diesen Sprung ist vor allem die direkte Integration des L3-Cache auf dem Die verantwortlich. Der aktuelle Itanium Madison besteht aus 410 Millionen Transistoren auf dem Die, bis 2005 soll die erste CPU mit mehr als einer Milliarde Transistoren und 24 MByte Cache erscheinen. Zum Vergleich: Der Pentium 4 Northwood benötigt 55 Millionen Transistoren. Seit 2003 spaltet sich mit dem Deerfield ein neuer Ast aus dem Itanium-Stammbaum ab. Deerfield arbeitet mit einer geringen Versorgungsspannung und besitzt nur 1,5 MByte L3-Cache. Dadurch sinkt seine Leistungsaufnahme gegenüber dem Madison von 130 Watt auf 62 Watt. Zudem hat Intel das Design etwas vereinfacht, so dass der Deerfield maximal noch als Dualprozessor laufen kann. Als Zielmarkt für den kleinen Itanium-Bruder sieht Intel Workstations und kompakte Blade-Server. Die wesentlichen Unterschiede zwischen den einzelnen ItaniumCPUs fasst die Tabelle zusammen. Itanium-Generationen Takt L1-/ L2-/ L3Cache Systembus Prozess 733 MHz, 800 MHz 32 KByte / 96 KByte / 4 MByte extern 266 MHz 0,18 µm McKinley (2002) 900 MHz, 1 GHz 32KByte / 256KByte / 3 MByte intern 400 MHz 0,18 µm Madison (2003) 1,3 GHz, 1,4 GHz, 1,5 GHz 32 KByte / 256 KByte / 1,5 bis 6 MByte intern 400 MHz 0,13 µm Deerfield (2003) 1 GHz 32KByte / 256KByte / 1,5 MByte intern 400 MHz 0,13 µm Merced (2001) Die Prozessoren Merced und McKinley sind in einem 0,18-µm-Prozess gefertigt, Madison und Deerfield hingegen in einem 0,13-µm-Prozess. Aus diesem Grund konnte Intel trotz der erhöhten Zahl an Transistoren die Chipfläche von 410 mm² beim McKinley auf 354 mm² beim Madison verkleinern. Während aber der Pentium 4 (Prescott) seit Anfang 2004 mit 90 nm gefertigt wird, steht dieser StrukturShrink für den Itanium erst 2005 an. Denn im Verhältnis zum Verkaufspreis fallen die Fertigungs- und Siliziumkosten bei Server-Prozessoren weniger ins Gewicht, und Intel kann so die „alten“ Fabs noch Gewinn bringend auslasten. webcode: p1281 137 Server 3.2.3 Register-Features Die IA-64 definiert 128 Allzweckregister mit einer Breite von 64 Bit, 128 Floatingpoint-Register und 64 so genannte Predicate-Register (dazu später mehr). Außerdem besitzt die IA-64 noch eine Anzahl weiterer Spezialregister wie 128 Applikationsregister für den Kernel und die Stack Engine, acht Branch-Register und verschiedene ID- sowie Performance-Monitor-Register. Die ersten 32 Allzweckregister werden statisch, die restlichen 96 Register hingegen dynamisch verwaltet. Das erste der statischen Register r0 ist fest auf den häufig benötigten Wert 0 gelegt. Die übrigen 127 Register können als Operand oder als Zielregister bei der Abarbeitung von Instruktionen dienen. Reichlich: 128 Universalregister lassen viel Spielraum für Codeoptimierungen. (Quelle: Intel) Jedes Allzweckregister kann auch als ein Bündel von acht 8-Bit-, vier 16-Bit- oder zwei 32-Bit-Registern aufgefasst werden, die sich mit einem einzelnen Befehl bearbeiten lassen. Ein solches Vorgehen bezeichnet man als SIMD (Single Instruction Multiple Data), es entspricht den MMX-Befehlen der Pentium-Prozessoren. SIMD-Befehle eignen sich gut für Multimedia-Anwendungen oder auch für sonstige 8-Bit-Aufgaben wie String-Verarbeitung. Als nettes Feature kann die IA-64 Registerinhalte beim Abspeichern ohne zusätzlichen Rechenschritt inkrementieren. Dies korrespondiert mit dem Postinkrement-Operator der Programmiersprache C und wird in der Programmierung vielfach verwendet. 3.2.4 Rotation mit dynamischen Registern Die dynamischen Register bieten gegenüber der IA-32 zahlreiche Besonderheiten. Zum einen kann die Register Stack Engine (RSE) den Inhalt der 96 so genannten stacked/rotating Register bei Bedarf in den Cache-Speicher auslagern. 138 www.tecChannel.de Itanium Grundlagen Dadurch können Unterprogramme dieselben Register verwenden wie die aufrufenden Routinen und bis zu 127 lokale Integer-Variablen in den schnellen Registern halten. Die langwierigen push- und pop-Befehlssequenzen, die bei IA-32 nötig sind, um Register in Unterprogrammen erst einmal frei zu räumen, vermeidet die IA-64 so durch eine entsprechende Prozessor-Hardware. Zum anderen bieten die 96 dynamischen Allzweckregister (und ebenso die 96 dynamischen Floatingpoint-Register) auch eine so genannte Rotation. Zunächst ordnet der Itanium dabei den physikalischen Registern virtuelle zu. Diese Zuordnung wird dann typischerweise in den Iterationen einer Schleife pro Durchlauf jeweils um eine Position verschoben. Ist beispielsweise das virtuelle Register v33 auf das physikalische Register r52 abgebildet, so enthält es in der nächsten Iteration den Inhalt von Register r53 – ohne dass die CPU dafür zeitaufwendig Daten physikalisch kopieren muss. Beispiele für Schleifenstrukturen, die sich durch diese Rotation optimieren lassen, sind Filterfunktionen für die Bildbearbeitung. Hier wertet man für jeden Bildpunkt die benachbarten Bildpunkte aus und berechnet daraus den Farbwert des neuen Punkts. Typischerweise läuft eine Schleife dafür über alle Bildpunkte, die Berechnungen sind unabhängig voneinander. Beim ersten Bildpunkt bringt Rotating noch keine Vorteile: Die Schleife lädt alle benötigten alten Bildwerte in die virtuellen und die entsprechend zugeordneten physikalischen Register und berechnet den ersten neuen Bildpunkt. Beim zweiten Bildpunkt zeigt sich der Vorteil: Rotating verschiebt alle virtuellen Registerinhalte um eine Position, ohne dafür Rechenleistung zu verbrauchen. Jetzt muss die CPU nur noch einen der ursprünglichen Farbwerte neu einlesen und findet alle anderen bereits in den passenden virtuellen Registern vor. Besonders effizient wird dies, wenn man auch das so genannte Software-Pipelining mit berücksichtigt. Da ein superskalarer Prozessor wie der Itanium 2 sechs Befehle gleichzeitig ausführen kann, laufen mehrere Iterationen einer Schleife gleichzeitig ab. Besteht wie im obigen Fall keine Abhängigkeit der Ausgangsdaten, greifen die Iterationen über dieselben virtuellen Register auf unterschiedliche physikalische Register zu, wodurch sich ein zeitaufwendiges Kopieren der Daten von Register zu Register vermeiden lässt. 3.2.5 Floatingpoint-Register Die Fließkommaeinheit ist eine der herausragenden Funktionseinheiten der IA64. Für Berechnungen stehen 128 Fließkommaregister mit einer Breite von 82 Bit zur Verfügung. Lediglich die Register f0 und f1 sind fest auf die häufig benötigten Werte 0 beziehungsweise 1 gelegt. Alle Register sind nach dem Schema Ergebnis = Operand1 x Operand2 ansprechbar. Dies ist eine wesentliche Verbesserung gegenüber der IA-32, die alle Fließkommaoperanden über einen Stack übergibt. Die 128 Fließkommaregister sind ebenso wie die Allzweckregister in 32 statische und in 96 dynamische Register aufgeteilt. webcode: p1281 139 Server Die IA-64 bietet wie die IA-32 die Möglichkeit, 80-Bit-Fließkommaberechnungen durchzuführen. Die zusätzlichen Bits der 82 Bit breiten Register nutzt der Itanium intern für Zwischenergebnisse. Durch die höhere Genauigkeit verringern sich Rundungs- und Verfahrensfehler bei komplexen Berechnungen. Neben dem 80-Bit-Format sind Floatingpoint-Operationen im 64-Bit-DoublePrecision-Format und im 32-Bit-Single-Precision-Format möglich. Bei Single Precision kann der Itanium gleich zwei Werte parallel in einem Floatingpoint-Register halten und bearbeiten. Der Fließkommabefehlssatz enthält unter anderem eine Multiply and Accumulate (MAC) Instruction, die eine Multiplikation und eine Addition in einem Taktzyklus gemeinsam durchführt. Durch die SIMD-Fähigkeit des Prozessors kann man bei einfacher Genauigkeit sogar zwei MACOperationen gleichzeitig erledigen. Diese Funktion ist die Grundlage vieler Filteralgorithmen und üblicherweise nur bei Signalprozessoren vorhanden. Erstaunlich ist, dass die Itanium Architektur keine Befehle zur Berechnung transzendenter Funktionen wie der Quadratwurzel oder des Tangens zur Verfügung stellt. Selbst die einfache Division ist ihr unbekannt. All diese Funktionen bildet der Compiler als Software-Algorithmen nach. Dabei kann er aber die Eigenschaften des Prozessors wie etwa das Software-Pipelining mit Register-Rotation sowie die parallele Ausführung von Programmteilen durch mehrere Fließkommarecheneinheiten optimal ausnutzen. Dadurch ist die Fließkommaberechnung des Itanium meist deutlich schneller als die anderer Prozessoren, die diese Aufgaben fest in Hardware verdrahtet haben. 3.2.6 Predication: Erst rechnen, dann entscheiden Neben den Allzweck- und den Fließkommaregistern definiert die IA-64 noch 64 Predicate-Register von je einem Bit Breite. Die ersten 16 dieser Register sind statisch, die übrigen werden dynamisch verwaltet und unterstützen das SoftwarePipelining durch Rotation. Test- und Vergleichsbefehle setzen die Predicate-Register. Sie berechnen dabei jeweils zwei Predicate-Register, wobei eines für eine erfüllte und das andere für eine nicht erfüllte Bedingung steht. Bei fast jedem Befehl der IA-64 kann man ein Predicate-Register als Bedingung mit angeben. Ist das Predicate-Register wahr, führt der Itanium den Befehl aus und berechnet das Ergebnis, ansonsten verwirft er es. Der Clou ist nun, dass man zwei Befehle, die sich eventuell wiedersprechen und auch auf dieselben Register zugreifen können, mit zwei komplementären Predicate-Registern versieht. Der Itanium kann dann in seinen Pipelines beide Befehle gleichzeitig abarbeiten, liefert aber am Ende nur das passende Ergebnis. Durch die Predication kann man einfache Fallunterscheidungen viel eleganter lösen als bei der IA-32. Obwohl bei der IA-64 beide Zweige tatsächlich berechnet werden, ist dieses Vorgehen vielfach schneller als die Verwendung eines bedingten Sprunges. Dieser verursacht nämlich eine massive Störung der Pipeline, falls die Sprungvorhersage sich geirrt hat. 140 www.tecChannel.de Itanium Grundlagen Rechnen und verwerfen: Die IA-64 berechnet beide Zweige der Fallunterscheidung parallel und entscheidet sich erst später für den passenden. (Quelle: Intel) Deutlich wird dies im obigen Beispiel der Berechnung der absoluten Differenz zweier Zahlen. Die IA-32 ermittelt mit dem Befehl cmpGE, welcher der beiden Werte in den Registern r2 und r3 größer ist. Abhängig davon führt sie einen bedingten Sprung zum passenden Codeblock aus. Dieser Sprung bringt jedoch die Pipeline des Prozessors ins Stocken und kostet daher sehr viele Taktzyklen. Die IA-64 wertet ebenfalls die Bedingung aus und setzt aber damit nur zwei Predicate-Register (p1 und p2) entsprechend. Beide Möglichkeiten der Berechnung werden im Code nun mit Predicate-Registern versehen und auch tatsächlich berechnet. Auf Grund der sechs parallelen Pipelines berechnet die CPU aber sowohl die Werte der Predicate-Register als auch beide Ergebnisse zeitgleich. Am Ende trägt sie jedoch nur den Wert mit passendem Predicate-Flag in das Register r4 zur späteren Weiterverarbeitung ein. Ohne einen einzigen Sprung wird hierbei also das Ergebnis der Fallunterscheidung in nur einem Taktzyklus ermittelt, ohne die Pipeline zu gefährden. 3.2.7 Rechnen in epischer Breite Die Itanium Architektur definiert eine superskalare Prozessorarchitektur. Eine solche Architektur besitzt mehrere Recheneinheiten (Arithmetic Logic Unit, ALU) und ist dadurch in der Lage, in jedem Taktschritt mehrere Befehle gleichzeitig abzuarbeiten. Entscheidend ist dabei, die ALUs immer mit unabhängigen, parallel ausführbaren Instruktionen zu füttern. Die meisten superskalaren Prozessoren, nicht aber der Itanium, basieren dazu auf einer RISC-Architektur mit Out-of-Order Execution. Dabei werden mehrere Befehle in einem Puffer bereitgehalten, die der Prozessor in beliebiger Reihenfolge ausführt, sobald eine passende Berechnungseinheit frei ist und die benötigten Operanden vorhanden sind. webcode: p1281 141 Server Die so berechneten Ergebnisse speichert die CPU dann wieder in der Reihenfolge ab, die durch die ursprüngliche Reihenfolge der Befehle im Befehlsstrom vorgegeben ist (Ergebnissequenzialität). Für die Out-of-Order Execution muss der Prozessor Abhängigkeiten zwischen den Befehlen erkennen, die verwendeten Register umbenennen, Ergebnisse intern umsortieren und sich auch im Falle einer Unterbrechung durch einen Interrupt nach außen wie ein In-Order-Prozessor geben. All dies erfordert eine komplexe Hardware-Schaltung mit hohem Platzbedarf auf dem Die und sorgt für zusätzliche Stufen in der Bearbeitungs-Pipeline. Mit EPIC (Explicit Parallel Instruction Computing) beschreitet Intel bei der IA-64 einen anderen Weg. EPIC basiert auf dem VLIW (Very Long Instruction Word)Prinzip. Hier wird ein sehr breites Befehlswort in mehrere Felder unterteilt, die einzelne unabhängige Instruktionen enthalten. Bei der Programmausführung liest die CPU das lange Befehlswort ein und leitet die darin enthaltenen Instruktionen an voneinander unabhängige Ausführungseinheiten weiter. Die Auswahl der parallel ausführbaren Befehle bleibt somit dem Compiler überlassen. Dieser hat beim Erzeugen des Codes einen sehr viel weiteren Blick für den Programmkontext als eine Hardware innerhalb der CPU zur Laufzeit. Deshalb kann der Compiler unabhängige Instruktionen viel effektiver zusammenstellen. 3.2.8 Drei Instruktionen pro Befehlswort 41 Bit Instruktion 1 41 Bit 41 Bit 5 Bit Instruktion 2 Instruktion 3 Template OpCode Register 1 Register 2 Register 3 Predicate 14 Bit 7 Bit 7 Bit 7 Bit 6 Bit © tecCHANNEL EPIC verwendet lange Befehlswörter von 128 Bit Breite. Diese Befehlswörter werden bei Intel als Bündel bezeichnet und können drei Instruktionen zu je 41 Bit Breite, die Silben, sowie ein so genanntes Template mit fünf Bit aufnehmen. Das Template kodiert die Befehlsart der Instruktionen des Bündels und legt die Ausführungseinheiten fest, die die drei Silben benötigen. So signalisiert etwa das Template-Mnemonic „MII“, dass der erste Befehl im Bundle auf das Memory zugreift und die beiden anderen unabhängig je eine Integer-Pipeline belegen. 128-Bit-Befehl: Ein VLIW enthält drei Instruktionen plus Steueranweisungen für die Pipelines. 142 www.tecChannel.de Itanium Grundlagen Die fünf Bit des Templates ermöglichen 32 verschiedene Kombinationen von Befehlsarten, derzeit unterstützt der Itanium jedoch nur 24 Kombinationen. Durch die Verwendung des Templates werden die Kombinationsmöglichkeiten von Befehlen in einem Bündel eingeschränkt. Dadurch kann die Schaltung, die die Instruktionen auf die Ausführungseinheiten verteilt, einfacher und schneller gehalten werden. Allerdings führen die Unverträglichkeiten von Befehlskombinationen auch oft dazu, dass der Compiler kein komplettes Bündel erzeugen kann. Fehlstellen füllt er dann mit NOP (No Operation)-Befehlen, die jedoch den Speicherbedarf für Programme anwachsen lassen. Optimale Bündel: Der Itanium 2 (*) erlaubt mehr Befehlskombinationen als der erste Itanium (x). (M Memory, F Floatingpoint, I Integer, L Long Intermediate, B Branch). (Quelle: Intel) Der Itanium verarbeitet aber nicht nur ein Bündel gleichzeitig. Er kann die Befehle zweier Bündel zeitgleich auf die Funktionseinheiten verteilen und so maximal sechs Befehle parallel ausführen. Allerdings sind die Kombinationsmöglichkeiten der zwei Bündel eingeschränkt. Während der Itanium-Prozessor mit dem MercedKern nur 28 Prozent aller Template-Paarungen parallel ausführen konnte, hat Intel diese Zahl beim Itanium 2 durch die größere Zahl von Ausführungseinheiten auf 75 Prozent gesteigert. Verboten sind die restlichen Kombinationen jedoch nicht. Treffen zwei unverträgliche Bündel aufeinander, so muss eines einen Taktzyklus in einem Pufferspeicher in der Pipeline warten. Bei realen Programmen kann man mit effektiv drei bis vier Befehlen pro Taktzyklus rechnen. In hoch optimierten Libraries soll der Itanium sogar fünf Befehle pro Takt erreichen. 3.2.9 Tipps für die CPU EPIC erlaubt es, der CPU Informationen etwa über Datenabhängigkeiten oder die wahrscheinlichste Verzweigung bei Fallunterscheidungen mitzuteilen. Zur Optimierung lässt man die erste Codeversion in einem Profiler ablaufen, der den bei einer Verzweigung meist benutzten Weg ermittelt. Eine erneute Compilation baut diese Informationen dann über so genannte Hints in den optimierten Code ein. webcode: p1281 143 Server Zur statistischenVorhersage von bedingten Sprüngen verwendet der Itanium-Prozessor ebenso wie die Pentium-Prozessoren das zweistufige dynamische PAs-Verfahren nach Yeh-Patt. Für jeden Sprung im Instruktions-Cache wird das Verhalten der letzten Sprünge mitprotokolliert. Ein aus diesem Protokoll ermittelter Wert steuert das Pattern History Memory an. Dieser liefert dann eine Vorhersage, ob der bedingte Sprung wahrscheinlich ist oder nicht. Trotz der Hinweise und einer ausgefeilten Sprungvorhersage stellen bedingte Sprünge immer noch ein Problem aktueller Prozessordesigns dar, da bei einem falsch vorhergesagten Sprung die gesamte Pipeline mit den zum Teil bereits abgearbeiteten Befehlen verworfen und neu geladen werden muss. Der Itanium begegnet diesem Problem mit den bereits erwähnten Predicated Instructions, der spekulativen Ausführung ganzer Befehlspfade und der relativ kurzen Pipeline. 3.2.10 Vorausschauen... Da Speicherzugriffe eine verhältnismäßig lange Zeit benötigen, ist es sinnvoll, spezielle Vorab-Ladebefehle für Daten am Beginn einer Programmsequenz zu platzieren. Das Laden der später benötigten Daten findet dann parallel zur Bearbeitung anderer Befehle statt, die Daten sind aber bereits im Prozessor, wenn eine Berechnung sie später tatsächlich benötigt. Wird zwischen dem Vorab-Ladebefehl und der Stelle im Programmcode, an der die Daten benötigt werden, der betreffende Speicherbereich geändert, so sind die im voraus eingelesenen Daten nicht mehr gültig. Gründe dafür können ein Schreibzugriff des Prozessors selbst oder auch ein DMA-Zugriff eines I/O-Controllers sein. Die ursprünglich eingelesenen Werte werden dann verworfen und neu eingelesen. Vorab: Register r4 wird weit vor seiner Nutzung schon mal vorsorglich mit einem Wert aus dem Speicher gefüllt. (Quelle: Intel) Für das Vorabladen der Daten wird mittels des Befehls ld.a (Load Advanced) für eine Ladeoperation ein Eintrag in der Advanced Load Address Table (ALAT) vorgenommen. Im Beispiel erzeugt ld4.a einen entsprechenden Eintrag für das Register r4, das den Inhalt einer Speicheradresse erhalten soll, die in r3 steht. Jetzt hat die CPU genügend Zeit, diesen Wert bis zur eigentlichen Nutzung, der Addition von r4 und r5, aus dem langsamen Speicher zu holen. Werden bis dahin Daten an die betreffende Speicheradresse geschrieben, so löscht die CPU den zugehörigen Eintrag in der ALAT. Vor der Addition prüft der Compiler mit ld4.c.clr, ob der Wert noch gültig ist. Falls ja, erfolgt die Addition ohne Verzögerung. Andernfalls aktualisiert der Itanium den Wert durch einen Zeit raubenden Speicherzugriff. 144 www.tecChannel.de Itanium Grundlagen 3.2.11 ...und Spekulieren Neben dem Vorabladen von Daten kann der Itanium auch Sprüngen vorangestellte Ladeoperationen und Berechnungen spekulativ durchführen (Control Speculation). Beim Befehl ld.s (Load Speculative) versucht die CPU, Daten in ein Register zu laden. Das betreffende Register wird markiert, falls beim Laden ein Fehler oder eine Ausnahme aufgetreten sind. Eine solche Ausnahme kann zum Beispiel eine „Page not Present Exception“ sein, falls das Betriebssystem die betreffende Seite noch nicht im Speicher eingeblendet hat. Zur Markierung besitzen die Allzweckregister r0...r127 ein 65. Bit, welches Intel als Not a Thing (NaT) bezeichnet und das bei ungültigen Registerwerten gesetzt ist. Bei Fließkommaregistern wird dagegen ein Wert als Kennzeichnung verwendet, der als Fließkommazahl nicht definiert ist (Not a Value, NatVal). Im weiteren Programmablauf rechnet man ungeniert mit den Registern und kümmert sich nicht darum, ob sie überhaupt einen sinnvollen Wert enthalten. Erst später prüft man mit dem Befehl chk.s (Check Speculation), ob das Ergebnis auf gültigen Daten beruhte. Ist beim Ergebnis einer Berechnung das NaT-Bit gesetzt oder enthält das Fließkommaregister den Wert NatVal, so führt man über den chk.s-Befehl einen Sprung auf eine Programmsequenz aus, die die Berechnung mit gültigen Daten erneut durchführt. Spekulatives Laden: Der Code wächst, das Programm wird aber schneller. (Quelle: Intel) Im Beispiel rechts wird r3 spekulativ geladen und mit dem Inhalt von r5 nach r6 addiert. Falls die nachfolgende Bedingung durchlaufen wird und man das Ergebnis der Summe benötigt, prüft die CPU zunächst mit chk.s r6, recv, ob r6 webcode: p1281 145 Server einen gültigen Inhalt besitzt. War die Spekulation nicht erfolgreich, wird die Berechnung durch einen Sprung zu recv nachgeholt. Nach Abarbeitung des Korrekturcodes springt der Programmablauf wieder zum Befehl nach chk.s zurück. Sinnvoll ist obiges Beispiel vor allem dann, wenn man die Summe in r6 nur innerhalb eines Zweiges der Bedingung benötigt. Hat man Glück, steht sie bereit, und der Itanium hat sie „nebenbei“ schon im Vorfeld berechnet. Falls nicht, muss man eben noch einmal explizit die Berechnung starten. Und läuft man überhaupt nicht in die Bedingung, kann einem das Ergebnis sowieso egal sein. Die Verwendung der spekulativen Ausführung von Ladebefehlen führt zwar meist zu einem schnelleren Programmablauf, bedeutet jedoch auch einen größeren Programmcode, da der Korrekturcode ebenfalls vorhanden sein muss. Zudem „verheizt“ der Itanium Zeit und Energie mit der Bearbeitung von Befehlen, die eventuell auf ungültigen Daten beruhen. 3.2.12 Kompatibilitäten Als gemeinsames Projekt der Firmen HP und Intel sollte die Itanium Architektur sowohl kompatibel zur PA-RISC-Architektur von HP als auch kompatibel zur IA32 von Intel sein. HP entwickelte deshalb ein Verfahren namens Dynamic Translation, welches die Binärkompatibilität des Itanium zur PA-RISC-Familie und zum Betriebssystem HP-UX sicherstellen soll. Dabei werden die RISC-Maschinenbefehle der PA-Architektur in die entsprechenden Befehle des Itanium übersetzt und zur Laufzeit eines Programms dynamische Optimierungen vorgenommen. Dies bedeutet, dass die Dynamic Translation bereits übersetzten Code im Speicher hält, falls er in Schleifen wiederholt durchlaufen wird, oder dass sie Vorteile der IA-64 wie Predication oder Spekulationen nutzt. Die IA-32-Kompatibilität erreicht Intel durch eine Hardware-Emulation auf dem Prozessorchip. Die IA-32-Funktionseinheit simuliert dabei einen Pentium III mitsamt PC-Bausteinen wie den Timer oder die A20-Gate-Schaltung. Die Hardware setzt den IA-32-Befehlsstrom direkt in Itanium-Befehle um und leitet diese an die Ausführungseinheiten weiter, die IA-32-Register bildet sie auf Itanium-Register ab. So ersetzt die IA-32-Funktionseinheit die ersten beiden Stufen der PipelineVerarbeitung. Aus einem Itanium-Programmcode heraus kann jederzeit mit dem Befehl br.ia auf den IA-32-Befehlssatz umgeschaltet werden. Der IA-32-Befehl jmpe wiederum aktiviert erneut den Itanium-Befehlssatz. Interrupts des IA-32 verarbeitet der Itanium jedoch immer im Itanium-Befehlssatz. Von einer solchen Ausnahmebehandlung kehrt der Befehl rfi direkt zum IA-32-Code zurück. Allerdings konnte die IA-32-Emulation in Hardware nie richtig überzeugen, da die Rechenleistung für echte Server-Software nicht ausreichte. Nützlich ist sie aber, wenn man IA-32-Administrationsprogramme zur Konfiguration und Wartung des Itanium-Servers nutzen will. Seit dem Servicepack 1 bietet Windows Server 2003 alternativ einen IA-32 Execution Layer (IA-32 EL) in Software, der analog zu HPs Dynamic Translation arbeitet und deutlich mehr Leistung bietet als 146 www.tecChannel.de Itanium Grundlagen die Hardware-Emulation. Mit dem IA-32 Execution Layer soll einen 1,5-GHzItanium mit 6 MByte Cache immerhin die Leistung eines Xeon MP mit 1,5 GHz erreichen. Zudem ermöglicht die Software-Emulation ein einfaches Upgrade auf moderne virtuelle IA-32-CPUs mit Features wie SSE2 und SSE3. Für dezidierte 32-Bit-Server-Anwendungen ist aber auch der IA-32 EL nicht wirklich geeignet. Ein Xeon-Server dürfte bei gleicher Leistung doch ein paar Euro billiger kommen. Interessant ist der IA-32 EL aber für Workstations mit dem Deerfield-Itanium. Typischerweise wird zwar deren Primäranwendung, wie etwa ein CAD-Programm oder eine Floatingpoint-orientierte Software als ItaniumArchtecture-Code vorliegen. Doch ein Workstation-Benutzer verwendet meist auch Programme wie eine Office-Suite, einen E-Mail-Client oder gar Active-XKomponenten für den Internet Explorer. Spätestens da ist Schluss mit nativem 64Bit-Code und zwingend eine schnelle IA-32-Emulation erforderlich. 3.2.13 Der Itanium 2 Der Itanium-2-Prozessor verarbeitet die Befehle in einer 8-stufigen Pipeline. Die beiden ersten Stufen IPG (Instruction Pointer Generation and Fetch) und ROT (Instruction Rotation) bilden das Frontend der Pipeline, die übrigen Stufen stellen das Backend dar. Die beiden Abschnitte der Pipeline sind durch einen Puffer entkoppelt, so dass sich Störungen im Ablauf oder Verzögerungen beim Laden nicht auf alle Pipeline-Stufen auswirken. IPG ROT EXP REN REG IGP Instruction pointer generation and fetch ROT Instruction rotation EXP Instruction template decode, expand and disperse REN Rename and decode EXE DET WRB FP1 FP2 FP3 REG EXE DET WRB FPX FP4 Register file read ALU execution Exception detection Write back Floating point stage x © tecCHANNEL Pipeline des Itanium 2: Jeder Befehl durchläuft die acht Stufen der Pipeline. Jeder Befehl durchläuft alle Stufen, so dass eine Abarbeitung in Phasen aufgeteilt ist, die mit den Stufen korrespondieren. Die gesamte Pipeline bietet eine In-Order-Ausführung von Instruktionen, wobei pro Taktschritt bis zu sechs Befehle gleichzeitig zur Verarbeitung zugeteilt werden. Da Intel auf eine Out-of-OrderAusführung verzichtet und die optimale Parallelisierung dem Compiler überlässt, ist die Hardware selbst relativ einfach und damit schnell. Den gewonnenen Platz auf dem Die nutzt Intel für ein umfangreiches System zum effizienten Speicherzugriff mit geringen Latenzzeiten. webcode: p1281 147 Server 3.2.14 Speicher und Caches Der Itanium-Prozessor besitzt eine dreistufige Hierarchie von Caches. Die L2-und L3-Caches speichern dabei sowohl Daten als auch Instruktionen (Unified Cache), der L1-Cache ist geteilt in einen L1-Instruktions-und einen L1-Integer-Cache. Der L2- und der L3-Cache können über das System-Interface direkt auf den Hauptspeicher zugreifen, die L1-Caches sind mit dem L2-Cache verbunden. Adresse [63:12] TLB 32 Einträge, vollasoziativ Adresse [11:6] Tag-RAM 4-Wege-assoziativ 32 32 64 Adresse [11:3] Daten-RAM 4-Wege-assoziativ Vergleich Bitweises and/or 4 64 © tecCHANNEL Ohne Verzögerung: Der Prevalidated-Cache liefert die Daten mit nur einem Clock Latenzzeit. Die L1- und L2-Caches sind als so genannte Prevalidated-Tag-Caches ausgeführt, um L1-Cache-Zugriffe mit nur einem Zyklus Latenzzeit zu gewährleisten. Im Tag-Ram des Cache ist nicht die physikalische Speicheradresse, sondern eine Referenz auf einen Eintrag im Translation Lookaside Buffer (TLB) gespeichert. Beim Auslesen gibt der Cache die Daten aus den verschiedenen Wegen des mehrfach assoziativen Speichers parallel aus. Gleichzeitig wird aus der virtuellen Speicheradresse über den vollassoziativen TLB ein Vektor erzeugt, der genau einen 1-Bit- und ansonsten nur 0-Werte enthält (one hot vector). Dieser Vektor wird parallel mit allen vom Mehrwege-Tag-Ram gelieferten Tags durch bitweise and/or-Operationen verglichen und, falls vorhanden, der CacheWeg, der das gewünschte Datum speichert, ermittelt. Ebenfalls gleichzeitig mit diesem Vorgang werden gespeicherte Datenwerte des Mehrwege-Cache parallel ausgelesen und die Daten des ermittelten Cache-Weges schließlich an die nachfolgenden Funktionseinheiten weitergeleitet. Der wesentliche Unterschied zu herkömmlichen Caches besteht somit darin, dass das Tag-Ram nicht die physikalischen Speicheradressen, sondern eine Referenz auf einen TLB-Eintrag speichert. Das System-Interface des Prozessors ist mit 200 MHz getaktet und kann pro Takt zwei Speicherzugriffe vornehmen. Der Datenbus selbst hat eine Breite von 128 Bit. Damit kann der Itanium 2 bis zu 6,4 GByte pro Sekunde übertragen, mehr als das Dreifache des ersten Itaniums (Merced). 148 www.tecChannel.de Itanium Grundlagen Itanium 2 Processor External Memory L1 32 GByte/s 16 KByte L2 L3 64 Byte/line 256 KByte 3 MByte 1 CLK 6,4 GByte/s 32 GByte/s 8-way 12-way 128 Byte/line 128 Byte/line L1D 5-7 CLKS 32 GByte/s 16 KByte 12-15 CLKS 64 Byte/line 1 CLK Itanium Processor External Memory L3 4 MByte 2,1 GByte/s 12,8 GByte/s 4-way 64 Byte/line 21-24 CLKS L1 25,6 GByte/s 16 KByte L2 32 Byte/line 96 KByte 2 CLKS 6-way 64 Byte/line L1D 6-9 CLKS 25,6 GByte/s 16 KByte 32 Byte/line 2 CLKS © tecCHANNEL Der kleine Unterschied: Die Latenzzeiten und die Datentransferraten zum Cache und Speicher sind beim Itanium 2 gegenüber dem ersten Itanium deutlich schneller geworden. Die Speicherzugriffe führt der Itanium über 2 Queues aus: Die In-Order-Queue (IOQ) mit acht und die Out-of-Order-Queue (OOQ) mit 18 Einträgen. Die IOQ arbeitet die Speicheranfragen nacheinander ab, die OOQ enthält lediglich die aufgeschobenen Speicheranfragen in der Queue. Zusätzlich enthält das System Interface zwei 128-Byte-Pufferspeicher (coalescing buffer) für 8-Bit-Zugriffe auf den Speicher. Hier werden diese Speicheranfragen gesammelt und als gemeinsamer Speicherzugriff behandelt. 3.2.15 Details zur Pipeline: Frontend Die Funktionseinheiten zur Erzeugung der Befehlsadresse (Instruction Pointer, IP), zum Laden der Befehle sowie die Funktionseinheit zur Emulation von IA-32Befehlen bilden gemeinsam die ersten beiden Stufen der Prozessor-Pipeline. Diese beiden Stufen heißen Frontend der Pipeline. Die Instruction Pointer Generation (IPG) Stufe holt die Instruktionen paarweise (zwei Bündel a drei Instruktionen) aus dem Speicher in den Prozessor und stellt sie den nachfolgenden Stufen zur Verfügung. Dazu wird als neue Befehlsadresse entweder der IP um 32 erhöht oder die Befehlsadresse einer Sprungvorhersage beziehungsweise die alternative Adresse bei fehlgeschlagenen Sprungvorhersagen ausgewählt. Die Sprungvorhersage der IPG-Stufe berücksichtigt dabei die Ergebnisse der letzten vier Befehlsausführungen eines jeden Sprunges im Instruktions-Cache. Ist die ermittelte Adresse bereits im L1-Instruktions-Cache gespeiwebcode: p1281 149 Server chert, werden die beiden zugehörigen Instruktionsbündel an die zweite Stufe der Pipeline übergeben. Andernfalls holt sie der Instruction Streaming Buffer aus den übergeordneten Cache-Hierarchien, speichert sie im L1-Instruktions-Cache und leitet sie direkt an die zweite Stufe weiter. Ebenfalls in dieser Pipeline-Stufe ist die Prefetch Engine des Itanium zum vorausschauenden Laden von Instruktionen angesiedelt. Dazu wertet diese Funktionseinheit die Hints aus, die der Compiler optional an den Prozessor übergeben kann. Dieser lädt daraufhin maximal vier zusätzliche Cache-Zeilen des L2-Cache in den Instruktionsspeicher. Instruction pointer generation and fetch +32 L1 Cache 16 KByte Branch Prediction Branch misprediction & exception Instruction rotation Hit Instruction Buffer 8 Bundles 2 Bundles fill L2/L3 Fill 32 Byte Instruction Streaming Buffer 16 Bundles Prefetch Engine © tecCHANNEL Frontend: Die beiden ersten Stufen der Pipeline laden die Befehle und sorgen für eine möglichst gleich bleibende Auslastung der Ausführungseinheiten im Backend. Die zweite Stufe der Pipeline heißt Instruction Rotation (ROT). Sie speichert im Instruction Buffer die zwei Bündel, die die erste Pipeline-Stufe übergibt. Je nach aktueller Auslastung der Ausführungseinheiten im Backend leitet die ROT-Stufe dann das neue oder das älteste Instruktionsbündel weiter. Da der Instruction Buffer acht Paare von Instruktionsbündeln zwischenspeichern kann, entkoppelt er den L1-Instruktions-Cache und den Befehls-Fetch von den restlichen Stufen der Pipeline-Verarbeitung. 3.2.16 Details zur Pipeline: Backend I Das Backend der Pipeline verteilt die Instruktionen auf die verfügbaren Funktionseinheiten, verwaltet die physikalischen und logischen Register, führt die Instruktionen aus und schreibt die Ergebnisse in die Register. Damit legt das Backend den architekturellen Zustand der CPU fest. 150 www.tecChannel.de Itanium Grundlagen Das Backend besteht aus den folgenden Pipeline-Stufen: • Instruction template decode, expand and disperse (EXP) • Rename (for register stack and rotating registers) and decode (REN) • Register file read (REG) • ALU execution (EXE) • Exception detection (DET) • Write Back (WRB) Die Pipeline-Stufe EXP verteilt jeweils ein Paar von Instruktionsbündeln (sechs Instruktionen) über elf so genannte Issue Ports auf die Funktionseinheiten. Ist für eine Instruktion des Bündels keine passende Funktionseinheit frei, warten alle Befehle einen Taktzyklus, bevor EXP sie gemeinsam verteilt. Die Verteilung auf die verschiedenen Funktionseinheiten erfolgt dynamisch. Sind etwa alle Integer-Einheiten belegt, kann EXP eine Integer-Operation auch einer Speicherfunktionseinheit zuweisen, die ebenfalls eine einfache Integer-Arithmetik beherrscht. Pipeline-Stufen ITLB IPG IA-32 Decode & Control Insturction-Buffer 8Bundles Frontend L1 Instruction-Cache 16 KByte Fetch/Prefetch ������ ���������� � ����� ROT 11 Issue Ports B B M M M I I F EXP F Register Stack Engine (RSE)/ Register Renamer REN 128 IntegerRegister REG Branch & PredicateRegister 3x Branch Unit M L1 DataCache 16 KB L2 Data TLB ALAT 32 Entries 128 FP-Register 6x Integer 6x MultimediaUnit Hardware Page Walker (HPW) L3 Cache 1,5-6 MByte System Interface L2 Cache 256 KByte EXE FP1 2x Floating Point Unit Backend B DET FP2 WRB FP3 FP4 © tecCHANNEL Blockdiagramm: Die Funktionseinheiten des Itanium 2 und zugeordnete Pipeline-Stufen. webcode: p1281 151 Server Die folgende Pipeline-Stufe REN besteht aus der Register Stack Engine (RSE) und dem Register Renamer. Die RSE lagert gegebenenfalls Registerinhalte in den Cache-Speicher aus, schreibt die Inhalte wieder zurück in die Register und stellt so verschiedenen Applikationen oder Unterprogrammen einen vollständigen Registersatz und lokale Register zur Verfügung. Zum Speichern oder Zurückschreiben von Registerinhalten kann RSE die gesamte Pipeline anhalten. Die Register-Renamer-Funktionseinheit rotiert auch die Register bei SoftwarePipelines. Spezielle Sprungbefehle im Code steuern die REN und lösen eine Rotation der Register aus. Diese Einheit benennt diese Register allerdings statisch und unabhängig von eventuellen Datenabhängigkeiten (Write after Read Hazard, WAR) um. Die passende Zuordnung wieder herzustellen, ist bei der EPIC-Philosophie die Aufgabe des Compilers. Damit fällt der Schaltungsaufwand für die REN wesentlich einfacher aus als für die Renaming-Einheit in Prozessoren mit Out-of-Order-Programmausführung. 3.2.17 Details zur Pipeline: Backend II Die REG-Stufe der Itanium-Pipeline liest die Registerinhalte aus und stellt sie den Ausführungseinheiten zur Verfügung. Neben den vorhandenen Registerwerten reicht die fünfte Stufe auch die Ergebnisse vorangegangener Berechnungen an die Ausführungseinheiten weiter, die noch nicht in die Register zurückgeschrieben sind (forwarding). Damit kann die Ausführung von abhängigen Befehlen schon beginnen, bevor die vorangegangenen Befehle durch die Write-Back-Stufe komplett abgeschlossen wurden. Registerzugriffe registriert der Itanium im Scoreboard-Speicher. Falls Datenabhängigkeiten auftreten, wird die Ausführung weiterer Befehle gestoppt, bis die betreffenden Register wieder verfügbar sind. Die eigentliche Berechnung oder die Ausführung sonstiger Befehle findet in der EXE-Stufe der Pipeline statt. Jede Integer- und logische Operation benötigt einen Taktzyklus zur Ausführung, Speicherzugriffe erfordern mindestens zwei und Fließkommaberechnungen vier Taktzyklen. Die so genannte Dependency-Matrix stellt dabei die Abhängigkeiten nachfolgender Operationen fest und verzögert die folgenden Befehle für die Dauer der aktuellen Berechnung. Die REG-EXE-Funktionseinheit besitzt zwölf Ports zum Lesen und acht Ports zum Schreiben in die Register, so dass Zugriffe weit gehend parallel erfolgen können. Die DET-Stufe kontrolliert den Fluss der Befehle in der Pipeline und stoppt bei Bedarf das Verteilen weiterer Instruktionen in der EXP-Stufe. Diese Ereignisse führen zu einem vorübergehenden Anhalten der Befehlsverarbeitung durch der DET-Stufe: • L2-Daten-Cache-Miss • Alle Schreib-Lese-Einheiten in den Speicher sind belegt • Koordination der Integer- und der Fließkommaausführung bei Datenabhängigkeiten • Koordination des L1-Daten-Cache mit der Integer-Berechnung 152 www.tecChannel.de Itanium Grundlagen Die DET-Stufe erlaubt es den Caches, Speicheroperationen in den Befehlsfluss einzufügen, ohne die Programmausführung mehr als nötig zu verzögern. In der abschließenden WRB-Phase werden die Ergebnisse der Berechnungen in die Register zurückgeschrieben und damit vom physikalischen in den architekturellen Zustand der CPU übernommen. 3.2.18 Performance-Vergleich Obwohl alle Itanium-Prozessoren durch ihre Fließkommaleistung beeindrucken konnten, war die Integer-Leistung, die besonders im Server-Bereich benötigt wird, anfangs nicht die beste. Wie die Tabelle der SPEC-Ergebnisse (www.spec.org) zeigt, kann sich der Itanium der dritten Generation im Bereich der Fließkommarechnung deutlich von allen Konkurrenten absetzen. Bei 1500 MHz und mit einem L3-Cache von 6 MByte behauptet er sich jetzt auch bei den Integer-Berechnungen unter den Prozessoren vergleichbarer Taktfrequenz und liegt nun nahezu gleichauf mit dem Opteron von AMD. SPEC-Werte im Vergleich SPECfp2000 SPECint2000 Alpha 21264, 1250MHz 1365 928 AMD Opteron 146, 2000MHz 1250 1335 IBM Power4+, 1700MHz 1678 1103 Itanium, 800 MHz, 4 MByte L3-Cache 701 400 Itanium 2, 1500MHz, 6 MByte L3-Cache 2119 1322 Pentium 4, 3,2 GHz 1285 1330 Die für Server wohl wichtigsten Kennwerte werden vom Transaction Processing Performance Council (www.tpc.org/default.asp) (TPC) geliefert. Dessen Benchmarks messen die Leistung von Server-Systemen bei Datenbanksystemen für Online Transaction Processing. TPC-C Benchmarks, 4-Way CPU tpmC Kosten/tpmC (US-Dollar) Alpha 21264 1250 MHz 56375 9,44 AMD Opteron 844 1800MHz 82226 2,72 Itanium 2 1500MHz 136111 3,97 Xeon MP 2,8 GHz 90272 3,94 webcode: p1281 153 Server Unter den 4-CPU-Systemen erreicht ein auf Itanium basierendes System den höchsten Kennwert. Daneben hält ein Itanium-2-Rechner auch den höchsten bisher erreichten tpmC-Wert: Ein HP-Superdome-System mit 64 Prozessoren vom Typ Itanium 2/1,5GHz lieferte 1.008.144 tpmC. Auffallend ist, dass die meisten der Top-Benchmark-Werte auf Rechnersystemen von HP erzielt wurden, die die hauseigenen Chipsätze zx1 und sx1000 verwenden. 3.2.19 Fazit Mit dem EPIC-Paradigma verlagert Intel einen großen Teil der Aufgabe, Programmcode zu parallelisieren, von der Hardware auf den Compiler. Dies bietet zum einen den Vorteil einer weniger komplexen und damit schnellen Hardware. Zum anderen ist diese Technologie in der Lage, die Ergebnisse künftiger Entwicklungen und Algorithmen zu nutzen, ohne dass Intel die Hardware ändern muss. Durch die Hints, das spekulative Laden von Daten und das Software-Pipelining wird ein Interface zum Compiler geschaffen, das ein effizientes Hardware-Software-Codedesign ermöglicht. Insbesondere die Fließkommaeinheit des Itanium ist sämtlichen anderen Prozessoren dieser Klasse weit voraus. Das komplexe und schnelle Speichersystem tut ein Übriges, um den Systemdurchsatz zu erhöhen. Mit dem Itanium definiert Intel so eine moderne Plattform, die viele Schwächen der alten IA-32 vermeidet. Der Nachteil dieser Vorgehensweise liegt im teils wesentlich erhöhten Speicherbedarf für Programme. Da nicht alle Kombinationen von Templates parallel ausführbar sind, enthält der Code viele NOP-Befehle. Der Korrekturcode für die spekulative Ausführung bläht die Programme zusätzlich auf. Predicated Instructions und das spekulative Laden von Daten beschäftigen die CPU zudem oft mit Berechnungen, die später wieder verworfen werden. Nicht umsonst schluckt der Itanium 2 bei 1,5 GHz 130 Watt, der Strom sparende Deerfield immerhin noch 62 Watt bei 1 GHz. Wenngleich die Itanium-CPU daher kaum in tragbaren Computern zu finden sein wird, ist er dank seiner sehr leistungsfähigen Fließkommaeinheit und der innovativen Konzepte wie der RegisterRotation bestens für die Zukunft gerüstet. Nach einem zähen Start lehrt er im Server-Bereich inzwischen andere CPU-Hersteller das Fürchten. Und mit dem Deerfield schiebt Intel bereits vorsichtig einen Brückenkopf in Richtung Desktop-PC. Christian Wiegand und Albert Lauchner tecCHANNEL-Links zum Thema Webcode Compact Grundlagen zu Intels Itanium p1281 S.135 Roadmap Server CPUs a1118 – Opteron im Server-Einsatz p1163 – 154 www.tecChannel.de Serial Attached SCSI 3.3 Serial Attached SCSI 2004 tritt Serial Attached SCSI an, um mittelfristig das parallele SCSI abzulösen. Kompatibilität zu SATA und neue Features sowie breite Herstellerunterstützung sollen für eine schnelle Akzeptanz der Schnittstelle sorgen. Im klassischen professionellen SCSI-Markt zählen abseits von Performance Argumente wie Skalierbarkeit und Verfügbarkeit. Hier bringt Serial Attached SCSI gegenüber seinen parallelen Vorfahren entscheidende Änderungen mit. Das parallele SCSI hat mit dem aktuellen Ultra320-SCSI den Höhepunkt des technisch sinnvoll Machbaren erreicht. Wie bei anderen Schnittstellen und Bussystemen erfolgt auch bei SCSI der Umstieg auf den seriellen Betrieb. Im ersten Schritt soll Serial Attached SCSI Übertragungsraten von bis zu 300 MByte/s (1000er Basis) erreichen, die Roadmap sieht bis 2010 Übertragungsraten von bis zu 1200 MByte/s vor. Serial Attached SCSI (SAS) verspricht SoftwareKompatibilität, günstigere Steckverbinder, bessere Skalierbarkeit, höhere Geschwindigkeit sowie Unterstützung von SATA-Festplatten. Serial Attached SCSI bringt nicht nur Potenzial für weitere Entwicklungen mit, sondern bietet auch deutlich mehr Flexibilität als seine Vorgänger. Dafür sorgen unter anderem die Anleihen bei SATA und Fibre Channel, die in Serial Attached SCSI einflossen. 3.3.1 Serial Attached SCSI Mit Ultra320-SCSI ist die parallele SCSI-Schnittstelle nach über 20 Jahren in ihrer jetzigen Form ausgereizt. Zu aufwendig und teuer wäre es, den Anforderungen der nahen Zukunft mit einem parallelen Interface zu begegnen. Bereits bei Ultra320-SCSI waren Techniken wie AAF (Adjustable Active Filter) erforderlich, um einen sauberen Signaltransport zu gewährleisten. Bei Ultra640-SCSI wären die Reflexionen schon so stark wie die Signale selbst. Der elektrische Aufwand zur Realisierung wäre immens – und ein weiterer Fortschritt nur noch schwerlich absehbar. Serial Attached SCSI ist wie SATA eine Punkt-zu-Punkt-Verbindung und kein paralleler Bus. Zwischen dem SAS-Host-Bus-Adapter und den einzelnen Endgeräten verwendet SAS wie SATA einzelne Verbindungen. Damit entfallen auch die für SCSI bisher typischen Problematiken hinsichtlich Verkabelung und Terminierung. Darüber hinaus wird ausgeschlossen, dass ein defektes Kabel oder Endgerät die anderen beeinflusst. SAS übernimmt die für SATA eingeführten Kabel mit einer Steckverbindung, die Verwechslungen ausschließt. SATA-Geräte lassen sich an SAS nutzen, jedoch nicht umgekehrt. In der ersten Stufe sieht SAS eine Bandbreite von 3 Gbit/s vor. Dies soll eine Datentransferrate von 300 MByte/s genügen. Anders als bei Ultra320-SCSI müssen sich die Endgeräte die Bandbreite nicht teilen. Wie unser Test (webcode: a1076) von Ultra320-SCSI zeigt, gerät ein Single-Channel-Controller bereits mit vier angeschlossenen Festplatten an seine Grenze. webcode: a1274 155 Server SAS HBA (Initiator) SAS HDD SATA HDD SATA HDD SAS HDD © tecCHANNEL Friedlich vereint: An SAS-Host-Bus-Adaptern können sowohl SAS-Festplatten als auch SATADrives Anschluss finden, die Erkennung erfolgt automatisch. Darüber hinaus erfolgt bei SAS die Datenübertragung im Vollduplex-Modus. Das in der SAS-Spezifikation vorgesehene Dual-Porting erlaubt den Anschluss einer SAS-Festplatte an zwei unterschiedliche Host-Adapter. Damit lassen sich redundante Architekturen einfach realisieren. Zusätzlich erlaubt SAS die Zusammenfassung von Ports in einer Art Kanalbündelung zur Performance-Erhöhung. SAS unterstützt wie SATA eine interne Kabellänge von einem Meter, die Spezifikation sieht zudem externe Kabel von bis zu zehn Metern Länge vor. 3.3.2 SAS-Topologie Gegenüber dem traditionellen parallelen SCSI geht SAS in Sachen Skalierbarkeit auf Expansionskurs. Punkt-zu-Punkt-Verbindungen erlauben höhere Bandbreiten als parallele Lösungen. Um allerdings mehr Geräte an einem Controller zu betreiben, als dieser Ports bietet, sind zusätzliche Erweiterungseinheiten erforderlich. Mit den so genannten Expandern wird dafür bei SAS eine neue Geräteklasse eingeführt. Diese Expander agieren als eine Art Switch zwischen dem Host-Adapter und den Endgeräten und übernehmen die Verwaltung derselben. 156 Dynamische Adressierung: Das SASKonzept erlaubt, dass über Expander jeder Host mit jedem Endgerät kommuniziert. Die Übertragung erfolgt dabei simultan. JBOD © tecCHANNEL Expander Backpanel www.tecChannel.de Serial Attached SCSI An einen Edge-Expander lassen sich bis zu 128 SAS-Endgeräte anschließen. Ein so genannter Fanout-Expander verträgt bis zu 128 Edge-Expander-Sets, so dass sich in einer SAS-Umgebung mehr als 16.000 Endgeräte betreiben lassen. Das ist weniger als bei Fibre Channel, aber deutlich mehr als bei parallelem SCSI. Fanout expander device Edge expander device set Edge expander device Edge expander device End device Edge expander device ... End device Edge expander device set Edge expander device End device Maximal 128 Edge-Expander-Device-Sets Maximal 128 SAS-Adressen pro Edge-Expander-Device-Set Fanout expander device Eine derart hohe Anzahl an möglichen Endgeräten macht die Verwaltung komplexer, als dies beim bisherigen SCSI der Fall war. Beim parallelen SCSI erfolgt die Einstellung der Adressen Hardware-seitig. Als Identifikation arbeitet SAS mit den WWN (WorldWideNames), die als eindeutige Kennung für SCSI-Geräte fungieren. In einer SAS-Umgebung betriebene SATA-Geräte bekommen von den Expandern eine WWN-Kennung zugewiesen. End device © tecCHANNEL Gerätevielfalt: Ein Fanout-Expander kann bis zu 128 Edge-Expander unter sich aufnehmen, die ihrerseits je 128 SAS-Adressen verwalten können. 3.3.3 Serielle Verkabelung Wie erwähnt verwendet SAS die von SATA bekannten Kabel und adaptierte Steckverbinder. SCSI-Festplatten sind nicht als notorische Einzelgänger bekannt, sondern treten in der Regel in Gruppen auf. Das macht die Verkabelung bei parallelen SCSI-Einheiten entsprechend komplex. Neben den empfindlichen und teuren 68-poligen SCSI-Kabeln sind auch die aktuellen unterschiedlichen Steckverbindungen kein Garant für Flexibilität. Abseits der elektrischen Auswirkungen, wie dem Übersprechen, bietet die serielle Verkabelung noch einen anderen – augenscheinlich profanen – Vorteil: SCSIFestplatten arbeiten meist nicht nur im Verbund, sie tun dies auch mit hohen Umwebcode: a1274 157 Server drehungszahlen. Beide Faktoren zusammen erfordern ein durchdachtes Design hinsichtlich der Temperaturentwicklung. Dies um so mehr, da bei der Entwicklung von Storage-Lösungen der Raumbedarf zunehmend an Bedeutung gewinnt. Bei einer seriellen Verkabelung lässt sich ein ausreichender Luftstrom deutlich leichter realisieren als beim aktuellen Parallel-SCSI. Darüber hinaus erleichtern die kleineren Steckverbinder die Verwendung von Festplatten mit kleinerem Formfaktor. So entwickelt Seagate eine EnterpriseFestplatte für SAS im 2,5-Zoll-Format. Und last but not least sorgen die serielle Verkabelung sowie die Kompatibilität zu SATA für günstigere Backplanes. Je nach Anwendung lässt sich entscheiden, ob SAS- oder SATA-Drives zum Einsatz kommen, die vorhandene Umgebung bleibt identisch. 3.3.4 Kompatibilität Eine wichtige Eigenschaft von Serial Attached SCSI ist die Kompatibilität zum bisherigen SCSI. Eine Anpassung von Applikationen und Betriebssystemen an SAS ist nicht oder nur geringfügig notwendig. Serial Attached SCSI arbeitet mit drei Protokollen. Das SSP (Serial SCSI Protocol) ist die serielle Umsetzung des bestehenden SCSI-Protokolls. Das STP (Serial Tunneling Protocol) kümmert sich um die Umsetzung der SATA-Befehle für die gegebenenfalls angeschlossenen SATA-Festplatten. Das SMP (SCSI Management Protocol) liefert die Verwaltungsinformationen und ist für das Management der Vielzahl der möglichen Punkt-zu-Punkt-Verbindungen zuständig. Alle drei Protokolle teilen sich kompatible Verbindungen und das Hardware-Interface. Wie SATA und Fibre Channel bedient sich Serial Attached SCSI der 8B/10B-Kodierung für die Übertragung. Übersetzer: Beim Betrieb von SATA-Festplatten an einem SAS-Controller sorgt das Serial Tunneling Protocol für die korrekte Umsetzung. SAS HBA (Initiator) Serial Tunneling Protocol SAS HDD 158 SATA HDD © tecCHANNEL Expander www.tecChannel.de Serial Attached SCSI Serial Attached SCSI und Serial ATA verwenden den gleichen Steckertyp. Eine Kerbe am Stecker verhindert, dass sich eine SAS-Festplatte an einen SATA-Controller anschließen lässt. SAS arbeitet mit höheren Spannungen als SATA, da das Signal gegebenenfalls längere Strecken oder Backplanes überwinden muss. Bei der Initialisierung der SAS-Umgebung erfolgt die Erkennung der einzelnen Endgeräte mit der Zuweisung des entsprechenden Protokolls und der Signale je nach SATA- oder SAS-Endgerät. 3.3.5 SCSI-Roadmap Das im Jahr 2002 eingeführte Ultra320-SCSI ist die letzte parallele Version von SCSI. Branchenkenner gehen momentan innerhalb der installierten SCSI-Umgebungen von einem Anteil von zehn Prozent Ultra320-SCSI aus. Das ursprünglich als Nachfolger geplante Ultra640-SCSI ist nicht mehr in der Diskussion. Gründe dafür dürften unter anderem die erwähnten technischen Schwierigkeiten bei der Umsetzung sein. So sorgt etwa die Verkabelung für extreme Probleme. Eine einfache Migration auf einen neuen Standard wäre kaum möglich. Serial Attached SCSI SAS 1200 Serial Attached SCSI SAS 300 Serial Attached SCSI SAS 600 Parallel SCSI Ultra 320 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 © tecCHANNEL Stufenweise: SAS startet mit 300 MByte/s und soll 2004 das parallele SCSI ablösen, die Planung steht bis zu 1200 MByte/s (jeweils 1000er Basis) im Jahre 2010. Erste Produkte mit Serial Attached SCSI soll es im Jahr 2004 mit einer Datenübertragungsrate von 300 MByte/s geben, konkret wird die zweite Jahreshälfte als Einführungsdatum von Endprodukten genannt. Im Jahr 2004 geht man bei SCSIFestplatten von sequenziellen Datentransferraten von 127 MByte/s aus. 2006 sollen es 238 MByte/s sein. Damit wäre ein SAS-300-Kanal inklusive Overhead schon ausgereizt. Für das Jahr 2007 ist deshalb die nächste SAS-Variante mit eiwebcode: a1274 159 Server ner Bandbreite von 600 MByte/s geplant. Serial SCSI 1200 soll 2010 an den Start gehen. Die Bandbreite von 1200 MByte/s wäre dann auch nötig, denn eine Festplatte liefert nach Ansicht der SCSI Trade Association (http://www.scsita.org) zu diesem Zeitpunkt bereits 830 MByte/s sequenzielle Datentransferrate. 3.3.6 SAS – Status quo 2003 gelang es den Herstellern sukzessive, erste Erfolge bei der Umsetzung von SAS in Hardware zu erzielen. So demonstrierte Seagate bereits auf der „CeBIT 2003“ einen Prototypen einer funktionierenden SAS-Festplatte. Das Demolaufwerk basierte auf einer Seagate Cheetah mit 73 GByte Kapazität. Ebenfalls im März 2003 war es Adaptec gelungen, ein SCSI-Signal von einem RAID-Controller über serielle Verkabelung auf vier Festplatten und wieder zurück zu übertragen. Die breite Unterstützung durch die Hersteller belegt die im April 2003 von Adaptec und den Festplattenherstellern Fujitsu, Maxtor, Seagate und Hitachi ins Leben gerufene „Serial Attached SCSI“-Initiative. Im Sommer 2003 demonstrierten Seagate und Maxtor auf der HP World, wie sich SAS- und SATA-Festplatten kombinieren lassen. Dabei kamen Maxtors MaxlineSATA-Drives und Atlas-Festplatten mit Serial Attached SCSI zum Einsatz. Seagate zeigte darüber hinaus eine 2,5-Zoll-Festplatte mit SAS-Interface für den professionellen Einsatz. Ebenfalls im Sommer 2003 stellten Maxtor und LSI Logic beim T10-Komitee eine lauffähige SAS-Umgebung vor. Bei der Demonstration arbeitete ein LSI Logic-SAS-Controller mit SAS-Festplatten von Maxtor und Seagate zusammen. Dabei wurden unter Verwendung des „Serial Attached“SCSI-Protokolls (SSP) SCSI-Schreib- und Lesebefehle ausgeführt. Schließlich zeigte LSI Logic auf der „Comdex“ in Las Vegas im November 2003 zwei Prototypen von Expandern – im Zusammenspiel mit SAS-Controllern sowie SATAund SAS-Festplatten. Im Mai 2003 ging die Spezifikation von Serial Attached SCSI an das T10-Komitee (http://www.t10.org). Seit Juli 2003 ist dort die Spezifikation öffentlich, im November 2003 wurde ein Entwurf der SAS-Spezifikation 1.1 veröffentlicht, der einige Änderungen enthält. Unter der Aufsicht von ANSI legt das T10-Komitee die Details für alle SCSIStandards fest. Das T10 sorgt dafür, dass die verabschiedeten Richtlinien in Übereinstimmung mit den Industriegruppen erfolgen. 3.3.7 Ausblick Auf Grund seiner Konzeption bietet Serial Attached SCSI ein hohes Maß an Flexibilität. Damit ist Serial Attached SCSI in den Bereichen DAS, NAS und SAN ebenso einsetzbar wie für interne Lösungen. Für die externe Anbindung zu Speichernetzen kommen nach wie vor Fibre Channel und iSCSI zum Zuge. Da auf 160 www.tecChannel.de Serial Attached SCSI Applikationsseite dank SCSI-Unterstützung keine Umstellung erforderlich ist, dürften der Migration zu SAS keine zu großen Hemmschwellen im Wege stehen. Dazu sollten auch die wegen geringerer Kosten für Backplanes und Verkabelung verfügbaren Storage-Lösungen beitragen. Die Kompatibilität zu SATA-Drives dürfte da ihr Übriges tun. Überall dort, wo es die Anforderungen zulassen, können die günstigeren Laufwerke zum Einsatz kommen. Dass die SAS-Festplatten selbst in Richtung 2,5 Zoll streben, kommt den Anforderungen des Markts gleichfalls entgegen. Damit bietet Serial Attached SCSI nicht nur aus Leistungs-, sondern auch aus Kostensicht einige Vorteile. Bleibt abzuwarten, ob der gesetzte Zeitplan eingehalten wird. Malte Jeschke tecCHANNEL-Links zum Thema Webcode Compact Serial Attached SCSI a1274 S.155 SCSI-Grundlagen p382 – SCSI-Spezifikationen p320 – Test: Ultra320-SCSI a1076 – iSCSI – IP-basierte Speichernetze p1085 – Highspeed-IDE: Serial-ATA (II) p574 – SANs – Standards und Lösungen a679 – Gefahr: IDE-Festplatten im Dauereinsatz p964 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. webcode: a1274 161 Server 3.4 AMD Opteron im Server-Einsatz AMD beschreitet mit der AMD64-Technologie neue Wege, ohne alte Pfade zu verlassen. Statt wie Intel bei den 64-Bit-CPUs der Itanium-Serie eine komplett neue Architektur aufzusetzen, erweitert AMD die vorhandenen Register auf 64 Bit Breite und fügt einige neue hinzu. Damit geht das Unternehmen einen ähnlichen Weg wie Intel beim Übergang vom 286er zum 386er. Die Erweiterung der vorhandenen IA-32-Technologie soll sicherstellen, dass die AMD64-CPUs sowohl mit 32- als auch 64-Bit-Betriebssystemen vorhandenen 16- und 32-Bit-Code ohne Performance-Verlust ausführen können. Die IA-64-Architektur von Intels Itanium-Serie arbeitet alte Anwendungen dagegen nur mittels einer aufwendigen Hardware-Emulation ab. Dabei werden x86-Register auf die IA-64-Register abgebildet und über eine Kontrolllogik in einen IA-64-Datenstrom umgewandelt. Das kostet Zeit und geht zu Lasten der Performance. Bei der AMD64-Architektur ist eine Emulation dagegen nicht erforderlich – die 64-BitErweiterung wird bei 32-Bit-Software einfach nicht genutzt. Neuland betritt AMD beim Prozessorbus. Statt über einen parallelen Front Side Bus kommuniziert die CPU über eine HyperTransport-Schnittstelle. Das serielle Interface mit variabler Bitbreite ermöglicht beim Opteron eine Datentransferrate von 2,98 GByte/s – in jede Richtung gleichzeitig. Damit ergibt sich eine Gesamtbandbreite von 5,96 GByte/s. Zum Vergleich: Der Pentium 4 mit 800 MHz FSB erlaubt ebenfalls einen maximalen Datendurchsatz von 5,96 GByte/s – aber nicht in beiden Richtungen gleichzeitig. Den Server-Prozessoren der Opteron-800-Serie spendiert AMD gleich drei HyperTransport-Schnittstellen. In Multiprozessorsystemen koppelt HyperTransport die CPUs direkt miteinander. Ohne zusätzlichen Chipsatz lassen sich damit bis zu acht Opterons zusammenschalten. AMD nennt dieses Verfahren „Glueless Multiprocessing“. Über das HyperTransport-Interface läuft der gesamte Datenverkehr der Hammer-Prozessoren und des integrierten Memory Controller. Damit vermeidet die AMD64-Architektur den Flaschenhals Northbridge, wie er sich in der Intel-Architektur findet. Dadurch würde sich ein Opteron-basierter Rechner zumindest in der Theorie eigentlich ideal für den Server-typischen Einsatz mit hohen I/O-Lasten eignen. Ob dem auch in der Praxis so ist, haben wir in mehreren Testserien mit Dual- und Quad-Opteron-Systemen erprobt. 3.4.1 Newisys 2100 Kurz vor Ostern 2003 traf frisch aus dem texanischen Austin das erste Testmuster eines Dual-Opteron-Rechners bei tecCHANNEL ein. Trotz der 1HE-Ausführung lässt sich der Newisys 2100 (alias „Kephri“) nicht wirklich als Pizzabox umschreiben: Bei einer Gehäusetiefe von stolzen 73 Zentimetern passt der Server bei weitem nicht in jedes Rack. 162 www.tecChannel.de AMD Opteron im Server-Einsatz Neben zwei mit 1800 MHz getakteten CPUs des Typs Opteron 244 bringt das Testsystem 2 GByte Registered DDR-333-SDRAM sowie zwei als Mirror Set konfigurierbare 36-GByte-Festplatten mit Ultra320-SCSI-Interface mit. Neben dem für die Harddisks zuständigen SCSI-Controller von LSI Logic finden sich auf dem Board integriert auch noch ein Trident-Grafikchip sowie zwei 100/1000Mbit/s-Ethernet-Controller von Broadcom. Zwei über getrennte Busse angesteuerte PCI-X-Slots stehen für Erweiterungskarten parat (eine darf volle, die andere nur halbe Baulänge haben). Aufgeräumt: Das Innenleben des Opteron-Testrechners präsentiert sich übersichtlich. (Quelle: tecCHANNEL) Für Management-Angelegenheiten zeichnet ein eigener Service-Prozessor verantwortlich, der unter anderem die zahlreichen Temperatur-, Spannungs- und Lüftersensoren des Boards überwacht. Er lässt sich per HTTPS mit SSL-Verschlüsselung über eine eigene Fast-Ethernet-Schnittstelle ansprechen, so dass sich die Maschine Security-konform in ein gesichertes Management-Teilnetz einbinden lässt. Über das Verwaltungs-Interface kann der Administrator bei Bedarf auch den Server herunterfahren oder neu starten. 3.4.2 Die Konkurrenz AMD positioniert den Opteron trotz seiner 64-Bit-Fähigkeiten als Konkurrenz zu Intels Xeon-CPU – eine Einschätzung, die auch Intel durchaus teilt. Daher lassen wir den Newisys gegen zwei P4-Xeon-Konkurrenten antreten: Den Einstiegs-Server x225 von IBM und den Abteilungs-Server PowerEdge 4600 von Dell. webcode: p1261 163 Server Feld, Wald, Wiese: Der IBM xSeries 225 ist als Allround-Maschine für kleinere Benutzerzahlen gedacht. (Quelle: tecCHANNEL) Unser Testsystem IBM xSeries 225 bringt zwei Xeon-Prozessoren mit 2,40 GHz Taktrate und 2 GByte Dual-Channel-DDR266-SDRAM mit. Als Massenspeicher werkelt eine einzelne Ultra320-SCSI-Disk, immerhin hätten aber sechs Stück im Gehäuse Platz. Grafik- und 100/1000-Mbit/s-Ethernet-Controller finden sich auf dem Board, für Erweiterungen stehen ein PCI-32- und vier PCI-64-Steckplätze zur Verfügung. Typische Server-Features wie Management-Chipsatz, zugriffsgeschützte Laufwerke oder redundante Komponenten lässt der x225 vermissen. Zu dieser Workstation-Anmutung passt auch der für einen Server absolut ungewöhnliche AGP-Slot auf dem Board. Arbeitstier: Als robuster Lastesel für mittlere Arbeitsgruppen positioniert sich der mit redundanten Komponenten operierende Dell PowerEdge 4600. (Quelle: tecCHANNEL) Der Dell PowerEdge 4600 stellt das absolute Komplement dazu dar. Als robuster Arbeitsgruppen-Lastesel ist er mit einem ServerWorks-Management-Chipsatz und zahlreichen High-Availability-Merkmalen, wie etwa redundanten Netzteilen, ausgestattet. Ein Zweikanal-RAID-Controller bedient bis zu zehn Ultra320-SCSI164 www.tecChannel.de AMD Opteron im Server-Einsatz Disks mit maximal knapp 1,5 TByte Nennkapazität. Sieben PCI-Steckplätze, davon sechs in PCI-X-Ausführung, nehmen Erweiterungen auf. Für reichlich Rechenleistung sollen zwei mit 2800 MHz getaktete Xeon-CPUs sorgen, die in unserem Testsystem auf 4 GByte Registered DDR200-Speicher zugreifen können. 3.4.3 AMD Quartet Zwar gab AMD bereits im Juni 2003 die Verfügbarkeit der Opteron-800-Series – also seiner 8-Wege-fähigen 64-Bit-CPUs – bekannt, entsprechende Systeme lassen jedoch auf sich warten. Dies ist um so bedauerlicher, als sich 2-Wege-Server im Pizzabox-Format wie der Newisys 2100 Kephri zwar hervorragend für Clustering- und Load-Balancing-Lösungen eignen, für den Arbeitsalltag als Workgroupoder Departmental-Lastesel aber einfach zu wenig Substanz mitbringen. Lastesel: Der Quartet präsentiert sich Server-typisch in einem robusten Edelstahlgehäuse im klassischen 19-Zoll/ 4-HE-Format. (Quelle: tecCHANNEL) Mit einem auf den schlichten Namen „Quartet“ hörenden 4-Wege-System zeigte AMD jedoch im September 2003, wie ein für den klassischen Unternehmenseinsatz geeignetes Opteron-System aussehen könnte. Der Quartet präsentiert sich Server-typisch in einem robusten Edelstahlgehäuse im klassischen 19-Zoll/4-HEFormat. Neben den vier Prozessoren des Typs Opteron 844 mit 1,8 GHz Taktfrequenz finden darin auch bis zu vier Platten und maximal sechs Erweiterungskarten voller Baulänge Platz. Bei den dazugehörigen Steckplätzen handelt es sich um drei PCI-X-66MHz/64-Bit-Slots, zwei Hot-plug-fähige PCI-X-Slots in 133-MHz/ 64-Bit-Ausführung sowie einen Legacy-Steckplatz für 33-MHz/32-Bit-Karten. Unser Testsystem bringt in den 16 zur Verfügung stehenden Memory Slots 8 GByte Registered DDR-333-SDRAM mit. Für die Ansteuerung der Festplatten verfügt der Quartet über einen onboard integrierten Ultra320-SCSI-RAID-Controller (LSI 53C1030) mit zwei Kanälen. Die Backplane für die vier in Shuttles gelagerten Platten steuert ein SAF-TE-fähiger Enclosure Management Controller von Qlogic (SDR GEM318P). Wer‘s schlichter mag oder eine klassische Konfiguration mit getrennter Bootplatte aufsetzen will, findet aber auch einen UDMA133-EIDE-Port auf dem Board. webcode: p1261 165 Server 3.4.4 Innenleben und Bedienung Das 66 Zentimeter tiefe und damit in die meisten Racks problemlos integrierbare Metallgehäuse des Quartet hat AMD in zwei separate Compartments unterteilt. Sie werden jeweils durch ein von oben leicht zugängliches, mit Schnappern fixiertes Abdeckblech verschlossen. Komponentenwechsel oder das Nachrüsten von Steckkarten lassen sich daher in wenigen Sekunden erledigen. Durchzug: Allein im System-Compartment sorgen acht Ventilatoren für die Belüftung von Board und CPUs. (Quelle: tecCHANNEL) Ein schmales Abteil auf der linken Gehäuseseite nimmt die in Shuttles gelagerten Festplatten – in unserem Fall vier Seagate Cheetah 15K.3 (je 36,7 GByte, 15.000 U/min) und die dazugehörige Backplane auf. Zwei hinter der Backplane residierende Lüfter stellen die Kühlung der Platten sowie der im Anschluss an den Storage-Bereich untergebrachten PCI/PCI-X-Erweiterungskarten sicher. Im großzügigen rechten Compartment befindet sich die Systemplatine mit den vier Opteron-CPUs sowie den zahlreichen Onboard-Komponenten. Vier Lüfter – zwei im Saugbetrieb an der Vorderseite, zwei im Blasbetrieb an der Rückwand – sorgen für großzügige Durchströmung des Gehäuses mit Kühlluft. Vier weitere Ventilatoren beatmen darüber hinaus nach demselben Prinzip die in Zweiergruppen platzierten Prozessoren direkt. Trotz der zahlreichen Luftschaufler – insgesamt zählen wir neun – hält sich das Betriebsgeräusch des Rechners in Grenzen. Auch außen am AMD Quartet gibt es einiges zu sehen – speziell an seiner Vorderseite. Linkerhand findet sich der Storage-Bereich mit den vier 3,5-Zoll-Diskshuttles sowie einem kombinierten Floppy/CD-ROM-Laufwerk im Slimline-Format. Rechts daneben liegen zugangsfreundlich die Anschlüsse für Maus und Tastatur sowie für den Monitor. 166 www.tecChannel.de AMD Opteron im Server-Einsatz Für externe Plug-and-Play-Komponenten bietet der Quartet hier außerdem ein USB-1.1-Interface an. Im rechterhand platzierten Bedien- und Kontrollbereich finden sich versenkte Power- und Reset-Taster sowie fünf LEDs. Sie signalisieren den Betriebszustand der Stromversorgung, der Festplatten sowie der zwei Gigabit-Ethernet-Interfaces des Quartet. Bei der fünften Diode handelt es sich um eine Fault-Anzeige. Falls diese aufleuchtet, ist vermutlich eines der beiden auf der Gehäuserückseite untergebrachten, redundanten Netzteile ausgefallen. Es kann dann aber im laufenden Betrieb gewechselt werden. Außer den beiden Stromversorgungen gibt es auf der Rückseite des Quartet nicht allzu viel zu sehen. An Anschlüssen stehen der externe Kanal des Ultra320-SCSIControllers, eine RS232-Schnittstelle sowie vier RJ45-Ports parat. Bei zwei davon handelt es sich um die beiden Gigabit-Netzwerk-Interfaces des Quartet, dazu kommt ein weiterer 10/100-Mbit-NIC-Port. Die vierte Netzwerkbuchse soll einmal das – bei unserem Testrechner jedoch noch nicht implementierte – Management-Interface versorgen. 3.4.5 Die Testumgebung Auf allen Testrechnern installieren wir als Betriebssystem die aktuelle Variante des SuSE Linux Enterprise Server 8 (kurz: SLES8) für x86. Für die 64-Bit-Tests auf den Opteron-Systemen kommt der SLES8 für AMD64 zum Einsatz. Somit können wir auf allen Maschinen des Testfelds in identischer 32-Bit-Betriebssystemumgebung sowie auf den Opteron-Rechnern unter nahezu quellidentischem 32- und 64-Bit-OS testen. Als Benchmarks verwenden wir eine Reihe von quelloffenen Testsuiten, mit denen sich die Performance unter mittleren bis hohen Systemlasten prüfen lässt. Eine portierte Variante des bekannten Byte-Benchmarks stellt unixbench dar, aus dessen Fundus wir einige multiprozessorfähige Tests auswählen. Aus dem Werkzeugkasten der Samba-Entwickler stammt dbench, das unter Verwendung gescripteter Netzwerkdaten den Zugriff hoher Client-Zahlen auf das Filesystem simuliert. Zur Ermittlung grundlegender Bandbreitendaten setzen wir den lmbench ein. Für die Messung von Lastdaten im Multiuser-Betrieb dient die AIM Suite VII aus den AIM-Benchmarks von SCO. Alle Benchmarks kompilieren wir unmittelbar auf den Zielplattformen, was speziell bei den AIM-Benchmarks etwas Nacharbeit am Code erfordert, um einen fehlerfreien Ablauf zu garantieren. Des Weiteren entfernen wir aus den Suites Harddisk-spezifische Benchmarks, um die nicht ganz identische Ausstattung der Testsysteme zu kompensieren. Den mit doppelt so viel RAM wie die OpteronKonkurrenz Kephri ausgestatteten Dell PowerEdge 4600 beschränken wir per Kernel-Bootparameter auf die Verwendung von 2 GByte Speicher. Vor jedem Testlauf starten wir die Rechner neu, um Speicher und Filesystem von etwaigen Überbleibseln des vorherigen Benchmarks zu säubern. webcode: p1261 167 Server 3.4.6 AIM Suite VII Als Benchmark für die Verarbeitung hoher Prozesslasten – eine natürliche Domäne jedes Servers – dient uns die AIM Suite VII von SCO. Sie arbeitet eine gemischte Arbeitslast von rund 60 Tests aus den Bereichen Arithmetik, I/O, Prozessgenerierung und Filesystem-Handling ab. Dabei misst sie die Anzahl der verarbeiteten Aufgaben pro Minute. Die festplattenspezifischen Tests der Suite haben wir ausgeklammert: zum einen, um die unterschiedliche Ausstattung der Testrechner zu kompensieren; zum anderen, um gezielt die CPU-Leistung zu ermitteln. © tecCHANNEL Opteron weit vorn: Bei der Verarbeitung hoher Prozesslasten deklassiert der Opteron die höher getakteten Xeons deutlich. Das Ergebnis fällt mehr als deutlich aus. Sowohl im 32- als auch im 64-Bit-Modus hängt der Dual-Opteron die Xeon-Konkurrenz über den ganzen Messbereich hinweg klar ab. Während sich bei den Xeon-Maschinen ab 48 parallelen Tasks die Leistung langsam zu nivellieren beginnt, steigt beim Newisys Kephri die Leistungskurve auch mit höherer Aufgabenlast weiter an. Ein Dauertest, bei dem die Systeme bis zu 512 parallele Tasks abarbeiten müssen, belegt den Newisys 2100 für knapp 38 Stunden mit Beschlag; die zwei Xeons des Dell PowerEdge 4600 werkeln mehr als doppelt so lange. Hier erschöpfen sich die Leistungsreserven des Dual-Xeon-Rechners wesentlich früher: Bei mehr als 178 parallelen Tasks erzielt er keinen Leistungszuwachs mehr und pendelt sich bei rund 4500 Jobs/Minute ein. Der Dual-Opteron dagegen legt im Test noch bis 298 Tasks an Performance zu und verarbeitet maximal knapp 9500 Jobs je Minute. „Was die Skalierbarkeit angeht, sollte der Quartet relativ gut performen“, so hatte AMD-Pressesprecher Jan Gütter uns den 4-Wege-Opteron vorab unbescheiden angekündigt. Und dabei keineswegs den Mund zu voll genommen, wie die Ergeb- 168 www.tecChannel.de AMD Opteron im Server-Einsatz nisse der AIM Suite VII zeigen. Von Overhead-Effekten beim Einsatz von vier Prozessoren gegenüber zwei im Vergleichssystem Newisys 2100 ist bei AMDs Quartet-Server nichts zu spüren. Skaliert perfekt: Mit doppelt so vielen Prozessoren ausgestattet wie sein kleinerer Bruder von Newisys, arbeitet der Quartet hohe Prozesslasten auch entsprechend schneller ab. © tecCHANNEL Der Quartet verarbeitete die gestellten Aufgaben tatsächlich doppelt so schnell wie der 2-Wege-Server. Während der Dual-Opteron-Rechner zudem ab etwa 250 parallelen Tasks nicht mehr an Geschwindigkeit zulegt, weist die Messkurve des Quartet an derselben Stelle immer noch nach oben. Beim Einsatz von Opteron-846-CPUs (2,0 statt 1,8 GHz) kann der Quartet noch einmal rund fünf Prozent an Leistung zulegen. Die höhere Taktrate lässt sich also nicht direkt in gleichermaßen höhere Performance umsetzen. Dies unterstreicht die Tatsache, dass die guten Leistungswerte der AMD64-Prozessoren hauptsächlich der geschickten HyperTransport-Architektur zu verdanken sind. 3.4.7 lmbench Warum der Opteron höhere Prozesslasten so gut abarbeitet, zeigen unter anderem die Ergebnisse des lmbench. Dieser frei verfügbare, quelloffene Benchmark ermittelt verschiedenste Messdaten auf der untersten Systemebene, darunter auch Timings zur Prozesserzeugung. Wie man hier erkennt, erledigt der Opteron einen schlichten fork() mit folgendem exit() fast doppelt so schnell wie die Xeon-Systeme. Auch kompliziertere Prozessaufrufe arbeitet er generell deutlich schneller ab als die höher getakteten Xeons. Auch bei einem fork() in die Shell operiert der AMD-Prozessor immer noch gut 20 Prozent zügiger als die Intel-Konkurrenz. webcode: p1261 169 Server © tecCHANNEL Schneller Opteron: Sowohl im 32- als auch im 64-Bit-Betrieb erledigt der Opteron Prozessaufrufe deutlich schneller als seine Intel-Konkurrenten. 3.4.8 unixbench Das bisher entstandene Bild untermauert der Test mit unixbench. Bei dieser Suite handelt es sich um eine Portierung des bekannten Byte-Benchmarks für LinuxSysteme. Neben zahlreichen Tests atomarer Operationen bringt unixbench einige Messreihen mit, die auch SMP-Systeme unter Last setzen. unixbench gibt die Ergebnisse als Anzahl der verarbeiteten Zeilen pro Zeiteinheit aus. Hier ist der Opteron 244 bei der Erzeugung einfacher Prozesse ebenfalls deutlich flinker als die Xeon-CPUs. Bei Shell-Aufrufen mit einem, acht und sechzehn konkurrierenden Aufgaben hängt AMD die Konkurrenz nicht mehr ganz so deutlich ab, erzielt jedoch immer noch einen Performance-Vorsprung von 25 bis 30 Prozent. Einige der weiteren Benchmarks aus der unixbench-Suite demonstrieren, dass 64 Bit nicht zwangsläufig schneller sein muss als 32 Bit. Beim Pipe-basierten Umschalten des Kontexts beispielsweise fällt der Opteron im 64-Bit-Modus auf Grund des höheren Overheads hinter die 32-Bit-Variante zurück. Ein Paradebeispiel für arithmetische Tests bietet die Berechnung der Quadratwurzel von 2 auf 99 Stellen hinter dem Komma. Der mit einem 2,8 GHz schnellen Prozessor getaktete Dell PowerEdge 4600 erledigt diese Aufgabe zügiger als der IBM x225 mit 2,4-GHz-CPUs. Schon im 32-Bit-Betrieb kann der Opteron 244 allerdings beide toppen. Mit 64 Bit legt er hier noch einmal ein Drittel an Geschwindigkeit zu. 170 www.tecChannel.de AMD Opteron im Server-Einsatz © tecCHANNEL Ein Viertel schneller: Auch im unixbench überflügelt AMDs 1,8-GHz-Opteron die mit 2,4 und 2,8 GHz getaktete Intel-Konkurrenz. © tecCHANNEL © tecCHANNEL Gemischte Lasten: Je nach Aufgabenstellung arbeitet der Opteron atomare Aufgaben um 20 oder mehr Prozent schneller ab als die Xeons. webcode: p1261 171 Server Ähnlich, wenn auch nicht mit ganz so dramatischem Geschwindigkeitsvorteil für den Opteron, sieht es beim Abarbeiten gemischter Arbeitslasten aus. Beim Durchsatztest mit dem C-Compiler überflügelt der Opteron 244, egal in welchem Modus, die Xeons aber immer noch um gut 20 Prozent. 3.4.9 dbench Aus der Feder des Samba-Entwicklers Andrew Tridgell stammt die dbench-Testsuite. Das Samba-Team benutzt die Suite, um das Lastverhalten des Filesystems im Allgemeinen sowie des Samba-Servers im Speziellen zu untersuchen. Für unseren Test lassen wir die Samba-spezifischen Teile der Suite außer Acht und verwenden lediglich dbench selbst. Mit gescripteten Anfragedaten aus einem echten netbench-Testlauf simuliert er den Zugriff vieler Clients auf das I/O-System. Das hat den Vorteil, das Filesystem unter hohe Lasten setzen zu können, ohne dazu Hunderte von Clients zu installieren. Auch in diesem Test sorgt der Newisys 2100 für eine angenehme Überraschung. Bei parallelen Anfragen sehr vieler Clients bleibt das Dual-Opteron-System responsiv und erzielt dramatisch höhere Datendurchsätze als die Xeon-Rechner. Das gilt sowohl für den Betrieb im 32-Bit-Modus als auch bei Verwendung der 64-Bit-Spielart. Bei dem CPU-lastigen Test schneiden die beiden Xeon-Varianten von Dell und IBM in etwa gleich ab: Zwar sind die CPUs des PowerEdge 4600 höher getaktet, sie werden jedoch durch langsameren Speicher (DDR200 anstatt DDR266 beim IBM x225) gebremst. Schneller I/O: Auch bei Anlegen hoher I/O-Lasten unter dbench weist das Opteron-System eine wesentlich höhere Leistung auf als die Xeon-Server. © tecCHANNEL 172 www.tecChannel.de AMD Opteron im Server-Einsatz Die Messwerte der Zwei- und Vierprozessor-Opteron-Systeme sind hier nicht direkt vergleichbar, da der Newisys lediglich mit 2 GByte Hauptspeicher bestückt ist, während der Quartet mit 8 GByte operieren kann. Wesentlich interessanter als die nummerischen Werte ist hier ohnehin der Verlauf der Leistungskurve: Beim Dualprozessorsystem war relativ früh der Sättigungspunkt erreicht. Der Quartet dagegen kann bis zu 200 simulierte User gleichzeitig bedienen, bevor die Leistungskurve langsam abzuflachen beginnt. Auch der schnellere Opteron-846 bewältigt diese lastintensive Aufgabe nicht merklich schneller als der Opteron-844. Für hohe Benutzerzahlen: Der 4-Wege-Opteron bedient im dbench-Testlauf problemlos mehrere hundert simulierte NetzwerkClients. © tecCHANNEL 3.4.10 Fazit AMDs Entscheidung, seine Hammer-Architektur zuerst einmal in der Server-Variante auf den Markt zu bringen, erweist sich im Nachhinein in zweifacher Hinsicht als richtig. Zum einen spielt der Sledgehammer alias Opteron offensichtlich gerade im Betrieb als Server-Plattform seine Vorzüge ideal aus. Zum anderen kann der Opteron schon mit der relativ niedrigen Taktrate von 1,8 GHz in diesem Segment mit seinen architektonisch bedingten Vorteilen der wesentlich höher getakteten Intel-Konkurrenz Paroli bieten. Unabhängig von der Taktrate bietet der Opteron gerade im Server-Einsatz einen entscheidenden Vorteil, den die Konkurrenz derzeit nicht kontern kann. Anders als Intel nagelt AMD den Anwender mit der Systemarchitektur nicht auf eine Entscheidung für 32 oder 64 Bit fest, sondern lässt alle Wege offen. Schon als 32-BitServer-CPU weist der Opteron den Intel-Konkurrenten Xeon in die Schranken. webcode: p1261 173 Server Daneben offeriert er jedoch auch ein nahtloses Upgrade in die 64-Bit-Welt: Je nach Bedarf kann man die AMD-CPU auch im 64-Bit-Betrieb mit 32-Bit-Applikationen füttern oder komplett auf das neue Format umstellen. Mit dem Quartet-Server demonstriert AMD zudem eindrucksvoll die exzellente Skalierbarkeit seiner 64-Bit-Plattform. Gleichzeitig zeigt das System auf, dass robuste und schnelle Server-Systeme für den Arbeitsgruppen- und Abteilungseinsatz nicht zwangsläufig ausschließlich Intels Domäne sein müssen. Es bleibt zu hoffen, dass in näherer Zukunft auch zunehmend OEMs und Distributoren zu dieser Erkenntnis gelangen und man AMDs leistungsfähige 64-Bit-Systeme nicht mehr wie die Stecknadel im Heuhaufen suchen muss. Bislang offerieren hier zu Lande nur eine Handvoll mittlerer und kleiner Anbieter (wie beispielsweise Dämo, Delta Computer, FMS, Kirtz, ico, sysGen, transtec) Opteron-basierte Server. Die großen Anbieter dagegen halten sich vornehm zurück. Rühmliche Ausnahme: IBM mit dem Ende November in Europa offiziell gelaunchten eServer 325. Jörg Luther tecCHANNEL-Links zum Thema Webcode Compact AMD Opteron im Server-Einsatz a1261 S.162 Test: Athlon 64/FX vs. P4 Extreme Edition a1244 – Test: Opteron 246 mit 2,0 GHz a1235 – Test: Opteron 244 mit 1,8 GHz a1164 – Dauertest: Opteron 244 als Server p1163 – Alle Details zur AMD64-Architektur p1022 – HyperTransport im Detail p1000 – Grundlagen: Multiprocessing p693 – Prozessorgrundlagen p375 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 174 www.tecChannel.de Meinung 3.5 Meinung Grundsatzfrage: Mit dem Server auf 64 Bit umsteigen – muss das denn sein? Nein, muss es nicht – falls Ihr Einsatzszenario nicht über File&Print, Mail und Web hinausgeht. Alle gängigen NOS werden auch weiter die 32-Bit-Architektur unterstützen. Sie können also heute durchaus einen neuen IA-32-Rechner anschaffen und problemlos bis zur kompletten Abschreibung betreiben. Zukunftsfrage: Bei 32-Bit-Technik stehen bleiben – macht das Sinn? Ja – falls Sie auf die Intel-Architektur setzen. Zum einen ist Intels 64-Bit-CPU Itanium zu teuer, um als „Nur-für-den-Fall“-Prozessor im Server einen 32-bittigen Dornröschenschlaf zu schlummern. Zum anderen bewältigt Intels Vorzeigeobjekt den 32-Bit-Betrieb nur mit erheblichen Leistungsabstrichen. Der Einsatz von 32-Bit-Software auf dem Dickschiff macht also kaum Sinn. Soll auf Ihrem Server Linux oder BSD laufen, kommt ein weiterer Gesichtspunkt hinzu: Um die Stärken der Itanium-CPU ausreizen zu können, muss die Software auch mit einem (nicht ganz billigen) Intel-Produkt kompiliert werden. Der Intel-Compiler wiederum optimiert nur für Intel-Produkte, andere Architekturen bleiben außen vor. Das Marketing aus Santa Clara rühmt diese Taktik vollmundig als revolutionäres „Intel Ecosystem“. Tatsächlich handelt es sich schlicht um ein proprietäres System. Gretchenfrage: Muss ich mich wirklich zwischen 32 und 64 Bit entscheiden? Nein, müssen Sie nicht. Die AMD64-Architektur ermöglicht ein Sowohl/Alsauch. Die in Zwei- und Vier-Wege-Varianten verfügbaren Server auf Basis von AMDs Opteron verarbeiten 32-Bit-Software ebenso gut wie 64-Bit-Applikationen. Unter einem 64-Bit-OS ist ein Mischbetrieb von 32/64-Bit-Anwendungen ohne Leistungseinbußen möglich. Wie Tests bei tecCHANNEL, aber auch in anderen Fachpublikationen gezeigt haben, muss sich ein Opteron-System weder im 32- noch im 64-Bit-Einsatz vor der Intel-Konkurrenz verstecken. Dennoch liegt der Anschaffungspreis deutlich unter dem eines vergleichbaren Itanium-Systems. Zudem ist kein spezieller Compiler notwendig, ein schlichter gcc genügt. Dies bietet gerade unter Open-Source-OS einen entscheidenden Vorteil. Glaubensfrage: Intel oder AMD? Jenseits der Technik stellt sich bei der Auswahl einer Server-Plattform aber eine weitere Frage: die der Investitionssicherheit. Kann sich der David AMD gegen den Goliath Intel behaupten? AMD ist sich dessen so sicher, dass es gerade für gut 2,5 Milliarden Euro eine zweite CPU-Fab in Dresden baut. Auch IBM setzt auf die Möglichkeiten der Architektur – und ergänzt die Server-Palette um eine eSeries-Reihe mit Opteron-Systemen. Das Risiko bei der Entscheidung für den Opteron scheint also gering. Als Vorteile winken bei moderaten Anschaffungskosten eine innovative, I/O-starke Server-Architektur und nahtloser 32/64-Bit-SoftwareBetrieb je nach Bedarf. Ich meine: ein echter No-Brainer. Was meinen Sie? Jörg Luther, Redakteur Software & Netzwerke www.tecChannel.de 175 Netzwerk 4. Netzwerk Wireless LANs mit 54 Mbit/s schießen mittlerweile wie Pilze aus dem Boden. Anhand eines Vergleichstests untersuchen wir, welcher der beiden konkurrierenden Standards 802.11a und 802.11g sich für welche Verwendung eignet. DSLRouter bieten mehreren PCs preiswerten Internet-Zugang und Schutz vor Attacken aus dem Web. Wir zeigen, welche Features Sie für welchen Einsatzzweck benötigen. Über DSL-Verbindungen lassen sich übrigens nicht nur schnöde Daten transferieren: Technologien wie VoIP und MPEG4 ermöglichen parallel die Nutzung von Telefonie und Video. Der letzte Teil unseres Netzwerk-Kapitels fasst zusammen, welche Hürden dabei noch zu überwinden sind. 4.1 Shootout: 802.11a vs. 802.11g Die Qual der Wahl hat, wer dieser Tage ein Wireless LAN einkaufen muss. Ihm fliegt nicht nur ein ganzes Alphabet an Standards von 802.11a bis 802.11i um die Ohren. Er muss sich vor allem zwischen den zwei Konkurrenztechnologien 801.11a und 802.11g entscheiden, die in völlig unterschiedlichen Frequenzbändern arbeiten. Beide Technologien warten mit immanenten Vorteilen auf, bringen aber auch spezifische Einschränkungen mit. Doch wie sieht das Ganze im praktischen Einsatz aus? Dieser Frage ist tecCHANNEL im vorliegenden Test auf den Grund gegangen. Dabei haben wir die Tatsache genutzt, dass die Industrie mittlerweile DualBand/Triple-Mode-Systeme anbietet, die bei gleicher Hardware sowohl im 2,4GHz-Band (802.11b/g) als auch auf den 5-GHz-Frequenzen (801.11a) arbeiten können. Dies bietet die Möglichkeit, die Tests für die beiden Frequenzbereiche auf derselben Hardware vornehmen zu können. Damit fallen unterschiedliche Systemkonstruktionen als Fehlerquelle aus: Die Ergebnisse spiegeln also direkt den Leistungsunterschied der beiden Technologien wider. 4.1.1 Frequenzfragen Das klassische Frequenzband für drahtlose Netze ist das ISM-Band im 2,4-GHzBereich. Das Kürzel steht für „Industrial, Scientific, Medical“; für derartige Anwendungen wurden die entsprechenden Frequenzen ursprünglich einmal international freigegeben. Dies schließt die Nutzung innerhalb und außerhalb von Gebäuden ein. Solange die Funkstrecken über eigenem Gelände verlaufen, ist die Nutzung nach deutschem Recht sowohl anmelde- als auch gebührenfrei. Im ISM-Band operieren neben Geräten nach den Standards 802.11b und 802.11g allerdings auch zahlreiche weitere Funktechnologien, deren bekannteste wohl Bluetooth ist. In Folge der hohen Akzeptanz der Technologie tummeln sich im 176 www.tecChannel.de Shootout: 802.11a vs. 802.11g 2,4-GHz-Bereich nicht nur immer mehr Funknetze, sondern auch drahtlose Lautsprecher oder Tastaturen übermitteln hier ihre Daten. Außerdem kommen neben Funksendungen anderer WLANs auf der 2,4-GHz-Frequenz auch Mikrowellen und sogar Leuchtstoffröhren-Starter als potenzielle Störquelle in Frage. Die drangvolle Enge wird durch die Tatsache verschärft, dass in dem schmalen Frequenzband nur drei Kanäle zum konkurrierenden Betrieb zur Verfügung stehen. Das erschwert sowohl das Ausweichen bei Störungen als auch die Versorgung großer Benutzerzahlen über entsprechend dicht gepackte Access Points. Der 5-GHz-Bereich, in dem 802.11a-Systeme operieren, wird von der Industrie gern als Allheilmittel gegen die drangvolle Enge des ISM-Bands angepriesen. Auch er weist bei näherem Hinsehen allerdings einige Nachteile auf. Die Einschränkungen resultieren einerseits aus schlichter Physik, andererseits aus den rechtlichen Rahmenbedingungen. 802.11-Varianten im Überblick 802.11a 802.11h 802.11g 802.11b Status Standard Draft (Std Q1/04?) Standard (seit 12.6.03) Standard Frequenzband (MHz) 5150-5350, 5725-5825 5150-5350, 5725-5825 2400,02483,5 2400,02483,5 Datenrate brutto (Mbit/s) 54 54 54 11 Datenrate netto 32 (Mbit/s) 28 32 5 Sendeleistung [RegTP] (mW) 30 200 100 100 Reichweite (ca., m) 10 bis 15 30 bis 50 30 bis 50 30 bis 50 Einsatz [RegTP] indoor indoor indoor, outdoor indoor, outdoor Spektrum 300 MHz 83,5 MHz 83,5 MHz Kanäle [RegTP] 8 300 MHz 8 3 3 Zugriffsverfahren CSMA/CA CSMA/CA, RTS/CTS CSMA/ CA,RTS/CTS CSMA/CA Multicasting ja ja ja ja QoS zukünftig zukünftig zukünftig nein PHY OFDM OFDM mit DFS CCK/OFDM, CCK/DSSS CCK/DSSS Link-Kontrolle nein TPC nein nein webcode: a1287 177 Netzwerk Durch die Nutzung der höheren Frequenz ergeben sich zwangsläufig auch eine höhere Dämpfung sowie eine starke Anfälligkeit gegen Rauschen, Abschattungen und andere parasitäre Effekte. Beides verteuert die Nutzung der 5-GHz-Technik: Die geringere Reichweite erzwingt die Dislozierung einer entsprechend höheren Zahl von Access Points, um eine gleiche Abdeckung zu erreichen. Die Störeffekte lassen sich durch technische Maßnahmen in den Griff bekommen, die jedoch wiederum die Kosten der Komponenten für 5-GHz-Funknetze erhöhen. Andererseits bieten 5-GHz-WLANs selbst nach den strengen deutschen Regulatorien ein sehr breites Frequenzband zur Nutzung an. Bei 802.11a/h stehen dadurch acht statt wie bei 11b/g nur drei parallele Kanäle zur Verfügung. In großen Funknetzen, in denen auf Grund hoher Benutzerzahlen die Access Points ohnehin dicht gepackt werden müssen, erweist sich das als Vorteil. 4.1.2 Testkonfiguration Der Test erfolgt im Infrastruktur-Modus. Access Point und LAN-Messstelle (Pentium-III/1GHz, 384 MByte RAM, 3Com 3C905-C, Windows XP Pro SP1) arbeiten dabei an einem 10/100-Mbit/s-Switch (Compex DS-2216). Als mobile Messstation kommt ein Dell Precision M60 (Pentium-M/1,6GHz, 512 MByte RAM, Windows XP Pro SP1) zum Einsatz. Als Werkzeug zur Durchsatzmessung verwenden wir NetCPS 1.0 von Jarle Aase. Die Freeware stellt eine dezidierte TCP/IP-Verbindung (TCP, Port 4455) zwischen zwei Rechnern her und überträgt eine Datenmenge von 100 MByte. Dabei ermittelt das Programm im Sekundentakt mit einer Auflösung von 1 ms die Anzahl der übertragenen Bytes. Zusätzlich hält es die maximal erzielte Durchsatzrate fest und berechnet anhand der Übertragungsdauer die durchschnittliche Geschwindigkeit der Verbindung. Alle Messungen erfolgen im dritten Obergeschoss eines Bürogebäudes entlang eines in Ost-West-Richtung verlaufenden Flurs. Der Access Point befindet sich in einem am westlichen Ende dieses Flurs angeordneten Büro. Wir nehmen von fünf im Büro und entlang des Flurs angeordneten Standorten aus Durchsatzmessungen vor. Dabei messen wir in jeweils drei Läufen die Durchsatzrate in den Modi 802.11g, 802.11a und 802.11a-Turbo. Die erzielten Ergebnisse mitteln wir. Die erste Messung nehmen wir im selben Raum vor, in dem sich der Access Point befindet. Die Distanz beträgt dabei fünf Meter. Der zweite Messpunkt liegt in einem nebenliegenden Raum in einer Distanz von ebenfalls fünf Metern zum Access Point. Dabei liegt zwischen AP und Client eine holzverschalte Trennwand, deren oberes Drittel verglast ist. Messpunkt 3 befindet sich in zehn Meter Abstand zum Access Point, in der Sichtlinie befinden sich wiederum eine holzverschalte Trennwand sowie eine Ziegelwand. 178 www.tecChannel.de Shootout: 802.11a vs. 802.11g Der vierte Messpunkt liegt im Flur 15 Meter östlich vom Access Point. Diesmal sind drei dazwischenliegende Wände zu überwinden: je eine mit Holzverschalung, aus Rigips und aus Ziegeln. Das gilt auch für den nächsten Messpunkt, der jedoch im Abstand von 20 Metern zum AP liegt. Der sechste und letzte Messpunkt befindet sich in 25 Metern Distanz zum Access Point in einem nach Norden abzweigenden Flur. Hier liegt gegenüber Messpunkt 4 noch eine weitere Rigipswand zwischen AP und Client. 4.1.3 Testgeräte Als Access Point und die Wireless-LAN-Adapter für den WLAN-Client verwenden wir Produkte des ELSA-Nachfolgers LANCOM. Beim Access Point handelt es sich um ein System des Typs LANCOM 3550, das derzeitige Flaggschiff aus LANCOMs WLAN-Portfolio. Das Power-over-Ethernet-fähige Gerät mit zwei Dualband-Diversity-Antennen unterstützt den Einsatz sowohl im 2.4- als auch im 5-GHz-Band nach den Standards IEEE 802.11b (2,4 GHz / 11 Mbit/s), IEEE 802.11g (2,4 GHz, 54 Mbit/s) und IEEE 802.11a (5 GHz, 54 Mbit/s). Da es auf dem AR5001X-Chipset von Atheros basiert, kann es daneben auch noch mit einem 801.11a-Turbo-Mode mit einer Brutto-Übertragungsrate von 108 Mbit/s aufwarten. Alleskönner: Der LANCOM 3550 bietet bis zu zwei unabhängige Funkzellen nach IEEE 802.11a, b und g. Zusätzlich betätigt er sich als xDSLRouter mit integrierter Firewall. (Quelle: tecCHANNEL) Über einen externen Cardbus-Slot bietet das LANCOM 3550 zudem die Möglichkeit, ein zweite unabhängige Funkzelle beliebiger Technologie zuzurüsten. Dabei lassen sich beide Funkzellen je nach Einsatzzweck dezidiert als 802.11b, 802.11b/ g, 802.11g, 802.11a oder 802.11a-Turbo betreiben. Zudem betätigt sich der 3550 auch als Router und bietet über eine zweite 10/100Mbit/s-Ethernet-Schnittstelle eine xDSL-Anschlussmöglichkeit. Dabei schützt eine Stateful-Packet-Inspection-Firewall das interne Netz vor unerwünschten Zu- webcode: a1287 179 Netzwerk griffen. Als weitere Sicherheits-Features bietet der Access Point Authentifizierung nach IEEE 802.1x, WEP-Verschlüsselung mit bis zu 128 Bit langen Keys sowie auf Wunsch IPSec-VPN-Fähigkeiten. Als Optionen zur Verwaltung des Access Point stehen ein Web-basiertes Interface – wahlweise über HTTP oder HTTPS – sowie unter Windows LANCOMs komfortable und umfangreiche Verwaltungssuite LANTools zur Verfügung. Über Letztere erfolgt auch die Einrichtung des Access Point. Dabei lassen sich alle Verbindungswege für das AP-Management einzeln für das lokale Netz, das drahtlose Netz und entfernte Netze erlauben oder deaktivieren. Schaltzentrale: Über das LANconfig-Werkzeug lassen sich alle Einstellungen des LANCOM 3550 komfortabel einrichten und konfigurieren. Als Client-Adapter kommen LANCOM-Karten des Typs Airlancer MC54ag zum Einsatz. Die Dual-Band/Triple-Mode-Karten unterstützen wie der Access Point die Einsatzarten 802.11b, 802.11b/g, 802.11g, 802.11a und 802.11a-Turbo. Sie bringen Treiber für alle Windows-Spielarten mit und unterstützen wie der Access Point WEP-Encryption mit bis zu 128 Bit langen Schlüsseln. Einrichtung und Konfiguration der Karten erfolgen unter Windows über einen einfach zu bedienenden, aber umfassenden „Client Manager“. Während des Betriebs lässt sich der Verbindungszustand laufend mit einem „Client Monitor“ überwachen. Linux- und Mac-OS-Benutzer haben allerdings schlechte Karten. Für den verwendeten Chipsatz bietet der Hersteller Atheros keine direkte Unterstützung dieser Betriebssysteme, und folglich kann auch LANCOM keine Treiber liefern. 180 www.tecChannel.de Shootout: 802.11a vs. 802.11g Für den Test laden wir die aktuellsten Software-Versionen (Stand: 9.12.2003) für die Client-Adapter und den LANCOM 3550 vom LANCOM-Webserver. Damit sind alle Komponenten auf dem neuesten Stand, insbesondere der Access Point operiert mit der erst kurz vorher freigegebenen Firmware LC.OS 3.22.0007. 4.1.4 Testergebnisse In der unten stehenden Grafik finden Sie einen Überblick über die ermittelten Übertragungsgeschwindigkeiten. Dabei handelt es sich um durchschnittliche Netto-Durchsatzraten im unverschlüsselten Betrieb, also ohne WEP-Encryption. Für die Ermittlung der Datenraten wurden sowohl Access Point als auch Client-Adapter jeweils dezidiert auf die jeweilige Übertragungsart (802.11g, 802.11a beziehungsweise 802.11a-Turbo) eingestellt. Generell fällt die relativ niedrige Transferrate auf, die bei nominellen 54 respektive 108 Mbit/s nur etwa das Zweieinhalbfache der möglichen Netto-Transferrate bei 11 Mbit/s beträgt. Dennoch erzielen die 54-Mbit-Betriebsmodi Datendurchsätze, die sich durchaus mit jenen in kabelgebundenen Netzen vergleichen lassen. Dabei darf man jedoch nicht außer Acht lassen, dass sich die Stationen einer Funkzelle die verfügbare Bandbreite teilen müssen. Die 802.11a-Betriebsmodi zeigen sich in unserer Testumgebung trotz zahlreicher zwischenliegender Wände aus diversesten Materialien als erstaunlich schnell – auch auf mittlere Distanzen. Offensichtlich kann das 802.11a-WLAN in diesem Modus recht gut mit den Reflektionen operieren, die sich entlang des Flurs ausbreiten. Als lohnenswerte Alternative erweist sich der Betrieb im 108-Mbit/s-Turbomodus, in dem in unserem Test bis über 30 Mbit/s vom Client zum Server wandern. Erwartungsgemäß sinkt die Datenrate jedoch mit steigender Entfernung zum Access Point fast linear ab. Bei Distanzen über 20 Meter kommt in unserer Testumgebung kein brauchbarer Link mehr zu Stande. © tecCHANNEL Klare Trennung: Die 802.11a-Modi bieten zwar auf kurze Distanzen gute Datenraten, brechen jedoch auf höhere Entfernungen schnell ein. Liegen mehr als 20 Meter zwischen AP und Client, erweist sich 802.11g als überlegen. webcode: a1287 181 Netzwerk Der 802.11g-Modus dagegen erbringt in Distanzen bis zu 20 Metern nahezu gleichmäßig hohe Durchsatzraten, die erst in größeren Entfernungen abzusinken beginnen. Daran können auch bis zu drei zwischenliegende Wände nichts ändern. Am Messpunkt 5 in 25 Metern Entfernung vom Access SPoint liefert 802.11g mit gut 11 Mbit/s ebenfalls eine Netto-Transferrate, die deutlich über dem maximalen Brutto-Durchsatz von 802.11b liegt. 4.1.5 Fazit Unser Technologievergleich liefert ein klares Ergebnis: Wer mit Wireless LAN Kosten sparend größere Flächen abdecken muss und nicht allzu viele Clients zu versorgen hat, der sollte zu Geräten nach dem 802.11g-Standard greifen. Die höhere Reichweite des g-Standards ermöglicht ein weitmaschigeres und damit kostengünstigeres Netz von APs, allerdings bieten sich lediglich drei nicht überlappende Kanäle. 802.11a dagegen stellt eine Alternative dar, wenn auf relativ engem Raum viele Clients zu versorgen sind und ein entsprechendes Kanalangebot von Nöten ist. Speziell für die punktuelle Versorgung mobiler Clients – etwa in Konferenzräumen oder für Hot-Spots – liefert der 802.11a-Turbomodus eine interessante Möglichkeit zum Ausbau der Performance. Als erfreulichste Perspektive erscheint, dass sich der Anwender im Fall eines Falles gar kein Entweder/Oder abringen muss. Wie die im Test verwendeten LANCOM-Komponenten demonstrieren, kann man bei Bedarf mit geeigneten Access Points beide Technologien gleichzeitig anbieten. Jörg Luther tecCHANNEL-Links zum Thema Webcode Compact Shootout: 802.11a vs. 802.11g a1287 S.176 Reality Check: IEEE-802.11-WLANs a1129 – 802.11: Standard für drahtlose Netze p680 – Wireless LANs im Überblick a750 – Sicherheit im WLAN a928 – Power over Ethernet a1199 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 182 www.tecChannel.de Kaufberatung: DSL-Router 4.2 Kaufberatung: DSL-Router DSL-Router ermöglichen den preiswerten Zugang mehrerer PCs in das Internet und schützen diese zudem vor Attacken aus dem Web. Doch die angebotene Funktionsvielfalt ist so groß, dass eine Entscheidung schwer fällt. Wir zeigen, welche Features für welchen Einsatzzweck unabdingbar sind. Gerade für den Einsatz im SOHO oder bei der Anbindung von Außenstellen an das Firmen-LAN stellt DSL eine günstige Alternative zur teuren Standleitung dar. Insbesondere da die Anbieter inzwischen Anschlüsse mit bis zu 2,3 Mbit/s realisieren können. Das reicht ohne Weiteres für eine kleine Arbeitsgruppe oder den Datentransfer zwischen Außenstelle und LAN. Aber auch im privaten Bereich finden sich immer häufiger Konfigurationen mit mehreren Rechnern, die von einem Router mit DSL-Anschluss profitieren – insbesondere, wenn die Kinder gerne online spielen. Ein DSL-Router bietet zudem ein Mehr an Sicherheit, da er den direkten Zugriff aus dem Internet auf die Computer dahinter abblockt. Denn im Allgemeinen vergeht nicht viel Zeit zwischen der Einwahl ins Internet und dem ersten Portscan, der nach Schwachstellen auf dem Rechner sucht. All in one: Für kleine Netzwerke ist der eingebaute 4-Port-Switch ausreichend. Für größere Netze schließen Sie einfach einen zusätzlichen Switch an. (Quelle: tecCHANNEL) Da die deutschen DSL-Anbieter PPPoE als Anmeldeprotokoll verwenden, muss das Gerät dieses Protokoll natürlich unterstützen. Um die Flexibilität bei der Provider-Auswahl zu bewahren, sollte das DSL-Modem nicht im Router integriert sein, sondern an einem normalen Ethernet-Port angeschlossen werden. Dann können Sie den Router bei einem Technologiewechsel – etwa zu einem Kabelmodem oder von ADSL zu SDSL – weiterhin benutzen. Das ist besonders dann wichtig, wenn Sie einen teuren Router mit erweiterten Sicherheitsfunktionen kaufen. Manche Router bieten einen integrierten Switch, so dass Sie ein kleines LAN komplett an diesem Gerät anschließen können. Diese Möglichkeit oder die Anzahl der Switch-Ports sollten allerdings kein Hauptkriterium für einen Kauf sein, da sich an das Gerät ja auch ein größerer Switch anschließen lässt. webcode: a1289 183 Netzwerk Wichtiger – gerade bei der Anbindung von Außenstellen oder Heimbüros – ist beispielsweise ein Backup-ISDN-Anschluss. Damit kann auch bei einem Ausfall der DSL-Leitung weiterhin eine Verbindung hergestellt werden. 4.2.1 Basis-Features Derzeit arbeiten alle Provider mit dem PPPoE-Protokoll zur Authentifizierung des Benutzers. Das bedeutet, dass es sich bei den DSL-Anschlüssen nicht um eine echte Always-on-Verbindung handelt, sondern um ein Dial-up-Verfahren. Dementsprechend müssen die Router zumindest dieses Protokoll beherrschen. Wünschenswert ist zudem, dass der Router optional mit einer statischen IP-Adresse oder als DHCP-Client arbeiten kann. Das i-Tüpfelchen wäre die zusätzliche Unterstützung für VPN zur LAN-LAN-Vernetzung über das Internet. Bei Anbindung an das Firmen-LAN ist VPN ein Muss. Eine dynamische IP-Adresse erschwert den Versuch, Dienste im LAN auch für das Internet freizugeben, denn der Internet-Benutzer muss immer die aktuelle IPAdresse kennen. Für diesen Fall bieten manche Router die Unterstützung dynamischer DNS-Dienste. Dabei meldet sich der Router nach der Einwahl ins Internet gleich bei einem Dienste-Anbieter an und teilt ihm die aktuelle IP-Adresse mit. Diese ist dann unter einer Domain wie etwa testdomain.dyndns.org erreichbar. Ein weiteres relevantes Kriterium ist das Management des Routers. Die wichtigsten Fragen sind hier: Welche Möglichkeiten, wie etwa Telnet, Webbrowser oder proprietäre Software, stehen zur Verfügung und über welche Schnittstellen sind sie erreichbar? Wichtig ist die Option, dass man das Management über bestimmte Schnittstellen wie Internet oder WLAN entweder abschalten oder im besten Fall über Verschlüsselung und Authentifizierung absichern kann. Bei manchen Geräten lässt sich die Verwaltung auch auf eine bestimmte IP-Adresse einschränken. Viele Hersteller kommen aus dem amerikanischen oder asiatischen Raum. Dort herrschen primär echte Flatrates vor. Hier zu Lande sind aber viele DSL-Anschlüsse zeit- oder volumenbeschränkt. Der Router sollte also Funktionen bieten, die beim Kostensparen helfen. Dazu gehört zum Beispiel das automatische Trennen der Verbindung, wenn in einer gewissen Zeitspanne keine Anforderung aus dem LAN ins Internet geht. Dummerweise setzen manche Geräte den Idle-Timer auch dann wieder zurück, wenn vom Internet eine Verbindungsanfrage kommt, etwa von einem Filesharing-Client, weil unter der IP vorher ein entsprechendes Programm lief. Damit gerät man bei einem Zeittarif schnell in die Kostenfalle. 4.2.2 WAN-Verbindungen Einige amerikanische Kabelmodem-Betreiber binden den Account an eine bestimmte MAC-Adresse, um die Authentifizierung zu realisieren. Das verhindert normalerweise den Einsatz eines Routers, der ja über eine andere MAC-Adresse 184 www.tecChannel.de Kaufberatung: DSL-Router verfügt. Bei manchen Routern lässt sich jedoch – wie bei vielen Netzwerkkarten – die MAC-Adresse einstellen. Praktischerweise können Router die neue Adresse beim so genannten MAC-Clonen gleich per Mausklick übernehmen. Ein weiterer Vorteil des Clonens von MAC-Adressen: Es verschleiert auch bis zu einem gewissen Grad den Hersteller des Produkts und erschwert damit das Ausnutzen von Sicherheitslücken im Gerät selbst. Weil die meisten DSL-Provider lediglich eine IP-Adresse vergeben, muss der Router NAT unterstützen, damit sich mehrere Rechner diese Adresse teilen können. Bei Paketen von intern, die durch die Firewall nach extern gelangen sollen, wird die originale Quelladresse durch die der Firewall und der ursprüngliche Quellport durch einen neuen ersetzt. Diese Daten hinterlegt die Software in einer Tabelle, um die Antwortpakete wieder entsprechend umsetzen zu können, ohne dass der Client etwas von diesem Zwischenschritt bemerkt. Dadurch werden die Rechner im LAN effektiv vor dem Internet versteckt. 4.2.3 Dienste und Sicherheit Das NAT-Verfahren funktioniert so lange nur Verbindungen von innen nach außen aufgebaut werden. Also beispielsweise beim Browsen im Internet oder Abrufen von Mails. Sollen allerdings Verbindungen von außen zu einem Rechner im LAN hergestellt werden, ist das nicht ohne Weiteres möglich. Der Router weiß ja nicht, welcher interne Rechner gemeint ist. Mit einem Router-Feature namens Virtual Server lässt sich auch ein von außen gesteuerter Verbindungsaufbau realisieren. Dabei weist man den Router an, auf bestimmten TCP/IP-Ports eingehende Verbindungen direkt an einen Rechner im LAN weiterzuleiten. Bietet der Router zusätzlich Port Address Translation, kann man den Zielport auf dem Rechner bestimmen, also beispielsweise auf Port 80 eingehende Verbindungen auf den Port 8080 des Zielrechners weiterleiten. Es gibt aber noch eine andere Kategorie von Anwendungen, die beim Einsatz eines Routers nicht funktionieren. Diese Anwendungen verbinden sich mit einem Port des Servers, der seinerseits von sich aus einen festgelegten Port des Clients ansprechen will. Dies schlägt jedoch fehl, da der Server die IP-Adresse des Routers adressiert und dieser nicht weiß, wohin mit dem Datenpaket. Virtual Server hilft hier nicht weiter, da nicht immer derselbe Rechner angesprochen wird. Unter der Bezeichnung Special Applications bieten beinahe alle SOHO-Router ansatzweise eine Funktion, die bei großen Firewalls als Stateful Inspection bekannt ist. Dabei überwacht der Router den ausgehenden Datenverkehr auf Verbindungsanforderungen zu den eingestellten Ports und merkt sich, von welchem Rechner im LAN sie kamen. Wenn nun der angesprochene Server die Verbindung in Gegenrichtung aufbauen will, leitet der Router dieses Datenpaket zum entsprechenden Rechner im LAN weiter. Der Spiele-Server Battle.net beispielsweise benötigt dieses Szenario. webcode: a1289 185 Netzwerk Viele Hersteller von DSL-Routern werben damit, dass im Gerät eine Firewall eingebaut sei. Oft ist das nicht ganz die Wahrheit, denn bei dieser „Firewall“ handelt es sich nur um NAT. Und das muss so ein Router ohnehin enthalten, denn sonst könnte er nicht mehrere PCs mit nur einer öffentlichen IP-Adresse bedienen. NAT bietet schon einen gewissen Grad an Sicherheit, denn der Versuch einer Verbindungsaufnahme von außen scheitert automatisch, weil der Router nicht weiß, welcher PC gemeint ist. Somit wäre also beispielsweise der Blaster nicht ins LAN durchgekommen. Aber dennoch stellt NAT keine vollwertige Firewall dar. Wenn Sie zum Beispiel bestimmte Dienste nach außen freigeben, also dem Router mitteilen, dass er Pakete für einen bestimmten Port an einen bestimmten Rechner im LAN weiterleiten soll, dann bietet NAT keinerlei weitere Schutzmechanismen, wie etwa Paketfilterung oder gar Stateful Inspection. Schutz vor einem Trojaner, der eine Verbindung von innen nach außen aufbaut, bietet NAT ebenfalls nicht. Wer eine Außenstelle oder ein Home Office mit dem LAN in der Zentrale verbinden will, sollte unbedingt auf VPN-Funktionalität achten. Und zwar per IPSec direkt im Router. Das Problem bei IPSec ist nämlich folgendes: Wenn der Client hinter der Netzwerkadress-Umsetzung versucht, einen VPN-Tunnel zum Server zu öffnen, stimmen Absende-Adresse – also die lokale IP des Clients – und IPAdresse des Pakets nicht mehr überein. Der IPSec-Server wird also den Verbindungsaufbau ablehnen. Dementsprechend muss der Router als IPSec-Client fungieren und ebenso mit zwei externen IP-Adressen umgehen können, einer für den Internet-Zugang und einer vom IPSec-Tunnel. 4.2.4 Erweiterte Router-Features Funktioniert ein bestimmter Dienst auch mit Stateful Inspection nicht, bieten die Router eine letzte Möglichkeit, den so genannten DMZ-Host. Hierbei wird ein Rechner im LAN bestimmt, an den der Router sämtlichen Traffic durchreicht. Jeglicher Schutz durch den Router entfällt dabei jedoch, der Rechner sollte also entsprechend durch eine Personal Firewall geschützt sein. Etwas absichern lässt sich ein DMZ-Host, wenn im Router ein Paketfilter implementiert ist. Mit einem solchen kann man zudem verhindern, dass ein Trojaner Daten aus dem LAN hinaussendet. Dazu muss man lediglich die wichtigsten Trojanerports im Router filtern lassen. Auf der LAN-Seite sollte der Router einen DHCP-Server bereitstellen. Zum einen muss man sich dann nicht um die Vergabe von IP-Adressen auf den Clients kümmern. Zum anderen werden dann gleich die richtigen Einstellungen für DNS und Gateway am PC vorgenommen. Dies ist wichtig, da es durchaus möglich ist, dass sich die DNS-Server beim Provider ändern. Für Features wie Virtual Server oder Packet Filter sollte der DHCP-Server an bestimmte Clients immer dieselbe IP-Adresse vergeben können (Fixed Mapping). Damit bleiben die DHCP-Features erhalten, und man ist dennoch in der Lage, bei- 186 www.tecChannel.de Kaufberatung: DSL-Router spielsweise einen Webserver mit fester interner IP-Adresse zu betreiben. Mit diesem Mapping, das über die MAC-Adresse gesteuert wird, realisieren viele Router eine Zugangskontrolle für LAN und WAN. Bestimmte Rechner können komplett vom Internet-Zugang ausgeschlossen werden. Bei WLAN-Clients lässt sich eine Liste mit erlaubten MAC-Adressen festlegen. Alle anderen mobilen Rechner können sich dann nicht einmal mit dem Router unterhalten. Auf diese Weise verhindern Sie, dass Nachbarn auf Ihre Kosten surfen. Ein nettes Feature ist Wake on LAN. Sie haben damit die Option, per Mausklick einzelne Rechner im LAN aus Standby oder Hibernate aufzuwecken – vorausgesetzt, die Clients unterstützen dies. Wenn Sie das Risiko eingehen wollen, das Webinterface des Routers im Internet freizugeben, können Sie die Stationen sogar aus dem Internet starten, etwa, um Zugriff auf einen Virtual Server zu erhalten. 4.2.5 UPnP – Plug-and-Play übers Netzwerk Windows XP kann es schon lange – auch wenn es zunächst schwere Sicherheitslücken gab. UPnP soll laut Microsoft eine Fülle neuer Features für die Vernetzung von verschiedensten Endgeräten und Diensten bieten. Wie beim normalen Plugand-Play sollen dabei Erkennung, Installation und Konfiguration vollautomatisch und ohne größere Benutzerinteraktion ablaufen. Ein Rechner fungiert als UPnP-Host, der Informationen über alle im Netz verfügbaren UPnP-Geräte sammelt und auf Anfrage liefert. UPnP könnte bestimmte Dienste wie etwa Kommunikationsprogramme oder Webcams auch über das Internet bereitstellen, wenn da nicht NAT wäre, das in den meisten DSL-Routern zum Einsatz kommt. Die Applikationen auf den Rechnern im LAN kennen nur die private IP-Adresse, aber nicht die öffentliche, und der Router weiß nicht, welchem Rechner – etwa ein Netmeeting-Anruf – nun wirklich gilt. Mit Port-Forwarding könnte man solche Anrufe durchstellen, aber zum einen ist der Konfigurationsaufwand nicht unerheblich und zum anderen ist das Verfahren nicht sehr flexibel. Unterstützt der Router allerdings UpnP, kann er als Host fungieren oder zumindest Anfragen an den eigentlichen Host im LAN weiterleiten. 4.2.6 WLAN-Funktionen In vielen Szenarien macht es durchaus Sinn, einen Router mit integriertem WLAN zu wählen. Aber gerade beim Einsatz eines WLAN sollten Sie einige Punkte beachten: WEP-Verschlüsselung sollte auf jeden Fall unterstützt werden. Besser ist jedoch die Verschlüsselung mittels WPA (WiFi Protected Access). Hier handelt jeder Client nach der Assoziierung am Router einen eigenen 128 Bit langen Schlüssel aus. Dadurch kann keine andere Station im selben WLAN den Traffic belauschen. Außerdem behebt WPA eine weitere Schwäche von WEP. Der Initialisierungsvektor ist nun 48 Bit lang statt 24. webcode: a1289 187 Netzwerk Als Verschlüsselungsverfahren kommt entweder TKIP (Temporal Key Integrity Protocol) oder AES zum Einsatz. Ersteres setzt, wie auch WEP, auf den RC4-Algorithmus, bietet jedoch via Fast Packet Keying besseren Schutz gegen Tools wie AirSnort. Der Advanced Encryption Standard (AES) dagegen stellt den Nachfolger von DES dar. Zusätzliche Authentifizierungsmechanismen sind ebenfalls sinnvoll. Die einfachste Variante – nur bestimmten MAC-Adressen den Zugang zu erlauben – bietet nur wenig Schutz. Besser ist die Unterstützung von 802.1x, doch dazu benötigen Sie einen Radius-Server im LAN, der in kleinen Netzen nicht viel Sinn macht. Variabel: Bei diesem Gerät können Sie Spezialantennen anschließen und somit die Empfangsqualität für Ihre WLAN-Benutzer optimieren. (Quelle: tecCHANNEL) Eine „Light“-Variante ohne externen Authentifizierungs-Server ist PSK: Beim Pre-Shared-Key-Verfahren wird auf Client und Access Point mit gemeinsamen Keys gearbeitet. Diesen Key verwendet der Client, um sich bei einem Access Point einzubuchen. Der Key selbst wird dabei aber nicht übertragen. Diese Methode gibt auch Heimanwendern oder kleinen LANs die Möglichkeit, ein sicheres WLAN aufzubauen, ohne komplexe Authentisierungs-Server zu verwenden. Eine andere Option wäre es, über die Funkstrecke ein VPN laufen zu lassen. Neben der erhöhten Sicherheit könnten Sie zusätzlich einen „öffentlichen“ Bereich schaffen, auf den andere WLAN-Nutzer Zugriff haben – beispielsweise einen kleinen Webserver, der die eigenen Angebote anpreist. Ins Internet oder auf andere Server im LAN kommen diese WLAN-Benutzer natürlich nicht. Mittels Broadcast der SSID kündigt ein Access Point seine Verfügbarkeit an. Das ist ein zweischneidiges Schwert, denn es erleichtert Hackern das Aufspüren des Routers. Wenn ohnehin nur festgelegte vorkonfigurierte WLAN-Stationen auf den Router zugreifen, stellt ein abgeschalteter SSID-Broadcast eine weitere Hürde dar, die ein Hacker überwinden muss. Verfügt das Gerät über eine austauschbare Antenne, können Sie mit Spezialantennen einerseits die Ausleuchtung des Raums optimieren und andererseits Hackern das Leben schwerer machen, denn der Funkbereich des Routers ist auf das wirklich relevante Areal beschränkt. 188 www.tecChannel.de Kaufberatung: DSL-Router 4.2.7 Fazit DSL-Router gibt es inzwischen wie Sand am Meer, entsprechend sind auch die Preise in den Keller gefallen. Doch nicht jedes Gerät ist für jeden Einsatzbereich gleichermaßen geeignet. Leider geben die Produktverpackungen oder Broschüren nicht immer Aufschluss darüber, ob bestimmte Funktionen implementiert sind oder nicht. Hier hilft oft ein Blick auf die Webseite des Herstellers, denn die Handbücher der Geräte stehen dort zumeist zum Download bereit. Da findet man schnell die gewünschte Information. Die Hersteller-Webseite offenbart noch ein weiteres wichtiges Kriterium: Nämlich ob und wie lange der Hersteller Firmware-Updates für seine Geräte bereitstellt, etwa um erkannte Sicherheitslücken zu beheben oder neue Funktionen hinzuzufügen. Finden sich keine oder nur Update-Versprechungen für ältere Geräte auf der Website, sollten Sie gerade für den Firmeneinsatz nicht auf diesen Hersteller zurückgreifen. Denn das Risiko ist zu groß, dass Sie später bei einem erkannten Sicherheitsloch im Regen stehen. Mike Hartmann tecCHANNEL-Links zum Thema Webcode Compact Kaufberatung: DSL-Router a1289 S.183 DSL – Schneller ins Internet p418 – Test: Funknetze nach 802.11b a620 – Test: LAN-Starterkits a619 – So funktioniert TCP/IP p209 – Windows als Dial-up-Router a828 – Linux als Dial-up-Router p322 – Masquerading mit Linux a707 – Linux als Firewall a695 – Firewall-Grundlagen a682 – Linux-Firewall mit ipchains a704 – ADSL unter Linux a833 – Proxy-Server unter Linux a798 – Mehrwert mit DSL a868 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. webcode: a1289 189 Netzwerk 4.3 Drei Dienste – eine Leitung Neue Technologien wie Metro Ethernet versprechen nicht nur für Firmenkunden erhebliche Verbesserungen bei Service und Preis. Auch Privathaushalte können davon profitieren – viele neue Dienste und vor allem Anbieter stehen schon in den Startlöchern. Und Konkurrenz belebt bekanntlich das Geschäft. Um in einem durchschnittlichen Haushalt Telefonie, Fernsehen und Internet zu realisieren, benötigt man derzeit verschiedene Übertragungstechnologien und Diensteanbieter. Dementsprechend viele Kabel sind beim Bau des Gebäudes zu verlegen. Eine Kupferdoppelader für den analogen oder den ISDN-Telefonanschluss, ein Koaxial-Kabel für TV und je nach Provider und Technologie eventuell noch eine weitere Kupferdoppelader für DSL. Bei ADSL der Telekom läuft das T-DSL zwar über dieselbe Ader wie das Telefon, aber die Signale werden über den Splitter voneinander getrennt. Der TV-Anschluss beschränkt sich normalerweise darauf, dass man die ins Kabel eingespeisten Sender anschauen kann, und zwar zu der Zeit, die der Sender festgelegt hat. Eine flexible Freizeitgestaltung über Video-on-Demand ist damit nicht möglich. Auch beim Pay-TV ist der Kunde immer noch auf starre Sendezeiten festgelegt: Wer zu spät kommt, der verpasst den Anfang. Mittels moderner Geräte wie einem Harddisk-Recorder kann man inzwischen wenigstens das Programm aufzeichnen lassen und noch während der Aufzeichnung beginnen, via Time-Shifting den Film anzuschauen, wenn man wieder einmal nicht pünktlich aus dem Büro kam. Das Gerät muss dazu aber genügend Rechenleistung bieten, da der analoge Datenstrom in Echtzeit komprimiert werden muss. Dabei existieren längst geeignete Technologien, die Internet, Telefonie und Video über ein Datenkabel transferieren können. Voice over IP und MPEG4-VideoStreams sind hier die Schlagwörter. Bei dieser Integration aller Dienste auf ein Datenkabel ist das Ganze allerdings noch mehr als die Summe der Einzelteile: • Neben Fernsehen sind auch Pay per View und Video-on-Demand realisierbar. • Video-Recorder-Funktionen sind einfacher möglich, da die Video-Daten gleich digital vorliegen. • Eine elektronische Programmzeitschrift wäre direkt am Fernseher abrufbar oder könnte mit einigen intelligenten Algorithmen alle für den Benutzer interessanten Programme aufzeichnen. • Ein eingehender Anruf ließe sich zum Beispiel direkt auf dem Fernseher mit der Caller-ID einblenden. So müsste man nicht einmal aufstehen, um nachzusehen, wer anruft. Optional könnte man auch direkt per Tastendruck die TimeShift-Aufzeichnung des Programms starten und dann direkt am Fernseher per Video-Konferenz telefonieren. • Das „Smart Home“ mit Telemetrie-, Sicherheits- und Überwachungsdiensten ist ebenfalls einfacher realisierbar, da beispielsweise die Kamera des VideoTelefons gleichzeitig als Überwachungskamera dient. 190 www.tecChannel.de Drei Dienste – eine Leitung 4.3.1 Benötigte Bandbreite Diese schöne neue Dienstewelt erfordert jedoch eine deutlich höhere Bandbreite als die bisher über xDSL angebotene. Immerhin benötigt ein Telefongespräch per IP-Telefonie knapp 100 Kbit/s, für jeden Video-Stream in adäquater Qualität sind etwa 5000 Kbit/s fällig. Video-on-Demand oder normales Fernsehen sind also mit xDSL nicht realisierbar, zumindest nicht in der gewohnten Qualität. Zudem kommt es vor, dass Familienmitglieder nicht immer einer Meinung sind, was das anzuschauende Programm angeht. Zwei Fernsehprogramme oder auch zwei verschiedene Filme per Video-on-Demand parallel erfordern jedoch schon die Geschwindigkeit eines 10-Mbit/s-Ethernet. Kabellos telefonieren: Allerdings nicht per DECT und ISDN, sondern per WLAN und Voice over IP. Das neue WLANTelefon von Cisco macht es möglich. Demnächst werden auch Geräte auf den Markt kommen, die Mobilfunk (GSM) und IP-Telefonie miteinander verbinden. (Quelle: Cisco) Da trifft es sich gut, dass viele Netzwerkausrüster schon seit einigen Jahren an einer Technik namens Metro-Ethernet arbeiten. Denn man hat erkannt, dass die klassischen Übertragungsverfahren nicht mehr optimal einsetzbar sind. Basis der Übertragung sind zumeist Glasfasernetze, die mit der Technik Synchronous Digital Hierarchy (SDH) betrieben werden. SDH hat seinen Ursprung in den klassischen Telefonnetzen und ist dementsprechend für die Übertragung von Sprache optimiert. SDH ist in Stufen von 2 Mbit/s, 34 Mbit/s und mehr verfügbar, außerdem besteht die Möglichkeit, mehrere 2-Mbit/s-Leitungen gemeinsam zu nutzen. SDH-Equipment ist jedoch nicht billig, außerdem sind Konfiguration und Management solcher Installationen komplex, was die Dienste entsprechend teuer macht. Zudem ist SDH hinsichtlich dynamischer Bandbreitenzuweisung sehr unflexibel, was viele Firmenkunden bisher dazu veranlasst hat, eher eine zu kleine als eine zu große Bandbreite zu mieten. Eine Lösung dieser Probleme verspricht der Einsatz von Ethernet in den MetroNetzen der Carrier. Das eigentlich für lokale Netze konzipierte Übertragungsverfahren hat sich inzwischen längst als De-facto-Standard für die Datenkommuni- webcode: a1286 191 Netzwerk kation in Unternehmen etabliert, weil Ethernet wesentlich einfacher zu handhaben ist. Zudem ist es auch besser ausbaubar: Ursprünglich sah die Spezifikation eine Bandbreite von 10 Mbit/s vor, inzwischen ist die Gigabit-Schallmauer durchbrochen, die Arbeiten an der Standardisierung von 10 Gigabit laufen. Eine Weiterentwicklung in Richtung 100 Gigabit wird bereits diskutiert. 4.3.2 Technische Realisierung beim Kunden Wenn also ohnehin schon Ethernet in den Metro-Netzen verwendet wird, was liegt da näher, als es auch für die Anbindung des Kunden zu nutzen, da sich damit die Gerätekosten für die Anbindung senken lassen und eine flexiblere Gestaltung bei der Bandbreite möglich ist. Bei Firmengebäuden ist die Anbindung weniger ein Problem, denn entsprechende Kabel werden meistens schon beim Bau des Gebäudes verlegt – sowohl für den WAN-Anschluss als auch für die Inhouse-Vernetzung. Anders sieht es bei Wohngebäuden aus. Hier sind gerade mal die vorgeschriebenen Kupfer-Doppeladern in die einzelnen Wohnungen verlegt. In einem Verteilerkasten im Keller findet sich eine Anschlusstafel, über die die von außen eingehenden Leitungen mit den Leitungen in die Wohnungen verschaltet werden. Außerdem ist das gesamte Kabelnetz im Haus über Leerrohre realisiert, die nur einen relativ schmalen Durchmesser aufweisen. Normale Twisted-Pair-Kabel lassen sich dadurch nicht oder nur mit sehr großem Aufwand verlegen. Die dünneren Glasfaserkabel sind eher eine Alternative, hier sind allerdings höhere Kosten für die Kabel zu veranschlagen, und ein Fiber-Port kommt auch teurer als ein Ethernet-Port. Das größte Problem stellt jedoch der Fiber-Anschluss in der Wohnung dar: Dieser ist relativ empfindlich und kann schon bei einer einfachen Wohnungsrenovierung durch Farbe zerstört werden. Bleibt also als einfachste Variante die Nutzung der ohnehin bereits bestehenden Kupfer-Doppelader. Mittels xDSL sind die benötigten Datenraten nicht realisierbar, also braucht man ein anderes Verfahren. Hier kommt Long Reach Ethernet (LRE) ins Spiel, das Ethernet über Standardkabel auch über größere Entfernungen transportieren soll. Damit wäre es also durchaus möglich, direkt vom Verteiler Ethernet bis in die Wohnung zu legen. Allerdings ist LRE auf längeren Strecken oder schlechten Kabeln sehr störungsanfällig. Eine Lösung für dieses Problem wäre die Verkürzung der Strecke, auf der LRE genutzt wird: In größeren Wohnhäusern mit zehn oder mehr Mietparteien stellt man einen LRE-Switch in den Verteilerschrank, der die einzelnen Wohnungen mit Ethernet bedient. An das Metro-Ethernet angebunden wird der Switch optimalerweise über eine Glasfaserverbindung. Entsprechende Kabel werden schon seit längerer Zeit prophylaktisch verlegt, sobald ohnehin Arbeiten an den Hauszuleitungen erforderlich sind. 192 www.tecChannel.de Drei Dienste – eine Leitung 4.3.3 Wer soll’s machen? Die Technik ist also da, die notwendigen Verfahren sind beschrieben, und auch die Anwendungen stehen schon bereit. Es ist also nicht wie bei UMTS, wo man erst krampfhaft nach der Killerapplikation suchen muss. Dennoch tut sich der Anbietermarkt schwer – entsprechende Angebote existieren in Deutschland nicht. Lediglich Fastweb (www.fastweb.it) in Mailand zeigt, wie es gehen könnte. Dort stehen dem Kunden diverse Optionen zur Auswahl, beispielsweise ein Anschluss mit 10 Mbit/s, TV-Option (20 Kanäle) und eine Telefon-Flatrate (lokale und Inlandsgespräche) für insgesamt 95 Euro. Zusätzlich kann der Kunde noch Dienste wie Video-on-Demand, Video-Konferenzen oder Heimüberwachung buchen. Der Telekom dagegen scheint ihr derzeitiges DSL-Angebot zunächst zu genügen, und die alternativen Carrier verwenden zumeist die Kabel der Telekom für die viel beschworene letzte Meile. Sie sind auch nicht unbedingt daran interessiert, erst einmal Risikokapital in die Hand zu nehmen, um neue Umsatzquellen zu erschließen. Dabei zeichnet sich schon seit einigen Jahren der Trend ab, dass die Umsätze aus reinen Sprach- und Datendiensten schneller fallen als die Kosten für die Bereitstellung derselben mit aktuellen Technologien. Fortschrittlich: Beim italienischen Anbieter Fastweb kann der Kunde Internet, TV/Video und Telefonie aus einer Hand und über ein Kabel buchen. Die technische Grundlage der Lösung ist ein Metro-Ethernet. webcode: a1286 193 Netzwerk Metro-Ethernet und eine Integration von Sprache, TV und Daten dagegen könnten aus diesem Dilemma helfen – insbesondere, wenn neue Dienste dazukommen. Hier handelt es sich nicht zwangsweise um ein Geschäftsfeld, das nur von den klassischen Carriern beackert werden kann. Auch Stromanbieter sind zunehmend auf der Suche nach neuen Umsatzquellen, denn der Preiskampf zeigt hier ebenfalls Wirkung. Was hindert also die Stromanbieter daran, beim Verlegen der Stromzuleitung gleich ein paar Glasfaserkabel mitzulegen? Gründe für die Schwerfälligkeit gibt es viele. Einerseits müssen sich zahlreiche Beteiligte einigen: der Metro-Ethernet-Betreiber, der/die Anbieter von TV oder Video sowie der Hausbesitzer, und andererseits muss allen voran die RegTP mitspielen. Letztere zeigt sich jedoch immer wieder sehr zögerlich, wenn es um neue innovative Dienste geht, wie alternative Carrier häufig und lautstark beklagen. 4.3.4 Ausblick Mit Ethernet to the Home (ETTH) und den damit erzielbaren Bandbreiten lassen sich ganz neue Anwendungen realisieren und für die Anbieter neue Geschäftsfelder eröffnen. Also eine klassische Win-Win-Situation. Zudem erschließen sich für den Netzbetreiber Einsparpotenziale bei den viel beschworenen OpEx (Operational Expenses, Betriebskosten) und eine bessere Auslastung seines Netzwerks bei gleichzeitig höherer Gesamtbandbreite. Wenn sich die verschiedenen Beteiligten, allen voran die RegTP, zu einem gemeinsamen Vorgehen entschließen, stehen uns in der Zukunft neue spannende Möglichkeiten bevor. Jörg Lösche, Geschäftsführer Allied Telesyn Deutschland, glaubt, dass noch 2004 die ersten Anbieter loslegen werden und dass in spätestens zehn Jahren ETTH in Deutschland so verbreitet sein wird wie heute DSL. Mike Hartmann tecCHANNEL-Links zum Thema Webcode Compact Daten, Telefon und Fernsehen über eine Leitung a1286 S.190 Ethernet Grundlagen a717 – Voice over IP a990 – Voice over IP II p991 – 10-Gbit-Ethernet a876 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. 194 www.tecChannel.de Meinung 4.4 Meinung Netzwerke und deren Komponenten sind nicht mehr ausschließlich in Firmen zu finden. Technologien wie xDSL haben dafür gesorgt, dass sie auch in Heimbüros oder sogar im heimischen Wohnzimmer zum Einsatz kommen, um allen Beteiligten den Zugang zum Internet zu ermöglichen. Einen nicht unerheblichen Anteil an dieser Entwicklung haben aber auch neue Geräte wie digitale Video-Recorder, Spielekonsolen mit Netzwerk- und Online-Fähigkeiten oder die Nutzung von PCs als Home-Entertainment-Zentrale. Diese neuen Absatzmärkte haben auch die Netzwerkhersteller für sich entdeckt, die gleichzeitig erkannt haben, dass für diese Märkte ein anderes Marketing notwendig ist. Das ist ja auch verständlich, denn wie erkläre ich einem Laien, dass er unbedingt mein Produkt kaufen soll? Der Laie verfügt bestenfalls über ein (un)gesundes Halbwissen, das er sich aus diversen Quellen zusammengesucht hat. Mit Fachbegriffen und komplizierten Erklärungen kommt man da nicht unbedingt weiter. Das führt häufig zu echter Kunden-Desinformation: Da wird ein simpler NAT-Router plötzlich zur Firewall, weil der potenzielle Käufer mit dem Begriff NAT nichts anfangen kann, aber durchaus von der Notwendigkeit einer Firewall überzeugt wurde. Auch wenn er eigentlich nur weiß, dass eine Firewall irgendwie den Rechner schützt. Da wird 802.11g durch technische Tricksereien so hingebogen, dass parallel zwei (der gerade mal drei verfügbaren) Kanäle zur Übertragung genutzt werden und somit nominell die doppelte Übertragungsrate herauskommt. Auf der Verpackung prangt dann in riesigen Lettern „100 Mbps“, um den Eindruck zu erwecken, dass man genauso schnell sei wie in einem normalen Fast-Ethernet-LAN. Unterschlagen wird dabei, dass WLAN ein Shared Medium ist, dass die Nettodatenrate weit unter den nominellen 100 Mbps liegt und dass allein durch die Anwesenheit eines „Nicht-Turbo“-Clients die Performance noch weiter reduziert wird. Aber auch andere „Marketing“-Aktivitäten stechen heraus. Diese führen zum Beispiel dazu, dass ein DSL-Anbieter bei der Geschwindigkeitsangabe immer eine Fußnote angeben muss, etwa 1024 Kbit/s*, um einer Abmahnung vorzubeugen. Das alles dient nicht der Kundeninformation. Anstatt sich darum zu kümmern, dass der Kunde, egal ob Heimnutzer oder Firma, das optimale Produkt zum bestmöglichen Preis bekommt, liefert man sich lieber Marketing-Schlachten und spart an der Produktentwicklung. Mike Hartmann, Ressortleiter Software und Netzwerke Abhängig von der Leistungsfähigkeit der anbietenden Server im öffentlichen Internet sowie von der Qualität der Teilnehmeranschlussleitung. * www.tecChannel.de 195 Technologien 5. Technologien Die Menge der gespeicherten Informationen ist im Zeitraum von 1999 bis 2002 jährlich um rund 30 Prozent gewachsen. Dies ist das Ergebnis einer Studie der Universität von Berkeley, die das Speicherunternehmen EMC veröffentlichte. Im Zusammenhang mit dem langsamer werdenden Fortschritt bei traditionellen Speichertechnologien erfordert dies zwangsläufig alternative Lösungen. Höhere Speicherdichten und schnellere Speicher gehören zu den primären Zielen bei der Suche nach neuen Lösungen. Im folgenden Kapitel finden Sie den aktuellen Stand der Entwicklung bei zukünftigen Speichertechnologien. 5.1 Holographische Speichertechnik Das Prinzip der Holographie ist seit Jahrzehnten bekannt, und seit langer Zeit schon wird im Bereich der holographischen Speicher geforscht. Inzwischen gibt es sogar vereinzelte Anwendungen für Speicherzwecke, etwa analoge Hologramme, die als Identifikationsmerkmale auf Geldscheinen, Kreditkarten oder Produktverpackungen dienen. Die Umsetzung in Produkte für den Speichermassenmarkt ist allerdings bislang nicht gelungen. Nachdem sich der Entwicklungsfortschritt bei Festplatten in jüngster Zeit etwas verlangsamt hat, wird nun wieder intensiver nach Alternativen für die Zukunft gesucht. Holographische Speicher sind prinzipiell in der Lage, das ganze Volumen des Speicherkörpers dreidimensional zu nutzen. Die so zu erzielenden hohen Speicherdichten werden spätestens mit Einführung von HDTV (High-Definition TV) gebraucht. HDTV-Bilder oder -Filme benötigen rund die zehnfache Speichergröße im Vergleich zu herkömmlichen Speichermedien. Heute bezeichnet man auch flächige, aufeinander geschichtete Speichertechniken – meist in Kombination mit einem Blaulicht-Laser – als holographische Speicher. Speichertechniken, die auf Blaulicht-Lasern basieren, bieten höhere Kapazitäten als die bisherige Technik und lösen zumindest mittelfristig die für die Zukunft absehbaren Kapazitätsprobleme. 5.1.1 Blaulicht-Laser Die Verwendung von Blaulicht-Lasern bei DVDs erlaubt auf Grund der kürzeren Wellenlängen das Schreiben sehr viel kleinerer Pits und damit eine deutliche Erhöhung der Datendichte. Der Blaulicht-Laser arbeitet dabei mit einer Wellenlänge von 405 nm, bei herkömmlicher Technik mit rotem Licht sind es 635 bis 650 nm. Den Vorteil der höheren Auflösung durch das kurzwelligere Licht kann man auch für die holographische Speicherung nutzen. 196 www.tecChannel.de Holographische Speichertechnik Blaues Laser-Licht ist jedoch schwierig zu erzeugen. Die dafür verwendeten Laser-Materialien sind nicht besonders temperatur- und alterungsstabil. Die Forschung in diesem Bereich hält noch an. So hat die Universität Bremen in diesem Jahr zusätzliche 2,9 Millionen Euro zur weiteren Erforschung dieser Technik erhalten. Bremen war in Europa die erste und weltweit die dritte Universität, die eine blau emittierende Galliumnitrid-Laser-Diode (GaN) herstellen konnte. Die japanische Firma Nichia hat lange Zeit Pionierarbeit bei der Erforschung von Blaulicht-Lasern geleistet und sammelte zahlreiche Patente an. Das wiederum führte zu vielerlei Patentstreitigkeiten zwischen Firmen und Konsortien, die alle Blaulicht-Laser-Produkte auf den Markt bringen wollen. Nach sechsjährigem Patentstreit gab es eine Einigung zwischen Nichia und Toyoda (beide aus Japan). 5.1.2 Blaue Variationen Im Bereich Blaulicht-DVDs wird es wie bisher unterschiedliche Formate und die entsprechenden Kämpfe um die Marktherrschaft geben. Plasmon will etwa 30 GByte bei etwa 8 MByte/s Transferrate mit der Ultra-Density-Optical-Technik (UDO) auf eine Scheibe in DVD-Größe speichern. Zukünftige Generationen dieser Technik sollen dann Kapazitäten von 60 und 120 GByte erlauben. Plasmon entwickelt Medien und Laufwerke im eigenen Unternehmen und hat für die Entwicklung 25 Millionen US-Dollar eingeplant. HP und Sony haben zeitweise an UDO mitgearbeitet. Sony arbeitet mit Firmen wie Hitachi, Philips und vielen anderen an der Blue-ray-Disc-Technik (BD) mit etwa 27 GByte Datenspeicherkapazität. BD-Medien sind nicht kompatibel zu bisherigen DVD-Medien. Die Basislizenz für BD soll es für 20.000 US-Dollar geben. Die Lizenz für den Inhaltsschutz beträgt 120.000 US-Dollar im Jahr und 10 Cent pro Laufwerk. Die Medienhersteller sollen 8000 US-Dollar im Jahr und 2 Cent pro Scheibe für den Inhaltsschutz bezahlen. Sony hat im Dezember 2003 die Verfügbarkeit eines DVD-Laufwerks auf Basis von Blaulicht-Lasern mit passendem Medium bei einer Speicherkapazität von 23,3 GByte und 9 MByte/s Transferrate bekannt gegeben. Das Laufwerk soll zirka 3000 US-Dollar kosten, das Speichermedium rund 45 US-Dollar. Toshiba und NEC propagieren ebenfalls ein neues DVD-Format mit einer Kapazität von 15 bis 20 GByte auf Basis von Blaulicht-Laser-Technologie im so genannten Advanced Optical Disc Format (AOD). Sanyo hat einen Vorschlag für Blaulicht-Laser-DVDs mit etwa 25 bis 30 GByte Speicherkapazität eingebracht. Die Unternehmen Hitachi und Maxell nutzen eine andere Möglichkeit, um mehr Daten auf DVDs zu speichern. Eine Scheibe mit bis zu 200 Lagen soll insgesamt 1 TByte an Daten speichern können. Die einzelnen Schichten sind transparent. Die jeweils aktive Schicht verfärbt sich blau, sobald eine Spannung anliegt. Die wiederbeschreibbaren Medien und die entsprechenden Laufwerke sollen etwa im Jahr 2007 auf den Markt kommen. webcode: a1197 197 Technologien 5.1.3 Geschichte holographischer Speichertechnik Seit etwa 40 Jahren wird an holographischen Techniken geforscht, insbesondere bei IBM in San Jose, USA (Almaden-Forschungszentrum). In den neunziger Jahren spendierte die amerikanische Regierung Forschungsgelder in Millionenhöhe über DARPA (Defense Advanced Research Projects Agency). Diese Behörde hat auch den Vorläufer von Ethernet entwickelt. Vor drei Jahren prophezeite die Zeitschrift „Scientific American“ den holographischen Speichersystemen eine große Zukunft. Jetzt gibt es erste Anzeichen für den Einsatz von holographischen Speichern. Ein Massenmarkt ist aber vorerst nicht in Sicht. Besonders aktiv sind die beiden amerikanischen Firmen Aprilis (Ausgründung von Polaroid) und InPhase (gegründet von Lucent und unterstützt von Imation). Die Speichermedien dieser beiden Hersteller werden derzeit von allen großen Speicherfirmen weltweit getestet. 5.1.4 Holographische Speichertechnik Ein Hologramm wird durch die Interferenz (Überlagerung) von zwei Lichtstrahlen erzeugt. Meist werden beide Strahlen durch optische Teilung aus einer gemeinsamen Laser-Quelle erzeugt. Ein Lichtstrahl, der Objektstrahl, enthält das darauf modulierte Abbild (Bitmuster, Seite), der andere, der Referenzstrahl, besteht aus kohärentem Licht. Die Modulation des Objektstrahls mit dem Bild oder Bitmuster geschieht in einem räumlichen Lichtmodulator (SLM = Spatial Light Modulator). Dies ist meist eine Flüssigkristallanordnung, ähnlich einem TFT-Bildschirm. Inzwischen kommen auch die aus Projektoren bekannten Mikrospiegelchips zum Einsatz. �������������� ��������� �������������� ������������������ ��������������� ����� ������������ © tecCHANNEL 198 www.tecChannel.de Moduliertes Abbild: Die Daten werden beim Schreiben seitenweise durch einen Lichtmodulator (SLM) in ein Muster umgesetzt. Holographische Speichertechnik Das entstehende dreidimensionale Interferenzmuster wird auf einem lichtempfindlichen Medium gespeichert. Dabei verändert es einen der drei Faktoren optische Durchlässigkeit, refraktiver Index oder Materialdicke. Meist nutzt man zur Speicherung einen kristallinen Körper oder einen Polymerfilm. Das Auslesen des Abbildes erfolgt durch einen mit dem Referenzstrahl identischen, kohärenten Lichtstrahl. Dadurch entsteht das ursprüngliche Abbild wieder. Dessen Auswertung übernimmt in der Praxis ein CCD-Chip als Detektormatrix. Mustererkennung: Beim Auslesen übernimmt meist ein CCD-Chip die Erkennung des Musters. © tecCHANNEL Bei der holographischen Speicherung sind störende Interferenzen ein großes Problem, das auch bei astronomischen Teleskopen im Weltall auftritt. Die zur Abhilfe entwickelten Fehlerkorrekturverfahren funktionieren fast unverändert auch bei der holographischen Speicherung. 5.1.5 Variationen der Holographie Alle Vorgänge sind bei der holographischen Speicherung umkehrbar: Trifft der Referenzstrahl zum Auslesen der Daten auf das Hologramm, dann entsteht das Abbild. Bei Bestrahlung des Hologramms durch das modulierte Bild ist das Ergebnis der Referenzstrahl. Bei Beleuchtung des Abbildes von der Rückseite mit dem Referenzstrahl entsteht das ursprüngliche Bild vor dem Lichtmodulator (Rückwärtsprojektion). Für die holographische Abbildung sind sehr teure, hoch präzise optische Linsen und Systeme erforderlich. Daher nutzt man zum Lesen die Rückwärtsprojektion und verwendet die Optik sowohl zum Lesen als auch zum Schreiben. Das Hologramm der zu speichernden Information lässt sich über Spiegel mit veränderlichem Winkel, unterschiedlicher Wellenlänge oder mit verschiedenen Phasenlagen erzeugen. Dabei werden zahlreiche Datensätze gleichzeitig im kompletten Medium abgelegt. webcode: a1197 199 Technologien Vice versa: Wenn der Objektstrahl auf das modulierte Bild trifft, ist der Referenzstrahl das Ergebnis. ausgelesener Referenzstrahl lichtempfindliches Speichermedium © tecCHANNEL Objektstrahl Der Effekt des Speicherns mehrerer Bilder ineinander lässt sich beispielsweise anhand der Hologramme von Kreditkarten erkennen. Bei der Betrachtung unter verschiedenen Blickwinkeln kann man unterschiedliche Bilder ausmachen. Bisher ist es gelungen, bis zu 10.000 Seiten (Bilder) in einem ein Zentimeter starken Material abzulegen. Umkehrschluss: Das Prinzip funktioniert in beide Richtungen und liefert den Objektstrahl zurück. phasen-invertierter Referenzstrahl lichtempfindliches Speichermedium © tecCHANNEL ausgelesener phasen-invertierter Objektstrahl 5.1.6 Holographische Medien Nach dem heutigen Stand der Technik könnten holographische Speicherscheiben in der Größe von CDs oder DVDs bei 20 MByte/s Transferrate etwa 200 GByte speichern. Im Gegensatz zu Band und Platte wird nicht ein serieller Bitstrom, sondern ein ganzer Datensatz (Seite) gleichzeitig geschrieben oder gelesen. Die Seitengröße beträgt derzeit bei quadratisch flächiger Anordnung etwa 1 Mbit. So wird jeweils 1 Mbit in einem Schritt geschrieben oder gelesen. Damit werden die für die großen Speichermengen benötigten hohen Datentransferraten erreicht. 200 www.tecChannel.de Holographische Speichertechnik Das wesentliche Hindernis für die Einführung holographischer Speicher ist die Bereitstellung eines passenden Speichermediums. Viel versprechend ist ein Medium aus Glas mit winzigen Löchern, die mit Acryl gefüllt sind. Glas ist sehr volumenstabil. Die meistens verwendeten Polymermaterialien schrumpfen dagegen bei der Bearbeitung und verfälschen das Hologramm. Das acrylgefüllte Glas schrumpft weniger als ein Prozent und ist damit deutlich stabiler als Polymer. Zudem erlaubt Glas eine dickere Speicherschicht als Polymer, wodurch automatisch ein größeres Speichervolumen zur Verfügung steht. Das am häufigsten genutzte photorefraktive Material war bisher mit Eisen dotiertes Lithium-Niobat (LiNb03). Dieses Material ist jedoch teuer und empfindlich, die Daten werden beim mehrfachen Lesen zerstört, und es besitzt nur einen kleinen Dynamikbereich. Mit zweifarbigem Laser-Licht und stöchiometrischem sowie verschieden dotiertem Lithium-Niobat (SLN) versucht man zu erreichen, dass die Daten beim Auslesen nicht gelöscht werden. Mit der einen Lichtfarbe wird das Material aktiviert und mit der anderen Farbe wird geschrieben und gelesen. Einmal beschreibbare Photopolymere verändern den Brechungsindex durch eine nicht umkehrbare Polymersation. Dabei werden die Zusammensetzung und die optischen Eigenschaften des Materials dauerhaft verändert. Diese holographischen Medien sollten die Daten für etwa 50 Jahre halten. 5.1.7 Anwendungen Bei der digitalen holographischen Speicherung wird seitenweise je ein Datenblock gespeichert. Jede Seite kann man sich als eine quadratische Scheibe vorstellen, in die das Bitmuster (Loch/Nichtloch) eingebrannt wurde. Mit jeder Winkelstellung des Referenzstrahls entsteht virtuell eine weitere Lochscheibe, je nach Winkel des Referenzstrahls davor oder dahinter. Jede Scheibe wird mit einem kohärenten Referenzstrahl unter dem dazugehörigen Winkel ausgelesen. Das entspricht prinzipiell dem Lesen und Schreiben mit herkömmlichen Medien. Wird beim Lesen ein Suchmuster vorgeschaltet, kann direkt, ohne spätere Vergleichsoperation, nach Inhalt (assoziativ) ausgelesen werden. Der gesuchte Inhalt ergibt dann Korrelationsspitzen (intensiveres Licht) beim Lesen. Dies erlaubt zum Beispiel schnell und einfach Inhaltssuchen in Datenbanken. Bisher sind holographische Datenmedien in der Regel nur einmal beschreibbar. Sie finden also zunächst ähnliche Einsatzgebiete wie CD- oder DVD-ROMs. Auf Grund der Kapazität lassen sich beispielsweise HDTV-Filme in voller Länge auf holographischen Medien ablegen. Besonders vorteilhaft ist der Parallelbetrieb. Für höhere Datenraten muss keine Scheibe schneller gedreht werden. Die Kapazität hängt nicht davon ab, dass immer kleinere Speicherpunkte erzeugt werden müssen. Ed Grochowski und Hans Coufal am Almaden-Forschungszentrum von IBM erwarten erste holographische Speicherprodukte mit folgenden Eigenschaften: webcode: a1197 201 Technologien Holographische Speicherprodukte im Überblick Produktart Kapazität Zugriffszeit Anwendung Holo-DRAM 25 GByte 10 µs nicht flüchtiger Cache Holo-Platte 1 TByte 10 ms hohe Zuverlässigkeit Holo-DVD 1 TByte 10 ms niedrige Kosten Holo-Speicherarchiv 1 PByte 10 s hohe Volumendichte 5.1.8 Produkte und Projekte In Sachen holographische Speichertechniken existierten zahlreiche Projekte. Nicht alle Firmen oder Startups, die an entsprechenden Lösungen arbeiteten, haben jedoch überlebt. Andere wiederum erfreuen sich weiterer kräftiger Investitionsschübe: So erhielt Aprilis von einem einzigen Investor in zwei Finanzierungsrunden insgesamt 17 Millionen US-Dollar. InPhase hat kürzlich einen Entwicklungsauftrag in Höhe von 600.000 US-Dollar von der National Technology Alliance des US-Verteidigungsministeriums bekommen. Davor sind bereits etwa 8,3 Millionen US-Dollar an Investment-Geldern in das Unternehmen hineingesteckt worden. Optware in Japan wird von einer Investment-Gruppe (darunter Intel) mit 4,9 Millionen US-Dollar unterstützt. 5.1.9 Aprilis Der einmal beschreibbare holographische Datenträger von Aprilis aus Maynard, USA, verwendet ein zwischen zwei Glasplatten eingefügtes Speichermedium. Die Scheibe (HMD120) mit 120 mm Durchmesser nimmt etwa 200 GByte Daten auf. Eine ebenfalls entwickelte, quadratische Speicherkarte (HMC050) hat eine Kantenlänge von 50 mm. Die jeweiligen Medien sind mit einer Dicke von 200 oder 300 µm verfügbar. Die Gesamtdicke mit Substrat beträgt 0,6 mm, 1,2 mm oder 1,55 mm. Als Datenrate wird mehr als 100 MByte/s angegeben. Die Besonderheit ist dabei das verwendete geometrisch extrem stabile CROP-Medium (Cationic Ring Opening Polymerization). Schreibempfindlichkeit und der refraktive Index sind sehr hoch bei sehr niedriger Lichtstreuung. Nach dem Schreiben ist das Material nicht mehr licht- oder sauerstoffempfindlich. Aprilis hat im Jahr 2002 21 Patente über holographische Techniken von Manhattan Scientifics aufgekauft. Mehr als 15 Firmen, darunter beispielsweise bekannte Namen wie Sony und Samsung, haben holographische Karten und Scheiben von Aprilis zur Evaluierung angeschafft. 202 www.tecChannel.de Holographische Speichertechnik 5.1.10 IBM Bei IBM kümmert man sich seit über 30 Jahren mehr oder weniger intensiv um die Erforschung holographischer Speicher. Dabei untersucht IBM alle denkbaren Materialien, die als holographisches Medium in Frage kommen würden. Bisher ist es in den Laboren gelungen, Speicherdichten von 400 Bit/µm² zu erzeugen. Zum Vergleich: Die Speicherdichte bei CD-ROMs beträgt 0,7 Bit/µm² und 4,5 Bit/µm² bei DVDs. Das Problem des zerstörerischen Auslesens möchte IBM durch unterschiedliche Wellenlängen des Laser-Lichts beim Schreiben und Lesen umgehen. 5.1.11 InPhase Das Speichermedium Tapestry von InPhase ist ein Photopolymer mit besonders guten Holographie-Eigenschaften. Es besteht aus zwei unabhängig voneinander polymerisierbaren chemischen Komponenten. Eine Scheibe in CD-Größe mit 100 GByte Speicherkapazität und 20 MByte/s Transferrate wurde im April 2003 öffentlich vorgestellt. Bis zum Beschreiben muss sich das Medium in einer lichtdichten Kassette befinden. Entsprechende kommerzielle Produkte sollen in absehbarer Zukunft verfügbar sein. Darüber hinaus berichtet InPhase von Tests mit bis zu 1000 Mal wiederbeschreibbaren Medien. Das Unternehmen macht jedoch keine Angaben zu dem entsprechenden Material. Bisher lässt sich beispielsweise Azobenzene-Material ungefähr 60 bis 80 Mal wiederbeschreiben. Von den Bell Labs hat InPhase 42 Patente mit Bezug auf holographische Speicher übernommen. Etwa 40 weitere Patente befinden sich in der Anmeldung, einige sind bereits erteilt. 5.1.12 Optilink Nach eigenen Angaben hat Optilink aus Schweden weltweit als erstes Unternehmen ein tragbares Test- und Evaluierungsgerät für holographische Speicher als Peripheriegerät zum Anschluss an PCs vorgestellt. Der holographische Speicher hat die Form einer Kreditkarte. Optilink nutzt die polarisierte Fourier-Holographie mit einem 2 µm dicken Flüssigkristallpolyester als Speichermedium für eine Kapazität von 1 GByte. Der Laser arbeitet mit einer Wellenlänge von 532 nm und mit Laser-Impulsen im Picosekunden-Bereich. Die Modulation erfolgt mit einem Flüssigkristall-SLM. Der Datenstrahl wird Fourier-transformiert, bevor er mit dem rechtwinklig auftreffenden Referenzstrahl das Interferenzmuster bildet. Optilink bevorzugt Peptide und Flüssigkristallpolyester. Peptide sind Polymere, die unter Lichteinfluss Verbindungen mit unterschiedlichen Chromophoren eingehen. Peptide haben viele gute optische Eigenschaften, zudem sind sie besonders temperaturstabil sowie umweltfreundlich und preiswert herzustellen. webcode: a1197 203 Technologien Für das Schreiben ist bei Optilink linear polarisiertes Licht zuständig, das Löschen übernimmt zirkular polarisiertes Licht. Das Lesen und Schreiben kann mit einem Licht identischer Wellenlänge erfolgen, da die Beleuchtungsenergie für die Umorientierung des Materials unterschiedliche Intensität erfordert. Die holographischen Verfahren erforscht Optilink in Kooperation mit dem Riso National Laboratory in Dänemark und mit der Universität für Technologie und Wirtschaft in Budapest. 5.1.13 Optostor Die deutsche Firma Optostor aus Ratingen setzte zusammen mit dem Institut für Kristallographie der Universität Köln auf Lithium-Kristall als Speichermedium. Bisher existieren solche Kristalle in der Größe von 50 x 50 x 3 mm. Lithium-Kristalle sind chemisch und mechanisch robust. Das verwendete Lithium-Niobat muss nach dem Beschreiben im Kristall fixiert werden. Ein Teil der etwa 20 angemeldeten Patente beschreibt das bisher nicht veröffentlichte Verfahren. Optostor glaubte, dass die Daten bis zu 500 Jahre halten. Das Unternehmen wurde nicht so alt. Im Dezember 2002 hat Optostor Insolvenz angemeldet. Es fehlten die in den USA und Japan eher verfügbaren Millionen für die Entwicklung zum verkaufsfähigen Produkt. Die Forschungsergebnisse von Optostor werden wohl in anderen Firmen weiterentwickelt. 5.1.14 Optware Das japanische Unternehmen Optware kooperiert mit den Universitäten Stanford und MIT in den USA. Investitionsgelder kommen ebenfalls aus den USA. Ziel ist es, einen Datenspeicher mit einer Kapazität von 1 TByte und einer Datentransferrate von 1 GByte/s zu entwickeln. Darüber hinaus produziert Optware den so genannten Holographic Media Analyzer (S-VRD), ein Gerät, das die Analyse holographischer Medien erlaubt. 5.1.15 Ausblick Holographische Speicherung ist rein theoretisch eine einfache Technik, die seit vielen Jahren bekannt ist. Ihre Umsetzung in praxistaugliche, preiswerte Produkte bleibt aber extrem schwierig. Das Speichermedium erweist sich als besondere Herausforderung an die Entwickler und Produzenten holographischer Speicher. Es muss vor dem Schreiben (Belichten) wie ein fotografischer Film lichtdicht verpackt bleiben. Bei einem wiederbeschreibbaren Medium ist vor dem erneuten Beschreiben diese Lichtempfindlichkeit wiederherzustellen. 204 www.tecChannel.de Holographische Speichertechnik Die Daten lassen sich nicht wie bei CDs oder DVDs in holographische Medien einpressen. Das erschwert die Vervielfältigung von Software, Filmen oder Musik für die Massenproduktion. Mit holographischem Material beschichtete DVDs sollten etwa 1 TByte an Daten speichern können. Mit kommerziellen Produkten wird in drei bis fünf Jahren gerechnet. Nicht holographische Speicher, wie zum Beispiel 30-GByte-DVDs mit Blaulicht-Technik, stehen dagegen kurz vor der Markteinführung. Nach Meinung der Hersteller und Experten ersetzen holographische Speicher die herkömmlichen Speicher (Band, Platte, DVD, MO) in Zukunft nicht. Lediglich in Nischenanwendungen werden holographische Lösungen diese etablierten Techniken wohl etwas verdrängen. Hermann Strass Der Autor Hermann Strass ist Berater für neue Technologien, insbesondere für Busarchitekturen, Massenspeicher sowie industrielle Netzwerke und Automation, Mitglied in nationalen und internationalen Normungsgremien, in der IEEE Computer Society sowie Technical Coordinator der VITA in Europa. Daneben ist er Autor von Fachbüchern und Zeitschriftenartikeln, außerdem organisiert er Seminare. tecCHANNEL-Links zum Thema Webcode Compact Holographische Speichertechnik a1197 S.196 DVD-Schreibformate im Überblick a821 – Blu-ray statt DVD: Alles blauer Dunst? a888 – Grundlagen: DVD-ROM a847 – Grundlagen: Festplattentechnik a641 – Grundlagen: CD-ROM p403 – Technologie-Trends bei Festplatten & Co a658 – Nanotechnik: IBM speichert 1 Tbit/in2 a947 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. webcode: a1197 205 Technologien 5.2 Zukünftige Speichertechnologien Forschungen über physikalische, chemische, biologische und andere (exotische) Speichertechniken gibt es schon lange. Nachdem sich der Entwicklungsfortschritt bei Festplatten in jüngster Zeit etwas verlangsamt hat, werden jetzt wieder intensiver Alternativen für die Zukunft untersucht. Nachfolgend finden Sie den Status quo und die derzeitigen Entwicklungsvorhaben alternativer Techniken beschrieben. Viele Ansätze ähneln sich. Sie werden aber unabhängig voneinander an verschiedenen Orten in verschiedenen Laboren parallel und mit unterschiedlichen Zielvorstellungen entwickelt. Die Bandbreite reicht dabei vom Speichern von Daten in Molekülen, mit nanomechanischen Verfahren oder mit Hilfe von Proteinen bis zu elektrischen, optischen und magnetischen Speicherverfahren. 5.2.1 Grundlegendes Die mehr oder weniger lineare Weiterentwicklung der bisherigen magnetischen Festplattentechnik (webcode: a641) soll zumindest noch für eine Speicherdichte bis in den Bereich von Tbit/in² reichen (webcode: a658). Da diese Speicherdichten für Magnetplatten aus heutiger Sicht nur noch mit sehr großem technischen Aufwand und daher hohen Kosten erreichbar sein dürften, wird eifrig nach Alternativen geforscht. Neuartige magnetische, optische, thermo-mechanische, elektrische, chemische und biologische Verfahren werden intensiv erforscht. Es bleiben aber noch einige Jahre Entwicklungszeit, bis diese alternativen Techniken einspringen müssen. Oft werden mit ähnlichen Grundtechniken ganz unterschiedliche Verfahren erprobt, wobei sich erst später erweisen wird, welche Technik ökonomisch zu verwirklichen ist. Speichertechniken werden häufig danach beurteilt, ob sie nach dem Abschalten der Stromzufuhr ihren Dateninhalt behalten oder nicht. Der übliche Maßstab für den Datenerhalt sind zehn Jahre ohne erneute Energiezufuhr. Dies ist auch das Maß für das so genannte superparamagnetische Limit bei magnetischen Plattenspeichern. Das ist keine physikalische Größe, sondern nur ein Maß für die Größe einer magnetischen Domäne (ein Bit), also der Korngröße, die statistisch nach zehn Jahren noch unterscheidbar als NULL oder EINS gelesen werden kann. Weitere Unterscheidungsmerkmale sind einmal oder beliebig oft beschreibbare Datenträger, mit oder ohne zwischengeschaltete Formatierung/Löschung sowie die Anfälligkeit gegen Licht oder magnetische Felder. Generell versucht man die relativ langsamen Schreib- und Lesezyklen von manchen der neuen Materialien durch Parallelzugriff zu beschleunigen. Ein Beispiel dafür ist der unten beschriebene Tausendfüßler (Millipede). Zum Vergleich sei daran erinnert, dass die relativ hohe Schreib-/Lesegeschwindigkeit bei Festplatten auf einer rein sequenziellen Technik beruht. Die Daten werden immer nur als ein Strom von einzelnen Bits geschrieben und gelesen, das aber bei sehr hoher Bitrate. 206 www.tecChannel.de Zukünftige Speichertechnologien 5.2.2 Mechanische Verfahren Nanomechanische Systeme haben Vorteile gegenüber elektronischen Lösungen. Dabei kommen Varianten von STM (Scanning Tunneling Microscope, Rastertunnelmikroskop) und AFM (Atomic Force Microscope, Rasterkraftmikroskop) wegen ihrer extrem genauen Positioniermöglichkeit zum Einsatz. Die mechanische Bewegung benötigt wenig Energie und ist relativ schnell. Hitze ist kein großes Problem, weil sich im Gegensatz zu elektronischen Lösungen die Elektronen nicht durch immer engere Leiterbahnen und Schaltelemente zwängen müssen. Wissenschaftler an den Universitäten von Edinburgh in Schottland und Bologna (Institut für das Studium von Nanostruktur-Materialien) in Italien haben eine Art molekularer Braille-Schrift entwickelt. Die Braille-Punkte entstehen auf einem dünnen Plastikfilm (3 bis 35 nm) mit Hilfe von Rotaxane-Molekülen. Im Labor waren solche Bitmuster einige Tage stabil. Je nach Dicke der Rotaxane-Schicht werden mit einer Kraft von 2 nN Punkte von 100 bis 500 nm Durchmesser bei einer Höhe von 1 bis 20 nm als Folge des mechanischen Drucks geformt. 5.2.3 Speicherzellen in Atomgröße Für die Forschung im Nanometer-Bereich und für MEMS (Micro Electronic Mechanical Systems) werden entsprechende AFMs (Atomic Force Microscopes, Rasterkraftmikroskope) benötigt. Ein solches Messgerät für 8-Zoll-Wafer kostet derzeit etwa 100.000 US-Dollar. Die AFM-Technik wurde in den Forschungslaboren bei IBM auch schon mit rotierenden Scheiben genutzt. Einen Chip für Speicherzellen in Atomgröße hat Franz Himpsel, Physikprofessor an der Universität von Wisconsin (USA) mit einem Team von Wissenschaftlern hergestellt. Damit wurde zum ersten Mal bewiesen, was der berühmte Physiker Richard Feynman bereits 1959 vorhergesagt hatte. So könnten theoretisch alle jemals in der Menschheitsgeschichte geschriebenen Worte in einen Würfel mit einer Kantenlänge von weniger als 0,1 mm passen, wenn jedes Atom zur Speicherung eines Bit genutzt würde. Das Labormuster von Franz Himpsel ist allerdings erst zweidimensional, also noch nicht dreidimensional, wie es für die vorgenannte Speicherdichte nötig wäre. Aber auch so ist die Speicherdichte schon etwa eine Million mal dichter als bei heutigen CD-ROMs. Nach herkömmlicher Rechnung wären das 250 Tbit/in², was etwa 2500-mal so viel ist wie heute maximal bei Plattenspeichern möglich. 5.2.4 20 Atome pro Bit Der von Professor Himpsel entwickelte Silizium-Speicherchip hat auf seiner Oberfläche Längsrillen. Darin liegen einzelne Silizium-Atome wie Tennisbälle nebeneinander in einer Rinne. Werden nun einzelne Atome mit der Spitze eines webcode: a1209 207 Technologien STM (Scanning Tunneling Microscope) herausgenommen, entstehen Fehlstellen, die als logische NULL gelten. Atome, die am Platz bleiben, repräsentieren jeweils eine logische EINS. Lesen, Schreiben und Formatieren eines solchen atomaren Speichers geschieht bei Raumtemperatur. Zwar ist die Manipulation einzelner Atome bei extrem tiefen Temperaturen technisch einfacher und präziser, aber auch erheblich teurer zu realisieren. Die Rinnen (Gräben) an der Silizium-Oberfläche wurden nicht in herkömmlicher Wafer-Technik belichtet und herausgeätzt. Solche Strukturen (heute etwa 90 nm) wären um Größenordnungen zu grob. Professor Himpsel bedampfte seine Silizium-Speicherchips extrem dünn mit Gold. Dadurch entstanden Strukturen mit Längsrillen. Danach wurde darauf noch Silizium aufgedampft. Die Siliziumatome fallen von allein in die vom Goldüberzug erzeugten Gräben, wie Eier in den Eierkarton. Dabei entstehen automatisch regelmäßige Abstände zwischen den Atomen, die somit einzeln herausgenommen oder eingefügt werden können, ohne Nachbaratome zu beeinflussen. Das sind dann, wie oben schon beschrieben, die atomaren Bits. Diese Technik benötigt sicher noch Jahre oder Jahrzehnte, bis sie kommerziell genutzt werden kann. Nachteilig ist, dass ein Vakuum benötigt wird. Das Lese-/ Schreib-Gerät in Form eines STM ist langsam, da es nur einzelne Atome bewegt, und außerordentlich teuer. Die Signalstärke ist offensichtlich extrem klein. Die Verstärkung aus dem thermischen Rauschen heraus ist sehr aufwendig. Die Speicherdichte übertrifft dabei selbst die in der Natur nach einem langen Evolutionsprozess erreichten Werte: Franz Himpsel benötigt etwa 20 Atome je Bit. In der DNA werden 32 Atome für eine Informationseinheit je Basenhalbpaar benötigt. 5.2.5 Millipede Bei der von IBM im Forschungslabor Rüschlikon bei Zürich „entwickelten“ Millipede (Tausendfüßler) genannten thermo-mechanischen Technik werden Bits in Molekülgröße gespeichert. Peter Vettiger, einer der Erfinder dieser Technik, gibt an, dass die Idee bei einem kühlen Bier nach dem wöchentlichen firmeninternen Fußballspiel entstand. Die erreichbare Speicherdichte (1 Tbit/in²) des Millipede ist etwa 20-mal so hoch wie bei heutigen Festplatten. Kern der Millipede-Technologie ist Angaben von IBM-Research zufolge eine zweidimensionale Anordnung von V-förmigen Silizium-Federzungen (Kantilever), die 0,5 Mikrometer dünn und 70 Mikrometer lang sind. Beim Millipede bewegt sich ein Kamm aus 32 x 32 elastischen Federzungen mit Kegelspitze über eine Plastikoberfläche. Damit werden beim Schreiben, je nach Bitmuster, bei 400 Grad Celsius Löcher in die Oberfläche geschweißt. Beim Lesen wird die Meldung, Loch oder kein Loch, als EINS oder NULL interpretiert. Die Löcher haben einen Durchmesser von etwa 10 nm. Gelesen wird etwa durch die Temperaturänderung, die sich ergibt, wenn eine Federspitze auf eine atomare Erhöhung stößt (Reibungswärme). Die Zugriffszeit soll bei zirka 500 µs liegen. 208 www.tecChannel.de Zukünftige Speichertechnologien Unter dem Mikroskop betrachtet: IBM zeigt den Aufbau der 3 x 3 mm messenden Anordnung der Kantilevern (oben links) und einen Ausschnitt von 64 Kantilevern (unten links). Oben rechts ist ein einziger Kantilever zu sehen, unten rechts eine einzelne Spitze, die am freien Ende der V-förmigen Zunge aufgebracht ist. (Quelle: IBM) Denkbar sind kleine Speicherkarten als Ersatz für Flash-Speicherkarten, wobei die mechanische Bewegung durch MEMS-Elemente erzeugt würde. Auch eine multifunktionale Uhr mit etwa 15 GByte an Speicher ist nach Meinung von Vettiger machbar. Allerdings gibt es derzeit bei IBM keine Pläne, ein Millipede serienreif zu entwickeln. Wenn doch, dann könnten erste Produkte bereits 2005 erscheinen. Die für Millipede und die anderen oben genannten thermo-mechanischen Verfahren genutzte Technik wird auch Probe Technology (Tasttechnik) genannt. Das Schreib- und Lesegerät (Tastmechanismus) beruht auf Varianten von AFM (Atomic Force Microscope, Rasterkraftmikroskop) beziehungsweise STM (Scanning Tunneling Microscope, Rastertunnelmikroskop), oft mit mehreren Tastköpfen parallel. 5.2.6 Molekülspeicher Drähte oder Röhren aus Nanostrukturen werden schon zur Stromleitung und zur Datenspeicherung genutzt. Nanotubes ermöglichen um bis zu drei Größenordnungen höhere Stromdichten als entsprechend kleine Kupferdrähte. Transistoren aus Nanotubes sind etwa hundert Mal kleiner als herkömmliche Transistoren. Ein Na- webcode: a1209 209 Technologien nometer, der typische Durchmesser der Nanotubes, entspricht etwa dem Vierfachen eines Atomdurchmessers oder einem Fünfzigtausendstel des Durchmessers eines menschlichen Haares. IBM, Infineon und viele andere Firmen arbeiten an der Erforschung von Nanotubes. Motorola hat nach eigenen Angaben den weltweit ersten 4-Mbit-Speicherbaustein aus Silizium-Nanokristall mit einem 90-Nanometer-Prozess erzeugt. Dabei werden Kugeln aus Nanokristallen mit 5 nm Durchmesser zwischen zwei Oxidlagen eingebettet. Kritisch ist es, die Nanokugeln gleichmäßig in Größe und Verteilung zu erzeugen. Die Ladung pro Flächeneinheit ist das Kriterium für die Speicherung von NULL oder EINS. Motorola hat die Q-Flash-Technik im Dezember 2002 vorgestellt und möchte schon bald solche Chips produzieren. An der Universität von Oklahoma haben Professor Bing Fung und seine Wissenschaftler im Oktober 2002 ein Pixelmuster (32 x 32) im Inneren eines Flüssigkristall-Moleküls gespeichert und wieder ausgelesen. Dabei wird der Spin der einzelnen Atome im Molekül als Speichermedium genutzt. Das verwendete Molekül bestand aus nur 19 Atomen. Deren einzelne Spins können aber in sehr vielen unterschiedlichen Anordnungen „arrangiert“ werden. Die 1024 Bit wurden mit einem Magnet-Resonanz-Spektrometer geschrieben und ausgelesen. Die Speicherdauer beträgt derzeit nur eine Zehntelsekunde. Das Experiment hat zum jetztigen Zeitpunkt noch keine praktische Bedeutung. 5.2.7 Biospeicher 3D-Speicher in Proteinen werden derzeit intensiv erforscht. Biomasse ist im Vergleich zu Halbleitern aus Silizium oder ähnlichen Materialien besonders bei großen Stückzahlen preiswert herzustellen. Mit optischer Lithographie und selbstorganisierenden biologischen Bauteilen sollen kleinste und billige Speicherelemente in großer Stückzahl herstellbar sein. 800 MByte sollten etwa drei US-Dollar kosten. Biologische Systeme arbeiten normalerweise parallel. Sie versprechen dementsprechend große Leistung oder Verarbeitungsgeschwindigkeit, ohne absolute Einzelspitzenleistungen zu verlangen. In einem Kubikzentimeter Proteinmasse kann ungefähr ein GByte an Daten gespeichert werden, aber auch die hundertfache Speicherdichte ist denkbar. Proteine reagieren etwa tausend Mal schneller auf Licht, als RAM-Speicher ihren Binärzustand wechseln. Ein parallel arbeitender Proteinspeicher wäre also durchaus ein erstrebenswertes Bauteil. Bisher bremsen langsame Laser die Geschwindigkeit. Das von Professor Helmut Schmidt geleitete Institut für Neue Materialien (INM) in Saarbrücken ist unter dem Namen NanoBioNet einer der weltweit führenden Anbieter von Materialien, die mit chemischer Nanotechnik erzeugt werden. Ein bevorzugter Prozess zur Erzeugung von Nanopartikeln ist der Sol-Gel-Prozess. Dabei entsteht aus einer flüssigen Stoffmischung (Sol) durch chemische Reaktionen ein amorphes Netzwerk, das nach Abschluss der Reaktionen das Nanopartikel 210 www.tecChannel.de Zukünftige Speichertechnologien als einen partikulären Festkörper (Gel) hervorbringt. Die Art der Nanopartikel kann durch die verwendeten Stoffe und durch die gezielte Steuerung des Entstehungsprozesses ausgewählt werden. 5.2.8 Anleihen bei der Natur Satoshi Ueyama am Mitsubishi Forschungszentrum in Hyogo, Japan, ist es gelungen, eine extrem kleine Diode aus natürlichem Eiweiß und einem Vitamin zu züchten. Um als Speicher nützlich zu sein, müssten jetzt jeweils zwei Dioden zu einem Transistor zusammengeschaltet werden. Chemie-Professor Birge an der Universität von Syracuse im Staat New York, USA, versucht, hybride Bauelemente aus konventioneller Halbleitertechnik mit optisch aktiven Schaltelementen aus Proteinen zur Verbesserung der Verarbeitungsgeschwindigkeit von Prozessoren und Speichern zu erzeugen. Biospeicher aus Bacterirhodopsin als Alternative zu RAM-Speichern sind derzeit in der Entwicklung. Dabei ist der Prozessor aus Silizium, aber RAM und Massenspeicher sind aus Proteinen aufgebaut. Biomolekulare Computer sollen etwa 15-mal kleiner werden als heutige Rechner. Die benötigten Proteinwürfel haben zurzeit noch Probleme mit der Schwerkraft. Professor David Patterson von der Berkeley-Universität in Kalifornien erwartet, dass die zukünftigen Speicher parallel, assoziativ und damit architektonisch ähnlich wie biologische Systeme aufgebaut sein werden. Aus dem RAM wird dann ein IRAM (intelligentes RAM). 5.2.9 FRAM/FeRAM Mit FRAM (Ferro-electric Random Access Memory) oder FeRAM hofft man, günstigen Speicher produzieren zu können. Daher forschen viele namhafte Firmen auf diesem Gebiet. Das größte Problem ist die Verkleinerung der Bitzelle. Japanische Wissenschaftler am Phonon Device Lab haben eine Speicherdichte von 1,5 Tbit/in² mit ferro-elektrischem LiTaO3 (Lithium-Tantalat) erreicht. Nun arbeitet die Forschung an einer Lösung, um aus dieser Technik Speichersysteme herzustellen. Dabei ist die Zielvorgabe von 4 Pbit/in² zu erreichen. In kleinen Mengen werden FRAMs, beispielsweise von Fujitsu, schon seit einigen Jahren produziert. In einer ferro-elektrischen RAM-Zelle (Perovskit-Kristall) wird ein Kondensator aus einem Blei-Zirkonium-Titanat (PZT) in Auf- oder Abwärtsrichtung geladen. Ein einzelnes Atom im Inneren der Bitzelle befindet sich jeweils in einer von zwei stabilen Lagen. Ein elektrischer Dipol mit Auf- oder Aborientierung hält die Information. Beim Lesen werden die Bit- und die Wortleitung kurzzeitig mit einem Spannungsimpuls beschickt. webcode: a1209 211 Technologien elektrisches Feld Auf und ab: Das Atom im Inneren der Zelle ist jeweils in einer von zwei stabilen Lagen. Pla O Zr/Ti © tecCHANNEL Zeigen angelegtes und gespeichertes Feld in die gleiche Richtung, dann erscheint ein kleiner Stromimpuls auf der Leitung. Weisen hingegen beide Felder in gegensätzliche Richtung, dann entsteht ein großer Stromimpuls. Ausgelesen wird mit der Bitleitung. Nach dem Lesen einer Bitzelle muss diese – entsprechend wie beim DRAM – wieder neu beschrieben werden. FRAMs werden seit fast 20 Jahren bei Ramtron in den USA entwickelt. Aber erst seit kurzer Zeit gibt es FRAMs in kommerziellen Produkten. So kommt FRAM etwa auf einigen Promise-Raid-Controllern zum Einsatz. Insgesamt wurden bereits mehr als 40 Millionen FRAM-Chips produziert. Davon gingen 27 Millionen an einen Kunden, der damit die Verbrauchsdaten in Stromzählern speichert. 5.2.10 Flash-Nachfolger OUM Stanford Ovshinsky forscht in den USA seit mehr als 30 Jahren an Speichertechnologien. Die Ovonic-Unified-Memory-Speichertechnik wird derzeit als möglicher Flash-Nachfolger bei Intel und zwei europäischen Halbleiterfirmen zu einem kommerziellen Produkt weiter entwickelt. Auf der ISSCC 2002 (IEEE International Solid-State Circuits Conference) berichtete Manzur Gill von Intel über entscheidende Fortschritte in der Werkstofftechnik. Mit bereits verfügbaren Testchips wird die Technik in der Praxis erprobt. Man erwartet in drei bis fünf Jahren kommerzielle Produkte. Intel forscht seit etwa 1970 an der OUM-Technik. amorph Zwischenzustand kristallin © tecCHANNEL Wechselhaft: Bei Ovonic Unified Memory macht man sich die aus dem Wechsel zwischen kristallinem und amorphem Zustand resultierende Widerstandsänderung zu Nutze. 212 www.tecChannel.de Zukünftige Speichertechnologien OUM beruht auf dem thermisch gesteuerten Wechsel (Phase Change) zwischen kristallinem und amorphem Zustand, vorzugsweise von Chalcogeniden wie Tellur. Genutzt wird beim Lesen die daraus resultierende Widerstandsänderung (Faktor 100) des Materials. Die speichernde Schicht aus einer Ge2Sb2Te5-Legierung wird durch kurze Erhitzung über den Schmelzpunkt in den amorphen Zustand (hoher Widerstand) oder durch langsame Erhitzung bis unterhalb des Schmelzpunkts in den polykristallinen Zustand (niedriger Widerstand) versetzt. Der Wechsel ist deutlich schneller als bei Flash und kann mit einer Spannung von einem Volt erzeugt werden. Das passt zur 3-Volt-CMOS-Technik und vermeidet die bei Flash-Speichern benötigten hohen Spannungen. Darüber hinaus müssen OUMs nicht blockweise gelöscht werden. Als Speicherelemente kommen Dioden und nicht Transistoren zum Einsatz, was Platz spart. Das Material ist für etwa doppelt so viele Speicherzyklen gut wie Flash. Die Phase-Change-Technik wird in Lizenz praktisch von allen wieder-beschreibbaren DVD-Varianten genutzt. Bei diesen Speichermedien wird aber nicht die Widerstandsänderung, sondern der Unterschied der Reflektion zwischen amorphem und kristallinem Material genutzt. 5.2.11 PFRAM/PMC In einem Polymer Ferro-electric RAM (PFRAM) wird eine dünne Schicht aus ferro-elektrischem Polymer zwischen zwei Metallleitungen polarisiert. Speicher in PFRAM-Technik lassen sich sehr dicht packen, weil mehrere Lagen von PolymerSchichten übereinander gelegt werden können. Intel und TFE (Thin Film Electronics ASA) aus Linköping in Schweden arbeiten gemeinsam an der Entwicklung von PFRAMs. Die Herstellungskosten für PFRAMs könnten sehr niedrig werden. Die PFRAM-Speicher sind allerdings relativ langsam und lassen sich nicht oft neu beschreiben. Die PMC-Technik (Programmable Metallization Cell) wurde von Professor Michael Kozeki an der Staatsuniversität von Arizona erfunden und wird derzeit von Axon Technologies weiter entwickelt. Für PMCs werden Chalcogenide genutzt, wie bei OUM, aber in anderer Form. Der Elektrolyt wird zwischen einer dünnen Silberschicht und einem elektrischen Leiter deponiert. Wird eine Spannung angelegt, dann wandern Silberionen in das Elektrolyt und machen es leitfähig. Diese elektrische Leitfähigkeit bleibt auch nach Wegnahme der Spannung erhalten. Außer Micron befassen sich weitere fünf Firmen mit der PMC-Technik. 5.2.12 3D-Speicherung Eine proprietäre dreidimensionale Datenspeicherung (3DR) wird von Siros Technologies aus San Jose, USA, vorgeschlagen. Die besondere Lasertechnik (kleine Öffnung mit 50 nm), die Siros von Lucent übernommen hat, kann kleine Flächen webcode: a1209 213 Technologien auch mit relativ langwelligem Licht erzeugen. Das von Lucent patentierte VSALVerfahren (Very Small Aperture Laser) in VCSEL-Anordnung (Vertical Cavity Surface Emitting Laser) lässt sich gleichzeitig sowohl zum Schreiben als auch zum Lesen der Daten nutzen. Bisher ließ sich VCSEL nicht zur Datenspeicherung einsetzen. Die nötige Energiedichte stand bei diesen senkrecht emittierenden Multilaserchips nicht zur Verfügung. Siros gibt an, dass die eigenen VSAL-VCSEL mit der 80fachen Energiedichte (5 mW/mm²) wie herkömmliche VCSEL (0,06 mW/mm²) nutzbar sind. Die optische Öffnung ist deutlich kleiner als die Wellenlänge des abgestrahlten Laserlichts. Der Abstand zur speichernden Oberfläche entspricht der halben optischen Öffnung. Das reflektierte Streulicht wird zum Lesen genutzt. 5.2.13 Hyper-CD-ROM Die Hyper-CD-ROM ist ein dreidimensionaler optischer Speicher. Die rotierende Scheibe mit dem üblichen Durchmesser von 120 mm kann bei einer Dicke von 10 mm (1,2 mm bei DVD und CD-ROM) auf etwa 10.000 Ebenen beschrieben werden. Auf den verschiedenen Lagen wird in fluoreszierenden Schichten durch Laserbestrahlung selektiv die Fluoreszenz verändert. Das reflektierte Licht hat eine andere Farbe. Es wird nicht von anderen dazwischen liegenden Schichten beeinflusst und kann damit relativ störungsfrei gelesen werden. Die veränderte Fluoreszenz ist bei normalen Umgebungstemperaturen (bis 550 Grad Celsius) stabil. Erste Hyper-CDs sollen etwa 10 TByte speichern können. Kapazitäten bis 1 PByte sind nach Meinung des Erfinders theoretisch möglich. Der Erfinder, Dr. Eugen Pavel aus Bukarest, erhielt im November 1999 auf der EUREKA-Konferenz in Brüssel eine Goldmedaille. Die Technologie ist in 21 Staaten mit über 60 Patenten abgesichert. 5.2.14 Speichern auf Tesafilm An der Universität Mannheim haben Dr. Steffen Noehte und Mathias Gerspach 1999 herausgefunden, dass Tesafilm sich als Datenspeicher nutzen lässt. Dr. Noehte arbeitet inzwischen am EML (European Media Lab) in Heidelberg weiter an dieser Technik. Auf einer handelsüblichen Rolle von 10 Meter Länge und 19 mm Breite sollen sich theoretisch 10 GByte Daten speichern lassen. Die Informationen können durch die einzelnen Lagen der Rolle hindurch gelesen und geschrieben werden. Das Schreiben der Daten erfolgt optisch mit einem gebündelten Halbleiterlaser. Inzwischen gibt es ein eigenes Unternehmen namens tesa scribos, das sich um die holographische Datenspeicherung auf Tesafilm kümmert. Ein Anwendungsgebiet ist unter anderem das Schreiben von so genannten Holospots zum Aufkleben. 214 www.tecChannel.de Zukünftige Speichertechnologien Von der Rolle: Ein auf Tesafilm geschriebenes Hologramm soll als Sicherheitsmerkmal fungieren. (Quelle: EML) Dabei handelt es sich um ein Hologramm, das in modifizierten Tesafilm geschrieben wird. Mit Holospots sollen sich beispielsweise Produkte fälschungssicher kennzeichnen lassen. Die in einem Holospot enthaltene Datenmenge ist zirka tausend Mal größer als die eines herkömmlichen Barcodes. 5.2.15 MRAM Beim MRAM wird ein Bit als magnetische Polarität in Magnetschichten gespeichert. MRAM soll schneller sein als Flash und etwa sechs Mal schneller als DRAM. Jedes Atom im MRAM ist ein kleiner Elektromagnet. Magnetische Domänen bestehen aus Bereichen, in denen die Nord-Süd-Ausrichtung der atomaren Magnete gleich ist. Bei einer bestimmten Art von MRAM gibt es zwei Lagen von ferro-magnetischem Material mit einer isolierenden Schicht dazwischen, wie beim GMR. Die Richtung der atomaren Magnete in der unteren Lage (Domäne) ist fest. Die magnetische Richtung in der oberen Lage lässt sich ändern. Null oder Eins ergeben sich aus der gleichen oder gegensätzlichen Magnetrichtung. Beim Lesen wird der elektrische Widerstand durch diese drei Lagen gemessen. Er ist niedrig, wenn die obere und die untere Lage parallel ausgerichtet sind, und hoch, wenn beide antiparallel sind. Dies wird auch als Tunneling Magneto-Resistance (TMR) bezeichnet. Die Widerstandsdifferenz bei dieser Vorgehensweise liegt heute schon bei etwa 50 Prozent. Zum Schreiben werden die Strom- und damit Magnetrichtungen in den Bit- und Zeichenleitungen (über beziehungsweise unter diesen drei Schichten) entsprechend gewählt. MRAM-Zellen behalten ihren Bitzustand nach dem Lesen. Sie sollten schneller sein als herkömmliche DRAMs und weniger Platz benötigen. Schwierigkeiten gibt es durch die Verunreinigung der CMOS-Materialien mit dem ferro-magnetischen Material. Die magnetische Isolationsschicht muss extrem dünn (etwa 1,5 nm) und gleichmäßig dick (etwa ein Prozent Variation) sein. webcode: a1209 215 Technologien Bit Line/Top Electrode Ferromagnetic Layers Tunneling Insulator Showing Coupling Layer Electron Spins Antiferromagnet © tecCHANNEL Richtungsweisend: Die Speicherung der Informationen erfolgt in der obersten Schicht, je nach magnetischer Richtung. 5.2.16 BMR Mit Unterstützung durch die amerikanische National Science Foundation haben zwei Forscher an der Staatsuniversität von New York in Buffalo eine besonders empfindliche magneto-resistive Sensortechnik entwickelt. Das so genannte BMR-Verfahren (Ballistic Magneto-Resistance) erzeugt einen Widerstandsunterschied von 3000 Prozent im Sensor beim Auslesen extrem kleiner Magnetzellen. Zum Vergleich: Die heute in Festplatten eingesetzte GMR-Technik kommt auf einen Widerstandsunterschied von etwas weniger als 100 Prozent. Bei der GMR-Technik macht man sich zu Nutze, dass sich der Widerstand von bestimmten Materialien wie Nickel-Eisen-Verbindungen im Magnetfeld ändert. Bei dem genannten BMR-Versuch kam gleichfalls Nickel zum Einsatz. Das bei Raumtemperatur durchgeführte Ergebnis des Experiments ist erheblich besser als alle bisher bekannten Verfahren. Dabei ist das BMR-Element nur einige Atomdurchmesser lang und breit. Mit BMR soll es möglich sein, Daten bis zu einer Speicherdichte von 1 Tbit/in² auszulesen. 5.2.17 Moleküle an Kreuzungen Stanley Williams und andere Forscher bei HP arbeiten mit Molekülen zwischen gekreuzten Platindrähten als Speicherelemente. Ihnen ist es gelungen, in einem Raster von einem Mikrometer 64 Speicherzellen unterzubringen. Etwa tausend solcher 64-Bit-Elemente würden auf die Spitze eines menschlichen Haares passen. Beim Lesen wird nur ein schwacher Strom durch die gekreuzten Leitungen geschickt, damit der Speicherzustand ohne Refresh erhalten bleibt. 216 www.tecChannel.de Zukünftige Speichertechnologien Die zur Speicherung genutzten Moleküle an den Kreuzungspunkten haben eine Widerstandsänderung mit dem Faktor 10.000 zwischen dem Null- und dem EinsZustand. Das ist um Größenordnungen mehr als bei MRAMs. Die Silizium-Strukturen werden nicht in tage- oder wochenlangen Prozessschritten herausgeätzt, sondern in ein paar Minuten eingestanzt, ähnlich wie beim Pressen von CDs oder DVDs. In die eingepressten Gräben werden dann die Platindrähte eingelegt. Williams sieht noch mindestens fünf Jahre Forschungsarbeit vor sich, bevor kommerzielle Produkte denkbar sind. 5.2.18 Ausblick Bei den hier beschriebenen Techniken macht es zu diesem frühen Zeitpunkt ihrer Entwicklung wenig Sinn, darüber zu spekulieren, welche Technik billiger, einfacher herzustellen, schneller oder stabiler ist. Solche Parameter sind frühestens dann interessant, wenn Produkte kommerziell angeboten werden. Einige der hier vorgestellten Ansätze sind noch relativ weit von einer kommerziellen Verwertung entfernt. Niemand sollte überrascht sein, wenn oft mehrere Jahre lang keine aufregenden Nachrichten über ein bestimmtes Verfahren an die Öffentlichkeit gelangen. Erreicht dann allerdings eine der Techniken die Serienreife, könnte sie unser Leben entscheidend verändern. Zwischen Wunsch und Wirklichkeit klafft bei einigen der vorgestellten Projekte eine deutliche Kluft. Insbesondere wenn es um den Zeitraum zwischen der Präsentation von Prototypen und Visionen bis hin zur Einführung von marktreifen Produkten geht. Hermann Strass und Malte Jeschke tecCHANNEL-Links zum Thema Webcode Compact Zukünftige Speichertechnologien, Teil 1 a1209 S.206 Zukünftige Speichertechnologien, Teil 2 a1210 – Zukünftige Speichertechnologien, Teil 3 a1236 – Holographische Speichertechnik a1197 – Technologie-Trends bei Festplatten & Co a658 – Grundlagen: Festplattentechnik a641 – Nanotechnik: IBM speichert 1 Tbit/in² a947 – Bandspeicher-Technologie im Überblick a1149 – Mit Hilfe des Webcodes gelangen Sie auf unserer Website direkt zum gewünschten Artikel. Geben Sie dazu den Code in das Feld „Webcode suchen“ in der Titelleiste von www.tecChannel.de ein. Mit „p“ gekennzeichnete Webcodes beziehen sich auf Artikel, die zum Zeitpunkt des Redaktionsschlusses im Premium-Bereich von tecCHANNEL waren. webcode: a1209 217 Glossar Glossar ALUs DMZ Arithmetical and Logical Unit: Rechenwerk. Funktionsblock des Prozessors, der arithmetische und logische Funktionen ausführt. Entmilitarisierte Zone, demilitarized zone: Da bei befinden sich BastionHost, Informations-Server, ModemPools und andere Server im DMZNetz. Das DMZ-Netz agiert so als kleines isoliertes Netzwerk zwischen dem privaten Netz und dem Internet. Assoziativ Mehrdeutig. Der Speicher wird nicht direkt adressiert, sondern über eine Adresstabelle. Da aus Platzgründen meistens lediglich ein Teil der Adresse gespeichert wird, kann das Ergebnis mehrdeutig sein, also auf mehrere Ziele zeigen. Core Prozessorkern. Als Core bezeichnete man ursprünglich den eigentlichen CPU-Block ohne Caches. Nachdem der L1-, L2- und zunehmend auch der L3-Cache auf das Die wandern, wird die Bezeichnung Core auch für die gesamte Technik auf dem Siliziumplättchen verwendet. DDR-SDRAM DNS Domain Name System (oder Service). Ein Internet-Dienst, der Domain Namen wie www.tecChannel.de in die zugehörigen IP-Adressen umsetzt. Weiß ein DNS-Server die IP-Adresse eines Namens nicht, so fragt er bei einem anderen Server nach. DSL Digital Subscriber Line. Die Standleitung ins Internet für kleine Firmen und Privatpersonen. DSL arbeitet mit denselben Kupferkabeln wie analoge Telefone und ISDN-Anschlüsse. Die Übertragungsgeräte sind aber aufwendiger. Double Data Rate SDRAM: verdoppelt die Bandbreite durch Nutzung beider Taktflanken für die Datenübertragung. ECC DHCP Fibre Channel Dynamic Host Configuration Protocol. Bei DHCP bezieht ein Arbeitsrechner seine Konfiguration des IP-Netzwerks von einem Server. Serielles Interface nach einem offenen Standard. Fibre Channel stellt ein Transportsystem für Kommandos (im Allgemeinen SCSI) dar. Es packt die 218 Error Correcting Code. Verfahren, das Bitfehler erkennt und korrigiert. www.tecChannel.de Glossar Daten in Frames und transportiert sie unter Anwendung einer Fehlerkorrektur zum Bestimmungsort. FPU Floating Point Unit: Fließkommaeinheit. Funktionsblock des Prozessor, der auf die Bearbeitung von Fließkommazahlen optimiert ist. FSB Front Side Bus. Der eigentliche Systembus auf dem Mainboard, der früher auch den Speicherbus beinhaltete. Mittlerweile wird der Begriff FSB nur noch für die Verbindung zwischen Prozessorsockel und Northbridge des Chipsets verwendet. GMR Giant Magnetoresistive. Eine von IBM entwickelte Technologie für Schreib-/ Leseköpfe bei Festplatten, die die Quanteneffekte der Elektronen ausnutzt. Die Köpfe bestehen aus mehreren Schichten. Bei gleicher magnetischer Ausrichtung der Schichten können Elektronen mit positivem Spin die Schichten passieren. Elektronen mit negativem Spin tragen nicht zum Stromfluss bei. Bei unterschiedlicher Ausrichtung können keine Elektronen die Schichten durchqueren. ICH I/O Controller Hub. Komponente des Mainboard-Chipsatzes, an dem die Peripherie angeschlossen ist. Der Name wurde von Intel mit dem 810er Chipsatz eingeführt, bei älteren Intel-Chip- sätzen und beim Mitbewerb lautet er noch Southbridge. Die NorthbridgeKomponente des Chipsatzes heißt bei Intel MCH (Memory Controller Hub). JBOD Just a bunch of disks. Der Name ist eine Bezeichnung für eine Organisationsform von Plattensubsystemen, bei der die einzelnen Laufwerke unabhängig voneinander angesprochen werden. Wird auch für Spanning verwendet, das Zusammenfassen mehrerer Platten zu einem logischen Laufwerk ohne besondere Verwaltung der Datenzugriffe. JEDEC Joint Electron Device Engineering Council: Komitee zur Normierung von Halbleitertechniken. Momentan besteht die JEDEC aus ungefähr 300 Mitgliedsfirmen. L1-Cache Schneller Zwischenspeicher, um den Zugriff auf häufig benutzte Daten zu beschleunigen. Der L1-Cache ist auf dem Prozessor-Die integriert und die erste Instanz in der Cache-Hierarchie. MAC Media Access Control. Unterste Ebene der Sicherungsschicht (Data Link Layer) im OSI-Referenzmodell. Die MACEbene steuert Vorgänge, die für bestimmte LAN-Typen spezifisch sind. Darunter fallen beispielsweise die Algorithmen zur Kanalverwaltung, Frame-Aufbau oder Kollisions- und Fehlererkennung. www.tecChannel.de 219 Glossar MacroOPs PCMCIA Die auf dem Athlon-Kern basierenden Prozessoren von AMD zerlegen die komplexen x86-Befehle in einfach zu handhabende Kommandos fester Länge. Ein MacroOP kann aus ein bis zwei dieser OPs bestehen. Der zweite OP ist immer ein Load/Store-OP. Intel nennt diese RISC-ähnlichen Befehle bei seinen Prozessoren MicroOPs. Personal Computer Memory Card International Association. Das Industriegremium definierte ab 1991 eine Reihe gleichnamiger Standards für PCSpeicher- und Multifunktionskarten. Obwohl der Standard bereits 1995 in „PC Card“ umbenannt wurde, ist parallel noch immer das ältere Akronym PCMCIA gebräuchlich. Microcode Portscan Die Firmware einer CPU. Bei Intel verfügen seit dem Pentium Pro alle CPUs über einen Microcode, den in der Regel das BIOS beim Systemstart in den Prozessor lädt. Mit einem neuen Microcode lassen sich kleinere Fehler in der CPU ausbügeln. Bei neuen Versionen (Steppings) einer CPU muss das BIOS den neuen Microcode enthalten, damit der Prozessor schnell und stabil läuft. Ein TCP-Port dient als Kommunikastionskanal für den Zugriff auf einen Internet-Rechner über das TCP/IPProtokoll, ähnlich den Nebenstellen eines Telefonanschlusses. Jedes TCP/IPProgramm nutzt einen TCP-Port für die Kommunikation mit anderen PCs. NAT Network Address Translation. NAT ist ein Verfahren zur Abschottung des LANs gegenüber dem Internet. Dabei wird zum Internet hin immer nur eine Adresse gemeldet, unabhängig von der tatsächlichen IP-Adresse im LAN. Der NAT-Router übernimmt dabei die Verteilung der IP-Pakete zu den richtigen Empfängern. PPPoE Point-to-Point-Protocol over Ethernet. Spezielles Protokoll, das Punkt-zuPunkt-Verbindungen über das Ethernet ermöglicht. RDRAM Rambus Dynamic Random Access Memory: Speichertechnologie der Firma Rambus. RDRAM kann durch sein spezielles Design mit Frequenzen von bis zu 600 MHz getaktet werden. Out-of-Order Registered DIMMs Abschluss von Befehlen in einer Reihenfolge, die nicht der programmierten Reihenfolge entspricht. Speichermodul mit gesonderten Treiberbausteinen zur Signalverstärkung. Durch die Register lassen sich auf einem DIMM mehr Speicherchips integrieren, ohne dass die Signalqualität dabei leidet. 220 www.tecChannel.de Glossar SIMD TDP Single Instruction, Multiple Data. Oberbegriff, der die Funktionsweise von Multimedia-Erweiterungen wie MMX, 3DNow! oder SSE in Prozessoren beschreibt. Thermal Design Power. Maximale Leistungsaufnahme eines Prozessors unter Volllast. Der TDP-Wert der CPU wird bei der Entwicklung von Lüftern und Kühlmaßnahmen genutzt. Im normalen Betrieb erreichen Prozessoren den TDP-Wert kaum. SMP Symmetrisches Multiprocessing. System, bei dem mehr als ein Prozessor zur Ausführung von Programmen verwendet wird. Eine Komponente des Betriebssystems (Scheduler) ist für die Verteilung der Aufgaben auf die einzelnen Prozessoren zuständig. SOI Silicon on Insulator: SOI-Technologien nutzen eine vergrabene Oxidschicht für die vollständige dielektrische Isolation jedes einzelnen Bauelements in einer integrierten Schaltung. Bei diesem Verfahren verringern sich die Leckströme, und die parasitären Kapazitäten sinken deutlich. Thread Ein Thread besteht aus einer Abfolge von Befehlen sowie dem Zustand der Sequenz. Dieser wird durch Counter, Call/Return-Stack sowie Thread-eigene Daten repräsentiert. Ein Task besteht aus einem oder mehreren Threads. TLBs Translation Lookaside Buffer: Kleiner Zwischenspeicher, der Informationen zur Konvertierung von logischen in physikalische Adressen enthält. Üblicherweise ein Bestandteil der MMU oder AGU. UHCI SSE Streaming SIMD Extensions. Intels Marketing-Bezeichnung für einen erweiterten 3D- und Multimedia-Befehlssatz. SIMD steht für Single Instruction Multiple Data. Mit dem Pentium 4 wurde SSE2 eingeführt. SSID Shared System ID. Wird manchmal auch als Shared Key bezeichnet. Gemeinsamer Schlüssel für den Zugriff auf ein Wireless LAN nach dem IEEE802.11-Standard. Universal Host Controller Interface: Stellt das Hardware/Software-Interface zur Verfügung, damit USB- Hardware und -Treiber zusammenarbeiten können. VPN Virtual Private Network. Beim VPN lassen sich über ein öffentliches Datennetz, wie etwa das Internet, sichere private Verbindungen, beispielsweise in das Firmennetz, aufbauen. www.tecChannel.de 221 Index Index Symbole 3D-Speicher 210 64-Bit-Mode 73 802.1x 188 8B/10B-Kodierung 158 A Advanced Branch Prediction 78 AGP 30 AGU 70 AIM Suite VII 167, 168 Akku-Laufzeit 124 Akku-Spannung 116 Akku-Technologien 97 Alderwood 17 ALS-Technologie 119 ALU 70, 88 Alviso 65 AMD64 68 AMD64-Architektur 162 AMD Quartet 165 Athens 128 Athlon 64 12, 62 Athlon 64 für Notebooks 68 Athlon 64 FX 13 Athlon XP 14 Athlon XP-M 63 ATI-Roadmap 24 Ausführungseinheiten 70, 88 B Banias 64, 76 Blaulicht-DVD 197 Blei-Säure-Akku 100 BMR-Verfahren 216 Brennstoffzelle 112 C Calexico 83 Cardbus-Schnittstelle 92 Centrino 64, 76 Compatibility Mode 73 Control Speculation 145 Core 86 Crusoe 86 222 D dbench 167, 172 DDR2 17, 19, 50 DDR2-667 50 DDR266-SDRAM 19 DDR3 55 Deerfield 137 Dell PowerEdge 4600 164 DeltaChrome 25 DHCP-Server 186 DMZ-Host 186 Dothan 64 DRSL 58 DSL-Modem 183 Dynamic Translation 146 dynamisches DNS 184 E EBL WG 117 Efficeon 66, 85 Egypt 129 Elektrische Leistungsverteilung 115 elektrochemische Spannungsquelle 99 Elektrolyt 98 Enhanced SpeedStep 80 EPIC 142 Even BankSet 58 Expander 156 ExpressCard 92 ExpressCard-Schnittstelle 95 F Fanwood 131 FB-DIMM 56 FeRAM 211 Fibre Channel 157 Firewall 186 Flex-Phase-Technologie 58 Flush-Filter 71 FPU 70 FRAM 211 Front Side Bus 162 Fully Buffered DIMM 56 G GeForceFX 24 Glueless Multiprocessing 162 GMR-Technik 216 Grantsdale 17 www.tecChannel.de Index H Hints 143 Holographie 196 Hyper-CD-ROM 214 Hyper-Threading 40 HyperTransport 73, 162 I IA 136 IA-32-Emulation 146 IA-32 Execution Layer 146 IA-64 136 IBM xSeries 225 164 Idle-Timer 184 Interconnects 49 IPSec 186 Itanium 135, 162 Itanium 2 131 Itanium Architecture 136 J Jayhawk 130 JEDEC 19 JESD-79-2 19 K Kapazität 98 Kupferverdrahtung 47 L L1-Cache 71 L2-Cache 71 LAN 125 Lazy-Battery-Effekt 105 Legacy Mode 73 LGA775 16 Li-Ion-Akku 106 Lindenhurst 130 lmbench 167, 169 Longhorn 40 LongRun 90 Low-k 47 LTPS-Technologie 118 LV Pentium M 65 M MAC-Adresse 184, 187 MAC-Clonen 185 MacroOPs 72 Madison 9M 131 Management 184 McKinley 135 Memory-Effekt 103 MicroOPs-Fusion 76 Millipede 208 Mobile Athlon 64 62 Mobile Pentium 4 65 Mobile Prescott 65 MRAM 215 MROM 72 MWAIT 42 N Nanotubes 210 NAT 185, 186 Newcastle 13 Newisys 162 Nexus 41 NiCd-Akku 102 Nickel-Cadmium-Akku 102 NiMH-Akku 104 Nocona 130 Northbridge 89, 162 Northwood 38 Notebook-Laufzeit 115 NVIDIA-Roadmap 25 O Oakville 63 Odd BankSet 58 Odessa 63 Off Chip Driver Calibration 52 Opteron 128 P Paketfilterung 186 PC1066-RDRAM 21, 52 PC1200 20, 21 PC1200-RDRAM 52 PCI Express 29 PCMCIA-Konsortium 92 Pentium 4 Extreme Edition 15 Pentium M 76 PFRAM 213 Phase-Change-Technik 213 Pipeline 72, 88, 149 Port Address Translation 185 Potomac 130 Powermanagement-Funktionen 122 www.tecChannel.de 223 Index PowerNow! 63, 69 PPPoE 183 Predication 140 Prefetch-Technologie 51 Prescott 15, 38 Primärelemente 97 T Tanglewood 133 TCG 40 TCPA 40 TDP 63, 69 Teja 16 TeraHertz-Transistor 49 Threadsynchronisation 42 TKIP 188 TLB 71, 148 TM8000 85 tpmC 153 Translation Lookaside Buffer 148 Transmeta 62, 66, 85 Q Q-Flash-Technik 210 QBM 53 Quad Band Memory 53 R RAID-Controller 160 Ramtron 212 RDRAM 52 Register 74 Register Stack Engine 138 Rotation 138 S U SAS 155 SAS-Festplatte 156 SATA 155 SCSI-Kabel 157 SCSI Management Protocol 158 Separator 98 Serial Attached SCSI 155 Serial SCSI Protocol 158 Serial Tunneling Protocol 158 SIMD 41 Skew 45 SMP 158 Software Pipelining 139 SOI 63 SPEC 153 Speculation 145 SpeedStep 76 Speicherdichte 206 Sprungvorhersagen 78 SSE2 70 SSE3 41 SSID 188 SSP 158 stacked/rotating Register 138 Stateful Inspection 186 STP 158 Strained Silicon 45 SuSE Linux Enterprise Server 8 167 Switch 183 224 Ultra320-SCSI 155 ULV Pentium M 65 Unified Cache 148 unixbench 167, 170 UPnP 187 V VCSEL 214 Venus 128 Very Long Instruction Word 142 Virtual Server 185 VLIW 86, 142 Volari 26 Voltaschen Spannungsreihe 98 VPN 184, 186, 188 W Wake on LAN 187 WEP 187 Willamette 38 WLAN 125 WPA 187 X XDIMM 58 XDR-RAM 19, 57 Xeon 130, 163 XGI 26 Z Zink-Luft-Akku 108 www.tecChannel.de [ U n e n t beh rli ch für I T - P ro fi s ] Das tecCHANNEL-Abo 15% sparen + Geschenk! Abonnieren Sie jetzt tecCHANNEL-Compact, und wir schenken Ihnen das praktische Multi-Tool! + › SCHNELL: ■ ulti-Tool Gratis! M Sie ön erhalten › GÜNSTIGER: ■ ch Als Dankes -Tool tische Multi dieses prak bo -A es hr im neuen Ja dazu. › RISIKOLOS: ■ 15% Ersparnis tecCHANNEL-Compact kommt pünktlich und versandkostenfrei gegenüber dem Kioskpreis! Sie können das Abo jederzeit kündigen › Gleich bestellen & Vorteile sichern! ■ › › COUPON AN ■ tecCHANNEL Abobetreuung Konrad-Zuse-Str. 16 74172 Neckarsulm Fax: 07132 / 959166 › BESTELL-HOTLINE ■ 018 05/9998 02 (12 Ct/Min) › E-MAIL ■ tecchannel@d-s-center.de › ONLINE BESTELLEN ■ www.tecChannel.de/shop Verpackung inkl., im Abo zu. Ich kann diesen Service jederzeit kündigen. Geld für noch nicht gelieferte Ausgaben wird mir zurückerstattet. Das Geschenk erhalte ich nach bezahlter Rechnung. ABSENDER: Bitte heraustrennen und an tecCHANNEL schicken oder faxen einfach ausfüllen und abschicken! ■ Ja, bitte senden Sie mir tecCHANNEL-Compact zum günstigen Jahresvorzugspreis von 49,95 Euro, Porto und ✗ ✄ IHR BESTELLCOUPON Name/Vorname Straße/Postfach PLZ, Ort Telefonnummer E-Mail Ich wünsche folgende Zahlungsweise: Bargeldlos und bequem ■ per Bankeinzug ■ per Rechnung Bank BLZ Kto.-Nr. ✗ Datum/Unterschrift 5TCF044