BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme

Transcription

BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
White Paper
FUJITSU Server PRIMERGY
BIOS-Optimierungen für Xeon E5-2600 v3 basierte
Systeme
In diesem Dokument werden BIOS-Einstellungen erläutert, die für die Intel Xeon
E5-2600 v3 basierte PRIMERGY Server Generation (PRIMERGY BX2560 M1, BX2580
M1, CX2550 M1, CX2570 M1, RX2510 M1, RX2530 M1, RX2540 M1, RX2560 M1,
TX2560 M1) gelten.
Es dient dazu, die BIOS-Einstellungen entsprechend den Anforderungen zu optimieren.
Dabei werden die Zielsetzungen verfolgt, die PRIMERGY Server für beste Performance
und höchste Energieeffizienz zu optimieren. Neben der Optimierung auf höchsten
Durchsatz werden ebenfalls Anwendungsszenarien berücksichtigt, bei denen es auf eine
möglichst geringe Antwortzeit ankommt.
Version
1.2
2015-11-26
http://www.fujitsu.com/de/primergy
Seite 1 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Inhalt
Dokumenthistorie ................................................................................................................................................ 2
Übersicht ............................................................................................................................................................. 3
Anwendungsszenarien ....................................................................................................................................... 4
Performance .................................................................................................................................................... 4
Low-Latency .................................................................................................................................................... 4
Energieeinsparung / Energieeffizienz ............................................................................................................. 5
PRIMERGY BIOS-Optionen ............................................................................................................................... 6
Empfehlungen zur Optimierung ...................................................................................................................... 6
BIOS-Optionen Details .................................................................................................................................... 9
Literatur ............................................................................................................................................................. 19
Kontakt .............................................................................................................................................................. 20
Dokumenthistorie
Version 1.0
Erstausgabe
Version 1.1


Beschreibung der BIOS-Option „CPU C3/C6 Report“ erweitert
Kleinere Korrektur
Version 1.2

PRIMERGY RX2510 M1 hinzugefügt
Seite 2 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Übersicht
Die Fujitsu PRIMERGY Server sind bereits bei der Auslieferung ab Werk mit BIOS-Standardeinstellungen
konfiguriert, die für die gängigsten Anwendungsszenarien ein optimales Verhältnis zwischen Performance
und Energieeffizienz bieten. Dennoch gibt es Situationen, in denen es erforderlich sein kann, von den
Standardeinstellungen abzuweichen und damit den Server je nach Anforderung für den maximal möglichen
Durchsatz (Performance), die minimal mögliche Latenz (Low-Latency), oder für die maximal mögliche
Energieeinsparung (Energieeffizienz) zu konfigurieren. Für diese drei Szenarien, die im Folgenden näher
erläutert werden, bietet dieses Dokument Best-Practice Empfehlungen für optimale BIOS-Einstellungen. Bei
der Optimierung der PRIMERGY Server muss neben den reinen BIOS-Einstellungen auch das
Gesamtsystem betrachtet werden. Bei der Planung von Server-Systemen müssen insbesondere folgende
Aspekte berücksichtigt werden:

Server Hardware
 Prozessor:
 Speicher:
 I/O Karten:
Prozessortyp und Frequenz
Speichertyp und Speicherbestückung
Optimale Verteilung mehrerer Karten über PCIe Slots

Betriebssystem und Anwendungssoftware
 Energiesparplan:
Performance oder Energieeffizienz
 Tuning:
Kernel, Registry, Interrupt Bindung, Thread Aufteilung

Netzwerk
 Netzwerk Technologie:
 Netzwerk Architektur:
1/10/40 Gbit Ethernet, Fibre Channel, Infiniband, RDMA
Switche, Multichannel
Storage
 Technologie:
 Disks:
RAID, Fibre Channel, Direct Attached
HDD, SSD, SATA, SAS

http://www.fujitsu.com/de/primergy
Seite 3 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Anwendungsszenarien
Performance
Die heutigen 2-Sockel PRIMERGY Server, basierend auf der Intel Xeon E5-2600 v3
Prozessorgeneration, bringen durch die neuste Multi-Prozessor, Multi-Core und MultiThreading Technologie im Zusammenspiel mit aktuellen Betriebssystemen und Applikationen
ein Höchstmaß an Performance, wie es zahlreiche Benchmark-Veröffentlichungen bei der
Standard Performance Evaluation Corporation (SPEC), SAP oder bei dem Transaction Processing
Performance Council (TPC) beweisen. Spricht man über Performance von Servern, dann ist damit in den
meisten Fällen der Durchsatz gemeint. Die Anwender, denen es auf die maximale Performance ankommt,
sind daran interessiert so viele Rechenoperationen wie möglich parallel auszuführen und möglichst alle
Ressourcen der neuen parallelen Prozessorgeneration auszunutzen. Obwohl die PRIMERGY Server mit den
Standardeinstellungen bereits ein optimales Verhältnis zwischen Performance und Energieeffizienz bieten,
besteht die Möglichkeit über das BIOS das System noch mehr in Richtung Performance und weniger in
Richtung Energieeffizienz zu optimieren. Im Wesentlichen geht es bei der Optimierung darum alle
Komponenten im System möglichst mit maximaler Geschwindigkeit zu betreiben und zu verhindern, dass
Energiesparoptionen das System verlangsamen. Deshalb ist eine Optimierung in Richtung maximaler
Performance in den meisten Fällen auch mit einer erhöhten elektrischen Leistungsaufnahme verbunden.
Low-Latency
Eine minimal mögliche Latenz ist eine Anforderung, die insbesondere aus dem High
Performance Computing (HPC) Bereich und von Anwendungen aus dem Finanzmarkt kommt,
bei denen es darum geht, Millionen von Transaktionen pro Sekunde und Daten ohne
Verzögerung möglichst in Echtzeit zu verarbeiten. Anwendern aus diesem Segment geht es
bei der Optimierung der Systeme nicht vorrangig darum den maximal möglichen Durchsatz zu erzielen,
sondern vielmehr darum die Geschwindigkeit jeder einzelnen Transaktion zu erhöhen, sprich die Zeit, die für
die Ausführung einer einzelnen Transaktion benötigt wird, zu reduzieren. In solchen Fällen liegt der Fokus
auf der Antwortzeit eines Systems, der sogenannten Latenz (typischerweise gemessen in Nanosekunden,
Mikrosekunden oder Millisekunden). Um diese zu reduzieren bietet das BIOS unterschiedliche
Möglichkeiten. So kann man einerseits, z.B. wenn bekannt ist, dass die entsprechende Anwendung nicht alle
in der Hardware verfügbaren Threads effizient ausnutzt, nicht benötigte Threads (Hyper-Threading) oder gar
Cores im BIOS abschalten, um so die anderenfalls, speziell bei einigen HPC Anwendungen auftretenden
minimalen Performance-Schwankungen bei Rechenoperationen zu reduzieren. Darüber hinaus kann das
Abschalten von nicht benötigten Cores die Turbo-Mode-Performance der verbleibenden Cores unter
bestimmten Einsatzbedingungen verbessern. Andererseits gibt es Szenarien, die eine möglichst konstante
Performance benötigen. In diesem Fall ist es geboten, die Antwortzeit konstant zu halten, indem man
Konfigurationen meidet, in denen, wie beim Turbo-Mode, Frequenzwechsel vorkommen können. Obwohl die
aktuelle Generation der Intel Prozessoren eine deutlich bessere Turbo-Mode-Performance liefert als die
Vorgängergeneration, ist die maximale Turbo-Mode-Frequenz unter bestimmten Einsatzbedingungen nicht
garantiert. In solchen Fällen kann das Abschalten des Turbo-Modes helfen Frequenzwechsel zu vermeiden.
Ebenfalls negativ auf die Antwortzeit wirken sich Energiesparfunktionen aus, welche das Ziel haben, durch
Frequenz-/Spannungsreduzierung und das Deaktivieren bestimmter Funktionsblöcke und Komponenten,
Energie einzusparen, wann immer es möglich ist. Dabei gilt: je höher ein solcher Energiesparmodus ist,
desto geringer ist die Performance. Des Weiteren benötigt der Prozessor in jedem dieser
Stromsparzustände eine gewisse Zeit um von der reduzierten Performance wieder auf die maximale
Performance zu wechseln. Diese Zeit verschlechtert die Latenz des Systems, insbesondere dann, wenn
nach einer Ruhezeit (Idle-Zustand) ein Burst von Transaktionen ansteht, oder bei unregelmäßiger
Auslastung des Systems. Für Anwender aus dem „Low-Latency“ Segment erklärt dieses Dokument, wie die
Energiesparmodi zu konfigurieren sind, um die Latenz des Systems so gering wie möglich halten. Die
Optimierung der Latenz eines Servers hat speziell im Idle-Zustand immer eine deutlich höhere elektrische
Leistungsaufnahme zur Folge.
Anmerkung zu „Performance“ und „Low-Latency“:
Bei I/O-kritischen Anwendungen kann der maximale Durchsatz oder die minimale Latenz des I/O-Systems
von Bedeutung sein. Diese Messgrößen haben im Zusammenhang mit dem I/O-System eine andere
Bedeutung als im Zusammenhang mit den Prozessoren. So bedeutet z. B. der I/O-Durchsatz die Menge der
pro Zeiteinheit durch das I/O-System übertragenen Daten. Zur Erzielung eines maximalen I/O-Durchsatzes
oder einer minimalen I/O-Latenz muss die BIOS-Optimierung der Prozessoren nicht unbedingt auf
Seite 4 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
maximalen Durchsatz von Rechenoperationen (hier „Performance“) bzw. „Low-Latency“ eingestellt sein. In
den meisten Fällen sind die BIOS-Standardeinstellungen hierfür optimal und liefern in Verbindung mit
optimal eingestellten I/O-Komponenten fast immer auch die für diese Komponenten maximal möglichen
Werte. Bei sehr hohen I/O-Anforderungen (typischerweise bei SSDs) können in seltenen Fällen diese
Zielwerte verfehlt werden. Hier kann es helfen, entweder die BIOS-Option „Uncore Frequency Override“ auf
„Enabled“ oder die BIOS-Option „Utilization Profile“ zu setzen (siehe detaillierte Beschreibung im jeweiligen
Abschnitt).
Energieeinsparung / Energieeffizienz
Neben den Szenarien für maximalen Durchsatz und minimale Latenz gibt es auch
Umgebungen, in denen nicht die reine Performance die größte Rolle spielt, sondern der
Energieverbrauch. Dabei werden zwei unterschiedliche Zielsetzungen verfolgt.
Zum einen besteht die Möglichkeit die BIOS-Optionen so zu wählen, dass in jedem Fall die
niedrigstmögliche elektrische Leistungsaufnahme erreicht wird. Dies ist beispielsweise eine Option für
Rechenzentrumsbetreiber, denen nur ein begrenztes Budget an elektrischer Leistung zur Verfügung steht
und das Ziel verfolgt wird, die elektrische Leistungsaufnahme pro Rack bzw. pro Server zu reduzieren, wobei
Performance nur eine untergeordnete Rolle spielt. Optimierungen in diese Richtung bestehen hauptsächlich
darin, die Geschwindigkeit und damit die Performance des Servers zu reduzieren.
Auf der anderen Seite besteht die Möglichkeit, einen Server so zu konfigurieren, dass dieser das
bestmögliche Verhältnis zwischen Durchsatz und elektrischer Leistungsaufnahme liefert. Erst hierdurch wird
die optimale Energieeffizienz eines Servers erreicht (gemessen in Performance pro Watt). Eine solche
Optimierung streben insbesondere Rechenzentrumsbetreiber an, für die die maximale Performance eines
Servers nur eine zweitrangige Bedeutung hat und es wichtiger ist die Gesamtbetriebskosten zu optimieren.
Zahlreiche Veröffentlichungen bei der Standard Performance Evaluation Corporation (SPEC) mit dem ersten
Industrie-Standard-Benchmark zur Messung der Energieeffizienz von Servern, dem SPECpower_ssj2008,
sowie SAP Server Power Benchmark und VMmark V2 Performance with Server Power beweisen, dass
PRIMERGY Server die beste Wahl für energieeffiziente Server sind.
http://www.fujitsu.com/de/primergy
Seite 5 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
PRIMERGY BIOS-Optionen
Dieses White Paper beinhaltet Hinweise zu BIOS-Optionen, die für die Intel Xeon E5-2600 v3 basierten
PRIMERGY Server gelten. Diese sind:









PRIMERGY BX2560 M1
PRIMERGY BX2580 M1
PRIMERGY CX2550 M1
PRIMERGY CX2570 M1
PRIMERGY RX2510 M1
PRIMERGY RX2530 M1
PRIMERGY RX2540 M1
PRIMERGY RX2560 M1
PRIMERGY TX2560 M1
Das BIOS der PRIMERGY Server wird kontinuierlich weiterentwickelt. Deshalb ist es wichtig, die jeweils
aktuelle BIOS-Version zu verwenden, um alle hier aufgeführten BIOS-Funktionalitäten verfügbar zu haben.
Entsprechende Downloads stehen im Internet unter http://www.fujitsu.com/de/support/ zur Verfügung.
Empfehlungen zur Optimierung
In den folgenden Tabellen sind Empfehlungen für BIOS-Optionen aufgeführt, welche die PRIMERGY Server
entweder für beste Performance, Low-Latency oder für höchste Energieeffizienz optimieren. Um die BIOSOptionen zu ändern, muss zunächst während des Selbsttests des Systems (Power On Self Test = POST)
das BIOS-Setup aufgerufen werden. Weitere Informationen dazu sind im Handbuch des Servers zu finden.
Viele der hier aufgeführten BIOS-Optionen haben Abhängigkeiten untereinander. Dies kann dazu führen,
dass gewisse Änderungen bestimmter Optionen alleine ein unerwünschtes Systemverhalten bewirken bzw.
erst dann die gewünschte Wirkung zeigen, wenn gleichzeitig auch weitere Optionen geändert werden. Bevor
an den in den folgenden Tabellen enthaltenen BIOS-Optionen Änderungen vorgenommen werden, wird
ausdrücklich empfohlen, die Fußnoten und die anschließende Beschreibung der BIOS-Optionen zu
beachten. Darüber hinaus sollten jegliche Änderungen zunächst in einer Testumgebung auf die gewünschte
Wirkung untersucht werden, bevor diese dann auf die Produktivumgebung übertragen werden.
Neben den Empfehlungen für BIOS-Optionen sollte bei der Planung eines Server-Systems auch der
Auswahl und dem Tuning des Betriebssystems besondere Beachtung geschenkt werden. Je nach Einsatz
können die Auswahl eines bestimmten Betriebssystems und dessen Tuning Einfluss auf Performance,
Latenz und Energieeffizienz haben. Zusätzliche Informationen bezüglich des Tunings für einzelne
Betriebssysteme sind unter den folgenden Links zu finden.
Microsoft Windows: http://msdn.microsoft.com/en-us/library/windows/hardware/dn529134
RedHat Linux:
https://access.redhat.com/articles/221153
https://access.redhat.com/documentation/enUS/Red_Hat_Enterprise_Linux/7/html/Performance_Tuning_Guide/
SUSE Linux:
https://www.suse.com/documentation/sles11/pdfdoc/book_sle_tuning/
book_sle_tuning.pdf
VMware vSphere:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-SensitiveWorkloads.pdf
Seite 6 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Tabelle 1: Übersicht BIOS-Optionen
BIOS-Setup-Menü
BIOS-Option
Einstellungen
1)
Performance Low-Latency Energieeffizienz
Advanced
ASPM Support
> PCI Subsystem Settings
Disabled
L1 Only
Disabled
Disabled
L1 Only
Advanced
DMI Control
> PCI Subsystem Settings
GEN 1
GEN 2
GEN 2
GEN 2
GEN 1
Advanced
> CPU Configuration
Hyper-Threading
Disabled
Enabled
Enabled
Disabled
Advanced
> CPU Configuration
Active Processor
Cores
0 (All)
[1 – n]
0 (All)
1–n
Advanced
> CPU Configuration
[Hardware]
[Adjacent Cache Line]
Enabled
[DCU Streamer]
Disabled
[DCU Ip]
Prefetcher
Enabled
Enabled
Disabled
Advanced
> CPU Configuration
Intel Virtualization
Technology
Disabled
Enabled
Disabled
Disabled
Disabled
Advanced
> CPU Configuration
Power Technology
Disabled
Energy Efficient Custom
Custom
Custom
Custom
Advanced
> CPU Configuration
Enhanced SpeedStep Disabled
7)
Enabled
Enabled
Enabled
Enabled
Advanced
> CPU Configuration
Turbo Mode
Disabled
Enabled
Enabled
Disabled
Advanced
> CPU Configuration
Override OS Energy
7)
Performance
Disabled
Enabled
Enabled
Enabled
Disabled
Performance
Balanced
Performance
Performance
Balanced Energy
Energy Efficient
Performance
Energy Efficient
Even
Unbalanced
Even
Unbalanced
Even
Disabled
Enabled
Enabled
Disabled
Enabled
Disabled
Enabled
Disabled
Disabled
Enabled
Disabled
Enabled
Enabled
Disabled
Enabled
Advanced
> CPU Configuration
7)
Energy Performance
10)
Advanced
> CPU Configuration
Utilization Profile
Advanced
> CPU Configuration
CPU C1E Support
Advanced
> CPU Configuration
CPU C3 Report
7)
Advanced
> CPU Configuration
CPU C6 Report
7)
1)
2)
3)
4)
5)
6)
7)
8)
9)
10)
10)
7)
6)
3)
4)
2)
Enabled
0 (All)
8)
5)
Disabled
9)
Die fett gedruckte Einstellung ist der Standardwert.
GEN 1 wird empfohlen bei niedriger Chipsatz I/O Auslastung (USB, onboard SATA und onboard LAN bei Servern der CX-Modellreihe);
anderenfalls ist GEN 2 einzustellen.
Hyper-Threading verdoppelt die Anzahl logischer Cores, jedoch kann dies auch zu Performance-Schwankungen bei Rechenoperationen
führen. Das Abschalten kann die Latenz verbessern.
Durch Einschränken der Anzahl aktiver Cores bei Anwendungen, die single-threaded sind, oder Anwendungen, die nicht alle Threads der
CPU nutzen, kann die Turbo-Mode-Performance verbessert werden.
Das Ausschalten („Disabled“) der Prefetcher steigert nur dann die Energieeffizienz, wenn die Performance gleich bleibt, oder sich verbessert.
Dies sollte im Vorhinein überprüft werden.
Wenn Virtualisierung nicht verwendet wird, sollte diese Option auf „Disabled“ gesetzt werden.
Diese Option ist nur sichtbar, wenn die Einstellung für „Power Technology“ auf „Custom“ geändert wird.
Die maximale Turbo-Mode-Performance ist nicht unter allen Betriebsbedingungen garantiert, was zu Schwankungen in der Performance
führen kann. Für eine stabile und gleichbleibende Antwortzeit sollte die „Turbo Mode“ Option auf „Disabled“ gesetzt werden.
Wenn das eingesetzte Betriebssystem in der Lage ist, die „energy efficient policy“ für die CPUs einzustellen, dann sollten die Einstellungen
für die „Energy Performance“-Option über den Energiesparplan des Betriebssystems vorgenommen werden. Ist das Betriebssystem dazu
nicht in der Lage, oder möchte man dies nicht diesem überlassen, kann man die Option auf „Enabled“ setzen und die Einstellung über das
BIOS vornehmen.
Diese Option ist erst dann einstellbar, wenn die Einstellung für „Override OS Energy Performance“ auf „Enabled“ geändert wird.
http://www.fujitsu.com/de/primergy
Seite 7 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
BIOS-Setup-Menü
BIOS-Option
Advanced
> CPU Configuration
Package C State limit
Einstellungen
Version: 1.2  2015-11-26
1)
Performance Low-Latency Energieeffizienz
7)
C0
C2
C6
C6(Retention)
C0
C0
C6(Retention)
Advanced
> CPU Configuration
QPI Link Frequency
Select
6.4 GT/s
8.0 GT/s
9.6 GT/s
Auto
Auto
Auto
6.4 GT/s
Advanced
> CPU Configuration
Uncore Frequency
Override
Disabled
Enabled
Disabled
Enabled
Disabled
Advanced
> CPU Configuration
COD Enable
Disabled
Enabled
Auto
Auto
Auto
Auto
Advanced
> CPU Configuration
Early Snoop
Disabled
Enabled
Auto
Auto
Auto
Auto
Advanced
> Memory Configuration
DDR Performance
Performance
optimized
Energy
optimized
Performance
optimized
Performance
optimized
Energy optimized
Advanced
> Memory Configuration
Patrol Scrub
Disabled
Enabled
Enabled
Disabled
Enabled
Advanced
> USB Configuration
Onboard USB
Controllers
Disabled
Enabled
Enabled
Enabled
Disabled
11)
12)
13)
12)
11)
13)
Das Einschalten dieser Option kann bei Anwendungen mit hoher I/O Auslastung, aber geringer bis gar keiner Core Auslastung von Vorteil
sein.
Die PRIMERGY RX2510 M1 unterstützt den Snoop Modus Cluster on Die (COD) nicht. Um Performance-Einbußen zu vermeiden sollte diese
Option für die PRIMERGY RX2510 M1 nicht eingeschaltet („Enabled“) werden.
Das Ausschalten dieser Option verhindert die Nutzung von internen oder externen USB Geräten.
Seite 8 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
BIOS-Optionen Details
ASPM Support
BIOS-Setup-Menü
BIOS-Option
Advanced
ASPM Support
> PCI Subsystem Settings
Einstellungen
Performance Low-Latency Energieeffizienz
Disabled
L1 Only
Disabled
Disabled
L1 Only
ASPM steht für „Active State Power Management“ und erlaubt es, die PCIe-Links zu den PCIe-Geräten in
unterschiedliche Stromsparmodi zu versetzen um dadurch die Leistungsaufnahme zu reduzieren. Mit der
Einstellung „L1 Only“ kann das System je nach Aktivität des PCIe-Links diesen in den energieeffizientesten
Stromsparmodus versetzen. Das Wechseln der Stromsparmodi bzw. das Verlassen der Stromsparmodi
erhöht jedoch die Latenz. Die volle I/O-Performance der PCIe-Geräte wird durch die Einstellung „Disabled“
gewährt.
DMI Control
BIOS-Setup-Menü
BIOS-Option
Advanced
DMI Control
> PCI Subsystem Settings
Einstellungen
Performance Low-Latency Energieeffizienz
GEN 1
GEN 2
GEN 2
GEN 2
GEN 1
DMI steht für „Digital Media Interface“ und stellt die Verbindung zwischen den Intel Prozessoren und dem
Chipsatz dar. Dieser Link kann mit unterschiedlichen Geschwindigkeiten betrieben werden. Der Chipsatz
stellt unter anderem die Kommunikation zu den onboard LAN-Controllern (nur bei Servern der CXModellreihe), USB-Controllern und onboard SATA-Controllern zur Verfügung. Für Umgebungen, in denen
diese vom Chipsatz bereitgestellten Komponenten nur wenig genutzt werden, kann die Geschwindigkeit des
DMI-Links von „GEN 2“ auf „GEN 1“ heruntergesetzt werden, um damit die Leistungsaufnahme geringfügig
zu reduzieren.
Hyper-Threading
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Hyper-Threading
Disabled
Enabled
Enabled
Disabled
Enabled
Grundsätzlich empfiehlt Fujitsu „Hyper-Threading“ einzuschalten („Enabled“). Dennoch kann es für
Anwendungen, die speziell auf möglichst geringe Antwortzeiten Wert legen (z.B. bei Trading-Software aus
dem Finanzmarkt oder bei HPC-Anwendungen), sinnvoll sein Hyper-Threading auszuschalten („Disabled“).
Anwender aus diesen Bereichen sind meist weniger an dem maximalen Systemdurchsatz interessiert, der
durch die zusätzlichen Threads zur Verfügung gestellt wird, als vielmehr an der Performance und Stabilität
eines einzelnen Threads. Das Abschalten von Hyper-Threading („Disabled“) kann die damit verbundenen
Performance-Schwankungen bei Rechenoperationen verhindern und dadurch die Latenz verbessern.
Active Processor Cores
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Active Processor
Cores
0 (All)
[1 – n]
0 (All)
1–n
0 (All)
Es besteht die Möglichkeit, einzelne Cores eines Prozessors im BIOS abzuschalten (z.B. können 4 Cores
auf einem 10-Core Prozessor abgeschaltet werden). Dabei bleibt der L3 Cache in vollem Umfang für die
verbleibenden Cores erhalten. Obwohl der maximale Durchsatz nur mit maximaler Anzahl Cores erreicht
wird, kann es speziell bei Latenz-sensitiven Anwendungen, die nicht alle Cores ausnutzen, von Vorteil sein,
nicht benötigte Cores abzuschalten, um so die maximale Turbo-Mode-Frequenz auf den verbleibenden,
aktiven Cores zu ermöglichen. Das funktioniert, weil die abgeschalteten Cores die elektrische
Leistungsaufnahme des Prozessors reduzieren und so den verbleibenden Cores höhere Turbo-ModeFrequenzen ermöglichen. Dies muss nicht mit allen Lastprofilen funktionieren, speziell leistungshungrige
AVX-Anwendungen können hier eine Ausnahme bilden. Dennoch besteht mit dieser BIOS-Option die
http://www.fujitsu.com/de/primergy
Seite 9 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Möglichkeit, eine Konfiguration mit höchstmöglicher Frequenz und größtmöglicher Cachenutzung zu
realisieren.
Prefetcher
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
[Hardware]
[Adjacent Cache
Line]
[DCU Streamer]
[DCU Ip]
Prefetcher
Enabled
Disabled
Enabled
Enabled
Disabled
Das BIOS der PRIMERGY Server enthält mehrere Prefetcher-Optionen. Dazu gehören:




Hardware Prefetcher
Adjacent Cache Line Prefetch
DCU Streamer Prefetcher
DCU Ip Prefetcher
Die Prefetcher sind Funktionen des Prozessors, die es erlauben, Daten nach bestimmten Mustern vorab aus
dem Hauptspeicher in den L1 oder L2-Cache des Prozessors zu laden. Das Einschalten („Enabled”) der
Prefetcher sorgt in der Regel für eine höhere Cache-Trefferrate und steigert somit die Gesamtperformance
des Systems. Eine Ausnahme bilden Anwendungsszenarien, bei denen der Hauptspeicher voll ausgelastet
ist und die Speicheranbindung einen Performanceengpass darstellt. In diesen Fällen kann es von Vorteil
sein, die Prefetcher Optionen auf „Disabled“ zu setzen, um so die Bandbreite zusätzlich nutzen zu können,
die sonst für das Prefetching aufgebraucht wird. Darüber hinaus kann durch das Ausschalten der Prefetcher
auch die Leistungsaufnahme des Servers geringfügig reduziert werden. Bevor die Prefetcher Optionen auf
Produktivsystemen geändert werden, sollten in einer Testumgebung zunächst die Wirkung der einzelnen
Einstellungen für das jeweilige Anwendungsszenario überprüft werden.
Details zu den einzelnen Prefetchern:
Hardware Prefetcher
Adjacent Cache Line Prefetch
DCU Streamer Prefetcher
DCU Ip Prefetcher
Seite 10 (20)
Dieser Prefetcher sucht nach Datenströmen in der Annahme, dass
wenn die Daten an Adresse A und A+1 angefordert werden, vermutlich
auch die Daten an Adresse A+2 benötigt werden. Diese werden dann
vorab in den L2-Cache aus dem Hauptspeicher geladen.
Dieser Prefetcher holt immer Cache Line Paare (128 Byte) aus dem
Hauptspeicher, vorausgesetzt die Daten befinden sich nicht bereits im
Cache. Wenn dieser Prefetcher ausgeschaltet wird, wird immer nur eine
einzelne Cache Line (64 Byte) geholt, die die vom Prozessor benötigten
Daten beinhaltet.
Bei diesem Prefetcher handelt es sich um einen L1-Cache Daten
Prefetcher, der erkennt, wenn innerhalb einer bestimmten Zeit
mehrfach Daten aus einer Cache Line angefordert werden. In der
Annahme, die nächste Cache Line wird ebenfalls benötigt, wird diese
dann vorab aus dem L2-Cache oder dem Hauptspeicher in den L1Cache geladen.
Dieser L1-Cache Prefetcher sucht nach
vorangegangenen
sequentiellen Zugriffen und versucht darauf basierend, die als nächstes
zu erwartenden Daten zu ermitteln und gegebenenfalls vorab aus dem
L2-Cache oder dem Hauptspeicher in den L1-Cache zu laden.
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Intel Virtualization Technology
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Intel Virtualization
Technology
Disabled
Enabled
Disabled
Disabled
Disabled
Diese BIOS-Option schaltet zusätzliche Virtualisierungsfunktionen der CPU ein („Enabled“) oder aus
(„Disabled“). Wird der Server nicht für Virtualisierung genutzt, sollte diese Option auf „Disabled“ gesetzt
werden. Dies kann zu einer Energieeinsparung führen.
Power Technology
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Advanced
> CPU Configuration
Disabled
Power Technology Energy Efficient Custom
Custom
Performance Low-Latency Energieeffizienz
Custom
Custom
Die BIOS-Option „Power Technology“ ist eine Obermenge unterschiedlicher BIOS-Optionen, die die
Performance und die Power Management Funktionen der Prozessoren steuern. Die Standardeinstellung
„Energy Efficient“ stellt bereits eine gute Balance zwischen elektrischer Leistungsaufnahme und
Rechenleistung ein. Um die dazugehörigen relevanten Optionen einzublenden und einzeln einzustellen,
kann die Einstellung „Custom“ gewählt werden. Die Standardeinstellungen der einzelnen Optionen für die
Einstellung „Energy Efficient“ sind in den nachfolgenden Abschnitten jeweils fett gedruckt. Diese BIOSOptionen sind:






Enhanced SpeedStep
Turbo Mode
Override OS Energy Performance
 Energy Performance
 Utilization Profile
CPU C1E Support
CPU C3/C6 Report
Package C State limit
Die Einstellung „Disabled“ deaktiviert das Power Management der Prozessoren (P-States  „Enhanced
SpeedStep = Disabled“ und C-States werden deaktiviert) und beschränkt damit gleichzeitig durch das
Ausschalten der „Turbo Mode“ Option die maximale Prozessorfrequenz auf die Nominalfrequenz.
Enhanced SpeedStep
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Enhanced
SpeedStep
Disabled
Enabled
Enabled
Enabled
Enabled
Enhanced Intel SpeedStep Technology (EIST) ist eine Energiesparfunktion, die es erlaubt einzelnen Cores
oder auch dem kompletten Prozessor seine Leistungsfähigkeit bestimmten Lastprofilen anzupassen. Dies
wird erreicht, indem Frequenz und Spannung abgesenkt werden, wenn die maximale Rechenleistung nicht
benötigt wird, was den Energiebedarf zum Teil erheblich absenkt. Da die Verteilung der Rechenleistung dem
Betriebssystem und den dort implementierten Strategien unterliegt (z.B. dem hinterlegten Energiesparplan),
empfiehlt Fujitsu die Option „Enhanced SpeedStep“ eingeschaltet („Enabled“) zu lassen. Wird diese Option
abgeschaltet („Disabled“) steht auch die Funktion „Turbo Mode“ nicht zur Verfügung, die es erlaubt,
kurzfristig mehr Rechenleistung, durch Frequenzerhöhung über die Nominalfrequenz hinaus, zur Verfügung
zu stellen.
http://www.fujitsu.com/de/primergy
Seite 11 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Turbo Mode
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Turbo Mode
Disabled
Enabled
Enabled
Disabled
Disabled
Diese BIOS-Option schaltet die Intel Turbo Boost Technology Funktion des Prozessors ein („Enabled“) bzw.
aus („Disabled“). Die Turbo Boost Technology Funktion erlaubt dem Prozessor kurzfristig mehr
Rechenleistung durch Frequenzerhöhung über die Nominalfrequenz hinaus zur Verfügung zu stellen. Die
maximal erreichbare Frequenz wird dabei von vielen Faktoren beeinflusst - Prozessor-Typ, Anzahl aktiver
Prozessor Cores, Stromzufuhr, momentane elektrische Leistungsaufnahme, Temperatur, sowie die
auszuführenden Instruktionen (entscheidend dabei ist, ob es sich um AVX oder sogenannte non-AVX
Instruktionen handelt). Neben diesen Randbedingungen für die Turbo-Mode-Performance spielt,
insbesondere bei HPC-Anwendungen, auch die Güte der Prozessoren eine große Rolle. So führt die
Fertigungsvarianz zum Beispiel dazu, dass die einzelnen Prozessoren vom selben Typ bei gleicher
Belastung eine unterschiedliche Leistungsaufnahme haben.
Grundsätzlich empfiehlt Fujitsu die „Turbo Mode“ Option auf der Standardeinstellung („Enabled“) zu
belassen, denn durch die höheren Frequenzen wird die Performance deutlich gesteigert. Da die höheren
Frequenzen jedoch abhängig sind von Randbedingungen und nicht immer garantiert sind, kann es für
Anwendungsszenarien, in denen eine konstante Performance oder eine niedrigere elektrische
Leistungsaufnahme gefordert ist, von Vorteil sein die „Turbo Mode“ Option auszuschalten („Disabled“).
Override OS Energy Performance
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Advanced
> CPU Configuration
Override OS Energy Disabled
Performance
Enabled
Performance Low-Latency Energieeffizienz
Enabled
Enabled
Disabled
Die neue Generation der Intel Xeon E5-2600 v3 basierten Prozessoren kommt mit einer Vielzahl von
Energiesparoptionen. Die sogenannte „Power Control Unit (PCU)“ in den Prozessoren übernimmt dabei die
zentrale Rolle der Steuerung all dieser Energiesparoptionen. Die PCU kann parametrisiert werden, um
dadurch die Einstellungen mehr in Richtung Energieeffizienz oder in Richtung maximaler Performance zu
steuern. Dies kann über zweierlei Wege geschehen. Die Standardeinstellung erlaubt es, die Steuerung der
„Energy Performance“-Option durch das Betriebssystem vorzunehmen. Abhängig von dem gewählten
Energiesparplan, welcher im Betriebssystem eingestellt wird, wird ein bestimmter Wert in ein CPU-Register
geschrieben. Dieses Register wird dann von der PCU ausgewertet und dementsprechend werden die
Energiesparfunktionen der CPU gesteuert. Die andere Möglichkeit besteht darin, die „Energy Performance“Option direkt über das BIOS einzustellen und damit die Einstellung des Betriebssystems zu übersteuern.
Dies macht insbesondere dann Sinn, wenn z.B. ein älteres Betriebssystem nicht in der Lage ist dieses
spezielle CPU Register zu beschreiben, oder aber wenn gewünscht ist, die Energiesparoptionen zentral aus
dem BIOS, also betriebssystemunabhängig vorzunehmen. In diesem Fall muss die BIOS-Option „Override
OS Energy Performance“ aktiviert („Enabled“) werden. Ist diese Option aktiviert, hat man zusätzlich noch die
Möglichkeit Einstellungen für die BIOS-Option „Utilization Profile“ vorzunehmen.
Energy Performance
BIOS-Setup-Menü
Advanced
> CPU Configuration
BIOS-Option
Einstellungen
Energy
Performance
Performance
Balanced
Performance
Performance
Balanced Energy
Energy Efficient
Performance Low-Latency Energieeffizienz
Performance
Energy Efficient
Diese BIOS-Option parametrisiert je nach Einstellung die interne „Power Control Unit (PCU)“ der Intel
Prozessoren und optimiert die Power Management Funktionen der Prozessoren zwischen Performance und
Energieeffizienz. Mögliche Einstellungen sind „Performance“, „Balanced Performance“, „Balanced Energy“
und „Energy Efficient“. Die Einstellungen sind nur dann aktiv, wenn die BIOS-Option „Override OS Energy
Performance“ auf „Enabled“ gesetzt ist. Im anderen Fall übernimmt das Betriebssystem die Aufgabe, die
„Energy Performance“-Option über den Energiesparplan einzustellen.
Seite 12 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Utilization Profile
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Utilization Profile
Even
Unbalanced
Even
Unbalanced
Even
Wenn die BIOS-Option „Override OS Energy Performance“ aktiviert („Enabled“) ist, hat man zusätzlich die
Möglichkeit, ein sogenanntes „Utilization Profile“ einzustellen. Über die Option „Utilization Profile“ wird eine
Energiesparoption parametrisiert, welche sowohl die QPI als auch die PCIe-Bandbreite überwacht, und
anhand der Auslastung versucht, die Prozessor Frequenz anzupassen. Die Standardeinstellung ist „Even“,
weil man davon ausgeht, dass die CPU-Last gleichmäßig über alle Prozessoren verteilt ist und so die
entsprechende Frequenz anhand der CPU-Auslastung optimal angepasst wird. Dementsprechend sorgt die
Einstellung „Even“ für eine weniger aggressive Erhöhung der Prozessor Frequenz. Die Einstellung
„Unbalanced“ hingegen zielt auf Anwendungsszenarien mit einer hohen PCIe-Auslastung bei geringer CPUAuslastung ab. Ein typisches Beispiel dafür sind Konfigurationen mit GPGPUs. In solchen Fällen könnte
durch die eher niedrigere Auslastung der CPUs das Betriebssystem entsprechend niedrigere Frequenzen
anfordern, obwohl eigentlich eine hohe Frequenz benötigt wird um die maximal mögliche PCIe-Bandbreite
zu erreichen. Die Einstellung „Unbalanced“ sorgt dafür, dass bei hoher QPI- oder PCIe-Auslastung die
Frequenz der Prozessoren aggressiver erhöht wird - auch wenn die CPU-Auslastung gering ist. Generell
empfiehlt Fujitsu mit der Standardeinstellung „Even“ zu arbeiten, da diese Einstellung deutlich
energieeffizienter ist. Sollte es jedoch zu Performance-Problemen in Anwendungsszenarien kommen, bei
denen eine hohe PCIe-Bandbreite erforderlich ist, kann die Einstellung „Unbalanced“ diesen
entgegenwirken.
CPU C1E Support
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
CPU C1E Support
Disabled
Enabled
Enabled
Disabled
Enabled
Der C1E ist ein CPU C-State, welcher aktiviert wird, sobald das Betriebssystem der CPU mitteilt, dass es
idle ist. Die CPU C-States sind Idle-Zustände, in denen der Core eines Prozessors, wenn er keinen Code
auszuführen hat, in eine Art Schlafzustand versetzt wird. Dadurch wird der Stromverbrauch im Idle-Zustand
deutlich reduziert. Im Aktiv-Zustand sorgen die P-States eines Prozessors für die energieeffiziente
Ausführung des Codes, indem nur so viel Leistung zur Verfügung gestellt wird, wie gerade benötigt wird.
Processor Performance
Power States (P-States)





Bekannt als Enhanced Intel SpeedStep®
Technology (EIST) oder
Demand Based Switching (DBS)
Basierend auf der CPU-Auslastung
reduzieren die P-States die elektrische
Leistungsaufnahme, während der
Prozessor Code ausführt
P-States sind eine Kombination aus
Prozessor-Spannung und ProzessorFrequenz
P-States sind vergleichbar mit
unterschiedlichen Leistungsstufen
http://www.fujitsu.com/de/primergy
Processor Idle Power
States (C-States)






C-States reduzieren die elektrische
Leistungsaufnahme, wenn der Prozessor
keinen Code ausführt
Teilbereiche des Prozessors können
abgeschaltet werden
C-0  Prozessor aktiv
C-6  Prozessor im „deep power down“
Unterschied zwischen C-0 und C-6 State
bis zu 70 Watt pro Prozessor (abhängig
vom Prozessor-Typ)
Leistungsaufnahme des Prozessors im C6 State ca. 10 Watt
Seite 13 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
C1E sorgt dafür, dass im Idle-Zustand die Frequenz immer auf das Minimum von 1.20 GHz herunter getaktet
wird. Dies geschieht unabhängig von der Intel SpeedStep Technology. Das heißt, auch wenn über den
Energiesparplan des Betriebssystems eingestellt wird, dass der Prozessor mit maximaler Frequenz laufen
soll, würde C1E, wenn es aktiv („Enabled“) ist, dafür sorgen, dass der Prozessor im Idle-Zustand auf 1.20
GHz heruntertaktet. Dies kann speziell bei Low-Latency-Anwendungen von Nachteil sein, denn das
Herunter- bzw. wieder Hochtakten der Frequenz erhöht die Latenz. In solchen Fällen kann die Einstellung
auf „Disabled“ geändert werden. Dabei sollte beachtet werden, dass sich die elektrische Leistungsaufnahme
im Idle-Zustand drastisch erhöht.
CPU C3/C6 Report
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
CPU C3 Report
Disabled
Enabled
Disabled
Disabled
Enabled
Advanced
> CPU Configuration
CPU C6 Report
Disabled
Enabled
Enabled
Disabled
Enabled
Mit diesen BIOS-Optionen wird dem Betriebssystem mitgeteilt, ob es die CPU C3 oder C6 States nutzen
kann („Enabled“) oder nicht („Disabled“). Da das Aufwachen aus diesen C-States die Latenz erhöht, wird
empfohlen, für Anwendungen bei denen es auf maximale Performance bei möglichst geringer Antwortzeit
ankommt, die Einstellung für die CPU C-States auf „Disabled“ zu setzen. Dabei gilt, je höher der C-State,
desto länger die Aufwachzeit. Dabei sollte beachtet werden, dass, wenn alle CPU C-States ausgeschaltet
sind, nicht mehr die höchstmögliche Turbo-Mode-Frequenz erreicht werden kann. In diesem Fall würde
unabhängig von der Anzahl aktiver Cores, die höchste Turbo-Mode-Frequenz auf die maximale Frequenz
begrenzt werden, die möglich ist, wenn alle Cores aktiv sind. Diese ist je nach Prozessor-Typ in der Regel
deutlich niedriger. Für die maximale Turbo-Mode-Frequenz, wenn nicht alle Cores aktiv sind, muss
mindestens „CPU C3 Report“ auf „Enabled“ gesetzt werden. Mit der Einstellung „Disabled“ für die BIOS
Option „CPU C3/C6 Report“ wird seitens des BIOS nur verhindert, dass der entsprechende CPU C-State per
ACPI an das Betriebssystem übergeben wird, welches dann in der Regel nicht mehr in der Lage ist diesen
zu nutzen. Unter einigen Betriebssystemen, vor allem bei Linux-Distributionen, die den Treiber "intel_idle"
verwenden (ab 2015 alle von Fujitsu unterstützten Enterprise Linux-Distributionen), haben BIOSEinstellungen für C-States keinerlei Effekt. Um eine Berücksichtigung der BIOS-Einstellungen durch das
Betriebssystem zu erzwingen, muss dieser Treiber per Linux Kernel-Parameter "intel_idle.max_cstate=0"
deaktiviert werden. Der Linux Kernel nutzt dann stattdessen den Idle-Treiber "processor“, der die BIOSEinstellungen berücksichtigt.
Package C State limit
BIOS-Setup-Menü
Advanced
> CPU Configuration
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Package C State
limit
C0
C2
C6
C6(Retention)
C0
C0
C6(Retention)
Neben den CPU oder Core C-States gibt es auch sogenannte Package C-States, die es erlauben, nicht nur
den einzelnen Core eines Prozessors, sondern den gesamten Prozessor-Chip in eine Art Schlafzustand zu
versetzen. Die Leistungsaufnahme wird dadurch nochmals weiter reduziert. Die „Aufwachzeit“, die benötigt
wird, um aus den tieferen Package C-States in den aktiven C0 State zu wechseln, ist im Vergleich zu den
CPU oder Core C-States noch größer. Wird im BIOS die Einstellung „C0“ eingestellt, dann bleibt der
Prozessor-Chip immer aktiv. Ist jedoch abzusehen, dass der Server längere Idle-Perioden über die
Betriebszeit hat und die Latenz beim „Aufwachen“ aus den Package C-States keine Rolle spielt, dann sollte
die Einstellung auf „C6(Retention)“ belassen werden, denn dies reduziert die Leistungsaufnahme des
Servers im Idle-Zustand erheblich. Der Unterschied zwischen „C6“ und „C6(Retention)“ ist die Spannung, mit
der der Prozessor in diesem Package C-State betrieben wird. Bei „C6(Retention)“ wird die Spannung und
damit auch die Leistungsaufnahme noch weiter reduziert.
Seite 14 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
QPI Link Frequency Select
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Advanced
> CPU Configuration
6.4 GT/s
QPI Link Frequency 8.0 GT/s
Select
9.6 GT/s
Auto
Performance Low-Latency Energieeffizienz
Auto
Auto
6.4 GT/s
Mit dieser BIOS-Option ist es möglich, die Geschwindigkeit des QuickPath Interconnects (QPI) zwischen den
CPUs in einem System zu reduzieren um damit Strom einzusparen. Dies macht insbesondere dann Sinn,
wenn die verfügbare Bandbreite nicht notwendig ist. Ist jedoch maximale Performance und eine geringe
Antwortzeit die Vorgabe, belässt man es bei der Einstellung „Auto“, die automatisch die höchste
Geschwindigkeit einstellt. Je nachdem welche Bandbreite benötigt wird kann hier zwischen den
Geschwindigkeiten „6.4 GT/s“, welche die größte Einsparung bringt, „8.0 GT/s“ und „9.6 GT/s“, welche die
maximale Geschwindigkeit ist, ausgewählt werden.
Uncore Frequency Override
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
Uncore Frequency
Override
Disabled
Enabled
Disabled
Enabled
Disabled
Die neue Generation der Intel Xeon E5-2600 v3 basierten Prozessoren arbeitet mit unabhängigen
Frequenzen für die einzelnen Cores und den sogenannten Uncore-Bereich. Die Frequenzen werden dabei
für jeden Bereich, abhängig von dessen Auslastung, entsprechend eingestellt. So ist sichergestellt, dass
Prozessoren mit hoher Auslastung auch entsprechende Performance durch hohe Frequenzen erreichen. Auf
der anderen Seite können die Frequenzen auf ein Minimum reduziert werden, wenn der Prozessor oder
entsprechende Bereiche eines Prozessors nicht ausgelastet sind, um dadurch Energie einzusparen.
Das Einschalten dieser BIOS-Option sorgt dafür, dass der Uncore-Bereich des Prozessors immer mit seiner
maximalen Frequenz arbeitet, auch dann, wenn die Cores nur gering ausgelastet sind oder sich vielleicht
sogar im Idle-Zustand befinden. Dementsprechend ist der Stromverbrauch auch höher. Deshalb sollte im
Normalfall die Einstellung für diese Option immer „Disabled“ sein. Ausnahmen bilden Anwendungen mit
hohen Anforderungen an die I/O-Latenz bzw. generell I/O-intensive Anwendungen, die die Prozessoren gar
nicht oder nur sehr gering belasten. In diesem Fall würden die Power Management Mechanismen des
Prozessors versuchen die Frequenz auf ein Minimum zu reduzieren (siehe „CPU C1E Support“). Wenn dies
geschieht, dann wird auch automatisch die Frequenz des sogenannten Uncore-Bereichs heruntergeregelt.
Da die gesamte I/O-Kommunikation (PCIe, Speicher, QPI, etc.) über den Uncore-Bereich erfolgt, hätte dies
negative Auswirkungen auf den I/O-Durchsatz. Die Einstellung „Uncore Frequency Override = Enabled“
würde dies verhindern, wobei die dadurch erhöhte elektrische Leistungsaufnahme in Kauf zu nehmen ist.
QPI Snoop Modi
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> CPU Configuration
COD Enable
Disabled
Enabled
Auto
Auto
Auto
Auto
Advanced
> CPU Configuration
Early Snoop
Disabled
Enabled
Auto
Auto
Auto
Auto
Die Intel Xeon E5-2600 v3 Prozessorgeneration unterstützt drei unterschiedliche Snoop Modi, die regeln,
wie die Cache-Kohärenz über die Intel QPI Links realisiert wird. Das BIOS jeder dieser PRIMERGY Server
bietet zwei BIOS-Optionen, mit Hilfe derer die drei unterschiedlichen Snoop Modi eingestellt werden können.
Bevor die gewünschten Einstellungen vorgenommen werden muss sichergestellt sein, dass der gewünschte
Snoop Modus von der verwendeten Anwendung und dem eingesetzten Betriebssystem unterstütz wird. In
diesem White Paper wird bewusst keine konkrete Snoop Modus-Empfehlung für die drei beschriebenen
Anwendungsszenarien gegeben, weil die optimale Einstellung immer von der individuellen Anwendung
http://www.fujitsu.com/de/primergy
Seite 15 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
abhängt. So kann es beispielsweise zwei unterschiedliche Anwendungen geben, die aus dem gleichen
Segment, z.B. „Low-Latency“ stammen, jedoch unterschiedliche Anforderungen an den Snoop Modus
haben. Das bedeutet, dass die unterschiedlichen Snoop Modi mit der individuellen Anwendung getestet
werden müssen, um zu entscheiden, welche Einstellung aus Performance-Sicht optimal ist. Eine
Hilfestellung dazu gibt die Tabelle „Relative Snoop Mode Performance“ weiter unten in diesem Abschnitt.
Folgende Tabelle zeigt, wie die beiden verfügbaren BIOS-Optionen „COD Enable“ und „Early Snoop“
konfiguriert werden müssen, um den jeweils gewünschten Snoop Modus einzustellen.
BIOS-Option
Snoop Modus
Early Snoop (ES)
Cluster on Die (COD)
Home Snoop (HS)
COD Enable
Early Snoop
Disabled
Enabled
Disabled
Enabled
Disabled
Disabled
Die zur Verfügung stehenden Snoop Modi hängen von der eingesetzten CPU und der weiteren HardwareKonfiguration ab. Deshalb ist die Standard-Einstellung für die beiden Optionen im BIOS jeweils „Auto“. Das
sorgt dafür, dass abhängig von der verwendeten Hardware-Konfiguration immer ein möglichst optimaler
Snoop Modus eingestellt wird. Bei einer 2-Sockel Konfiguration führt die Standardeinstellung „Auto“ für beide
BIOS-Optionen zum „Early Snoop“ Modus.
Jeder Snoop Modus hat unterschiedliche Eigenschaften und Auswirkungen auf die Speicherbandbreite und
Speicherlatenz, abhängig davon, wie der Snoop Traffic erzeugt wird.
Details zu den einzelnen QPI Snoop Modi:
Cluster on Die (COD)
Der „Cluster on Die“ (COD) Modus teilt jeden Prozessor logisch in zwei
gleich große Cluster mit jeweils der Hälfte der insgesamt auf dem
Prozessor verfügbaren Cores und der Hälfte des verfügbaren L3
Caches auf. Für das Betriebssystem stellt sich somit ein einzelner
physikalischer Prozessor im „Cluster on Die“ Modus wie zwei separate
NUMA Nodes mit der, je nach Aufteilung, entsprechenden Anzahl
Cores und Größe des L3 Caches dar. In diesem Modus wird anhand
eines „on-die directory caches“ und anhand von „in-memory directory
bits“ abgewogen, ob ein Snoop gesendet werden muss oder nicht. Der
„Cluster on Die“ (COD) Modus wird speziell für NUMA optimierte
Anwendungen empfohlen, um
die niedrigstmögliche lokale
Speicherlatenz und höchstmögliche lokale Speicherbandbreite zu
erzielen. Unterstützt wird dieser Modus nur mit Intel Xeon E5-2600 v3
Prozessoren mit 10 oder mehr Cores und nur, wenn die BIOS-Option
„NUMA = Enabled“ konfiguriert ist (Standardeinstellung).
Home Snoop (HS)
Im Home Snoop Modus werden immer Snoops gesendet. Der
Unterschied zum Early Snoop Modus ist der Ursprung des Snoops.
Beim Home Snoop Modus wird der Snoop vom Home Agent gesendet.
Dieser Modus wird für NUMA Anwendungen empfohlen, die sensitiv
sowohl auf lokale als auch remote Speicherbandbreite reagieren.
Early Snoop (ES)
Im Early Snoop Modus werden, wie beim Home Snoop Modus, immer
Snoops gesendet. Die Snoops werden im Early Snoop Modus vom
Caching Agent gesendet. Dieser Modus wird für Anwendungen
empfohlen, die eine möglichst geringe Speicherlatenz oder geringe
Cache-zu-Cache Transferlatenz des Remote Sockels erfordern.
Dadurch, dass die Snoops in diesem Modus früher gesendet werden,
verringert sich die Speicherlatenz.
Ausnahme PRIMERGY RX2510 M1:
Die PRIMERGY RX2510 M1 ist nur mit der Hälfte der möglichen Speicherkanäle bestückt und unterstützt
aus diesem Grund den Snoop Modus Cluster on Die (COD) nicht. Das Einschalten („Enabled“) der BIOS
Option „COD Enable“ für die PRIMERGY RX2510 M1 führt zu Performance-Einbußen und sollte deshalb
vermieden werden.
Seite 16 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Relative Snoop Mode Performance
Intel Xeon E5-2600 v3 Prozessoren mit 10 oder mehr Cores; BIOS-Option „NUMA = Enabled“
Performance Metrik*
Early Snoop (ES)
Cluster on Die (COD)
Home Snoop (HS)
Geringste
L3 Cache Treffer Latenz
Gering
Gering
Gering
Lokale Speicherlatenz
Mittel
Hoch
Geringste
Remote Speicherlatenz
Gering - Hoch
Gering
Höchste
Lokale Speicherbandbreite
Hoch
Hoch
Hoch
Remote Speicherbandbreite
Mittel
Mittel
Intel Xeon E5-2600 v3 Prozessoren mit 10 oder mehr Cores; BIOS-Option „NUMA = Disabled“
Speicherlatenz
Gering
Gering
nicht unterstützt
Speicherbandbreite
Hoch
Hoch
Intel Xeon E5-2600 v3 Prozessoren mit weniger als 10 Cores; BIOS-Option „NUMA = Enabled“
L3 Cache Treffer Latenz
Gering
Gering
Geringste
Lokale Speicherlatenz
Gering
Geringste
Remote Speicherlatenz
nicht unterstützt
Gering
Lokale Speicherbandbreite
Hoch
Hoch
Hoch
Remote Speicherbandbreite
Gering
Intel Xeon E5-2600 v3 Prozessoren mit weniger als 10 Cores; BIOS-Option „NUMA = Disabled“
Geringste
Speicherlatenz
Gering
nicht unterstützt
Speicherbandbreite
Hoch
Hoch
*Für Latenz gilt: geringer ist besser. Für Bandbreite gilt: höher ist besser.
DDR Performance
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> Memory Configuration
DDR Performance
Performance
Performance
optimized
optimized
Energy optimized
Performance
optimized
Energy optimized
Diese BIOS-Option steuert die Geschwindigkeit, mit der die Speichermodule betrieben werden. Dabei muss
zwischen Performance und Energieverbrauch abgewogen werden. Die Einstellung „Performance optimized“
betreibt die DIMMs mit der maximal möglichen Geschwindigkeit, abhängig vom verwendeten CPU-Typ und
der Speicherbestückung (Aufschluss darüber gibt das White Paper Speicher-Performance Xeon E5-2600 v3
(Haswell-EP) basierter Systeme), und liefert dadurch die höchstmögliche Speicher-Performance. Die
Einstellung „Energy optimized“ begrenzt die Speicherfrequenz immer und unabhängig von Prozessormodell
und Speicherbestückung auf den minimalen Wert (1066 MHz) mit der geringsten elektrischen
Leistungsaufnahme. Neben den BIOS-Optionen für Speicher-Performance spielen der verwendete SpeicherTyp und die optimale Bestückung der DIMMs eine weitaus größere Rolle. Eine ausführliche Beschreibung
dazu sowie zu dem Thema NUMA (Non-Uniform Memory Access) findet man im White Paper SpeicherPerformance Xeon E5-2600 v3 (Haswell-EP) basierter Systeme (siehe Literaturliste am Ende des
Dokuments).
Patrol Scrub
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> Memory Configuration
Patrol Scrub
Disabled
Enabled
Enabled
Disabled
Enabled
Diese BIOS-Option schaltet das sogenannte Memory Scrubbing ein („Enabled“) oder aus („Disabled“),
welches unabhängig vom Betriebssystem im Hintergrund zyklisch auf den gesamten Hauptspeicher des
Systems zugreift, um Speicherfehler präventiv aufzuspüren und zu korrigieren. Der Zeitpunkt dieses
Speichertests ist nicht beeinflussbar und kann unter Umständen zu Performance-Einbußen führen. Das
Ausschalten („Disabled“) der Patrol Scrub Option erhöht die Wahrscheinlichkeit, bei aktiven Zugriffen durch
das Betriebssystem, auf Speicher Fehler zu stoßen. Solange diese Fehler korrigierbar sind, sorgt die ECC
Technologie der Speichermodule dafür, dass das System stabil weiterläuft. Zu viele korrigierbare Speicher
Fehler erhöhen jedoch das Risiko auf nicht-korrigierbare Fehler zu stoßen, die dann zum Systemstillstand
führen.
http://www.fujitsu.com/de/primergy
Seite 17 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Onboard USB Controllers
BIOS-Setup-Menü
BIOS-Option
Einstellungen
Performance Low-Latency Energieeffizienz
Advanced
> USB Configuration
Onboard USB
Controllers
Disabled
Enabled
Enabled
Enabled
Disabled
Der Chipsatz der PRIMERGY Server beinhaltet mehrere USB-Controller. Wenn auf den Einsatz von USBGeräten komplett (dies beinhaltet auch Maus und Tastatur) verzichtet werden kann, sollte die Einstellung für
diese BIOS-Option „Disabled“ sein. Dies spart Strom und erhöht die Sicherheit durch unerlaubten Zugriff
Unbefugter. Unabhängig von der Einstellung bleiben die USB-Controller während des Systemstarts aktiv (die
Deaktivierung erfolgt erst nach dem POST), so dass man auch bei der Einstellung „Disabled“ noch die
Möglichkeit hat per USB Tastatur ins BIOS-Setup zu gelangen um die Einstellung wieder zu ändern.
Seite 18 (20)
http://www.fujitsu.com/de/primergy
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Literatur
PRIMERGY Server
http://primergy.de/
Performance von Server-Komponenten
http://www.fujitsu.com/de/products/computing/servers/mission-critical/benchmarks/x86components.html
Dieses White Paper:
http://docs.ts.fujitsu.com/dl.aspx?id=f154aca6-d799-487c-8411-e5b4e558c88b
http://docs.ts.fujitsu.com/dl.aspx?id=b0877217-e9ef-4c7b-943d-299c0a4c4637
http://docs.ts.fujitsu.com/dl.aspx?id=2009eb5b-f273-4f1f-94ef-07f1d0304255
BIOS-Einstellungen für Performance, Low-latency und Energieeffizienz (für Xeon E5-2400/2600/4600
basierte Systeme)
http://docs.ts.fujitsu.com/dl.aspx?id=89630e4b-c3f6-414e-a44d-acdcd92e256f
BIOS-Optimierungen für Xeon E5-2600 v2 basierte Systeme
http://docs.ts.fujitsu.com/dl.aspx?id=0a62a369-241b-4de2-a970-41437aa4901b
Speicher-Performance Xeon E5-2600 v3 (Haswell-EP) basierter Systeme
http://docs.ts.fujitsu.com/dl.aspx?id=571dd497-136c-4699-90d2-adff5d33a74c
PRIMERGY Handbücher
http://support.ts.fujitsu.com/Manuals/Index.asp
PRIMERGY BIOS Downloads
http://support.ts.fujitsu.com/Download/Index.asp
SPECpower_ssj2008
http://www.spec.org/power_ssj2008
Benchmark-Überblick SPECpower_ssj2008
http://docs.ts.fujitsu.com/dl.aspx?id=66467935-98dc-4374-80b2-3ddae4c73491
SAP Server Power
http://global.sap.com/campaigns/benchmark/appbm_benchmarks.epx
VMmark V2
http://www.vmmark.com
Benchmark-Überblick VMmark V2
http://docs.ts.fujitsu.com/dl.aspx?id=ea18bef0-c1ff-46ae-81b3-c47811f866de
Operating System Performance Tuning Guidelines
Microsoft Windows
http://msdn.microsoft.com/en-us/library/windows/hardware/dn529134
RedHat Linux
https://access.redhat.com/articles/221153
https://access.redhat.com/documentation/enUS/Red_Hat_Enterprise_Linux/7/html/Performance_Tuning_Guide/
SUSE Linux
https://www.suse.com/documentation/sles11/pdfdoc/book_sle_tuning/book_sle_tuning.pdf
VMware vSphere
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
http://www.fujitsu.com/de/primergy
Seite 19 (20)
White Paper  BIOS-Optimierungen für Xeon E5-2600 v3 basierte Systeme
Version: 1.2  2015-11-26
Kontakt
FUJITSU
Website: http://www.fujitsu.com/de/
PRIMERGY Product Marketing
mailto:Primergy-PM@ts.fujitsu.com
PRIMERGY Performance und Benchmarks
mailto:primergy.benchmark@ts.fujitsu.com
© Copyright 2014-2015 Fujitsu Technology Solutions. Fujitsu und das Fujitsu Logo sind Handelsnamen und/oder eingetragene Warenzeichen von Fujitsu
Ltd. in Japan und anderen Ländern. Andere Firmen-, Produkt- und Servicebezeichnungen können Marken oder eingetragene Marken der jeweiligen
Eigentümer sein. Änderung von technischen Daten sowie Lieferbarkeit vorbehalten. Haftung oder Garantie für Vollständigkeit, Aktualität und Richtigkeit der
angegebenen Daten und Abbildungen ausgeschlossen. Wiedergegebene Bezeichnungen können Marken und/oder Urheberrechte sein, deren Benutzung
durch Dritte für eigene Zwecke die Rechte der Inhaber verletzen kann.
Weitere Einzelheiten unter http://www.fujitsu.com/de/resources/navigation/terms-of-use.html
2015-11-26 WW DE
Seite 20 (20)
http://www.fujitsu.com/de/primergy