Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre

Transcrição

Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre
Patagonia - Ein Mehrbenutzer-Cluster für
Forschung und Lehre
Felix Rauch
Christian Kurmann, Blanca Maria Müller-Lagunez,
Thomas M. Stricker
Institut für Computersysteme
ETH Zürich
Eidgenössische
Technische Hochschule
Zürich
1
25. März 1999
Forschungscluster
Bild: Distributed ASCI Supercomputer von Henri E. Bal
2
Charakteristiken eines
Forschungsclusters
• Schnelle Prozessoren (1 - 4 pro Knoten)
• Grosser Speicher (Haupt und Massenspeicher)
• Leistungsfähiges Netzwerk (Switches und Gigabit/s)
• Benutzungsmuster:
Tagsüber Entwicklung - Nachts Experimente
3
Schulungscluster
Bild: Patagonia Cluster ETH Zürich
4
Charakteristiken eines
Schulungsclusters
• Grosse Festplatten für umfangreiche Softwareinstallationen
• Betriebssysteme in Grundkonfiguration und spezieller
Konfiguration
• Grosse räumliche Ausdehnung
• Systemsicherheit:
• Installation und Daten vor Studenten
• Hardware vor Diebstahl
• Benutzungsmuster: Ausschliesslich tagsüber
5
Mehrbenutzer-Cluster
Beobachtung:
Beide Cluster haben ähnliche Anforderungen, aber
unterschiedliche Nutzungsmuster
These:
Ein einziger Cluster genügt
6
Inhalt
• Motivation
• Klassen von PC-Betriebssystemen bzgl. Sicherheit
• Hardware des Patagonia-Clusters
• Technologien für Patagonia:
• Multi-boot / Betriebssysteme
• Installation durch Klonen
• Sicherheit / Unterhalt
• Performance Evaluation (Images Klonen)
• Schlussfolgerungen
7
W
in
S
O
M
ac
O
be
ro
n
8.
do x
w
W
s
in
9x
do
w
U
s
N
IX NT
Klassifikation von PC Betriebssystemen
Netzwerkfähigkeit
o
o
o
+
+
Sicherheit
-
-
-
+
+
Getrennter Zustand
System/User Config.
-
-
-
-
+
8
Hardware
Raum mit 24 Maschinen:
• Intel Pentium II, 400 MHz
• 128 MB SDRAM
• Fast Ethernet Netzwerk
• 9 GB Ultra2 SCSI Festplatten
Davon 16 Maschinen mit:
• Zwei Prozessoren
• 256 MB SDRAM
• Gigabit Ethernet
9
System-Software
Schulung:
• Windows NT Deutsch
• Windows NT Englisch
• Oberon
Forschung:
• Linux
• Windows NT
• Oberon
10
Boot-Manager System Commander
11
Installation
Partitionierung
• Boot-Partition
0.020 GB
• Partitionen für Windows NT 4.0 Edu
2 x 2.0 GB
• Partitionen für Windows NT Research
2.5 GB
• Partition für Linux
1.0 GB
• Partitionen für Oberon
2 x 0.1 GB
• Reservepartition (Solaris, Oracle usw...)
• Kleine LINUX Service-Partition
(wünschenswert)
1.0 GB
0.25 GB
ca. 9 GB
12
Installation
Replikation durch “Klonen”
• Erstinstallation
1. Erstellen einer Master-Platte
2. Blockweises Kopieren der Master-Platte
• Klonen einzelner Images / Partitionen
1. Service-Betriebssystem Booten
2. Blockweises Kopieren der Images über Netzwerk
13
Konfiguration
Konfiguration der maschinenspezifischen Parameter
(IP Nummer, Hostname, Hostid)
• Manuell
• Automatisch über DHCP (mit Server)
• Automatisch anhand der Ethernet MAC-Adresse
mittels Tabelle
DHCP = Dynamic Host Configuration Protocol
MAC = Media Access Control
14
Sicherheit
Ziel: Sicherheit ohne Behinderung der Benutzer
Wird erreicht durch drei Stufen:
1 Booten mit System Commander
2 Partitionen voreinander schützen und verstecken
• Sperren mit Device Lock und Neuzuweisung zum
Laufwerksbuchstabe C (Windows NT)
• Mount-Tabellen (UNIX)
• Schreibgeschützte Partitionen plus Ramdisk
(Oberon)
3 Verwendung von Zugriffsrechten und
Autorisation bei zentralem Server
15
Unterhalt
• Cluster Administration Tool erlaubt Überblick über Cluster und remote boot
• Schnelles Netzwerk hilft bei Restauration von Partitionen und Updates
16
Netzwerkkonten für UNIX und Windows NT
Leistungsfähiger Sun-Server für:
• Home-Verzeichnisse über SMB (mit Samba) bzw.
NFS vom Sun-Server
• Autorisierung über speziellen Windows NT-Server
(NT-Clients) bzw. NIS vom Sun-Server (UNIX-Clients)
Konten-Generierung auf UNIX - Übername auf NT mit Scripts
Passwort-Synchronisation mit kommerziellem Programm Passync
SMB = Server Message Block Protocol
NFS = Network File System
NIS = Network Information Service (früher yellow pages)
17
Technische Limiten
• Schreiben auf Ultra2 SCSI Platte
ca. 20 MByte/s
(Seagate Cheetah write avg)
• Lesen von lokaler Festplatte
ca. 16 MByte/s
(Seagate Cheetah read avg)
• Lesen von remote Files (NFS)
21 MByte/s
(via UDP über Gigabit/s Ethernet)
• Dekomprimieren eines Images
12 MByte/s
(gunzip >/dev/null mit 400MHz)
• Übertragung Punkt zu Punkt
40 MByte/s
(Gigabit Ethernet via TCP)
• Totale Kapazität im Ethernet Switch
18
>3 GByte/s
Performance Evaluation (Klonen)
Netzwerk-Topologie Fast Ethernet
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
S
Hub
Hub
Hub
Switch
19
Hub
Ausführungszeiten Klonen
✦
✦
✦
✦
✦
3000
2500
✕
2000
✕
✕▲
▲
✕
▲
▲
15
1000
✕
●
✕
▲
10
1500
500
✕
Fast Ethernet
star/compressed
▲
Gigabit Ethernet
star/compressed
✦
Fast Ethernet
star/raw
●
Gigabit Ethernet
star/raw
✕
✕
20
5
0
1
2
Execution Time [s]
3500
Number of Nodes
Windows NT Partition über NFS
(2 GB raw, 1 GB compressed)
22
Auswirkungen der Hub/Switch-Topologie
Execution Time [s]
2500
2000
1500
1000
500
0
Gigabit Ethernet
(Pure-Switch)
Fast Ethernet
(Hub-Switch)
10 nodes
23
Fast Ethernet
(Hub-Switch)
20 nodes
Aggregate Bandwidth [MByte/s]
Totale Schreib-Bandbreite
140
●
120
100
●
80
60
●
40
20
0
■
●
■
●
▼
■▼
0
■
▼
■
▼
▼
5
10
15
Number of Nodes
20
24
●
Gigabit Ethernet
multi-drop/raw
▼
Fast Ethernet
star/compressed
■
Gigabit Ethernet
star/compressed
Schlussfolgerungen
• Erfolgreiche Installation und Inbetriebnahme eines
universellen Clusters für Forschung und Lehre
• Erleichterung von Wartung und Installation durch:
• Kleines Service-Betriebssystem
• Schnelle, grosse Festplatten
• Hochleistungs-Netzwerk
• Multi-boot Installationen geben grosse Flexibilität
• Klonen von ganzen Software Installationen als neue,
interessante Anwendung von Gigabit/s Netzwerken
(ausserhalb des parallelen und verteilten Rechnens)
25
Performance Evaluation (Klonen)
Netzwerk-Topologie Gigabit Ethernet
Giga
26