Coarse Grain Reconfigurable Architectures

Transcrição

Coarse Grain Reconfigurable Architectures
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
1
Falsch programmiert
TU Kaiserslautern
Die Kluft zwischen
Kultur und Zivilisation,
wurde schon in den 60ern
beklagt von Karl Steinbuch ….
Tag der Fakultät Informatik,
TU Dresden, 1. Juli 2008
Informatik
jenseits des
von-Neumann-Paradigma
Reiner Hartenstein
… neuerdings durch
Siegfried Wendt …
… katastrophales
BerufswahlVerhalten
© 2008, [email protected]
2
Die Kluft zwischen
Kultur und Zivilisation
TU Kaiserslautern
TU Kaiserslautern
http://hartenstein.de
Dramatiker aller Dramatiker
Anglist Dietrich Schwanitz über Shakespeare:
„Der Dramatiker aller Dramatiker,
der nächst Gott am meisten auf
dieser Welt geschaffen hat“
Wurde erneut bestätigt durch
Anglist Dietrich Schwanitz:
„Naturwissenschaftliche Kenntnisse
müssen zwar nicht versteckt werden,
aber zur Bildung gehören sie nicht.“
haben „diese Welt“
stärker verändert
„artes mechanicae“: laut Aristoteles keine Bildung.
„So darf man über
Literatur nicht schreiben“
Banause: von bánausos (griechisch βάναυσος von baunos, βαῦνος, „Ofen“, ...
© 2008, [email protected]
TU Kaiserslautern
3
http://hartenstein.de
Die Kluft zwischen
Software und Configware
Configware-Kenntnisse müssen zwar nicht versteckt werden,
aber zum zertifizierten Kern-Kurrikulum gehören sie nicht
(Obwohl für normale Informatiker die
Hardware-Leute sonst keine Banausen sind)
Joint Task Force for Computing Curricula: unser Aristoteles ?
© 2008, [email protected]
5
http://hartenstein.de
4
© 2008, [email protected]
TU Kaiserslautern
1.
2.
3.
4.
5.
6.
Foto: dpa.
http://hartenstein.de
>> Gliederung <<
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
6
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
TU Kaiserslautern
1.
2.
3.
4.
5.
6.
[email protected]
29 June 2008
2
Vorwort
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
Reconfigurable Computing (RC)
TU Kaiserslautern
Dresdner Informatik
hervorragend vertreten
1. Was Reconfigurable Computing heute bedeutet
Wertvoll wäre Ihre Mithilfe
beim Sturm auf die Festung
der “curriculum task force”
2. Was wir aus der Geschichte lernen können
3. Das aktuelle Problem: der bisher dramatischste Umbruch
4. Mehrfache Ursachen der nun eskalierenden Probleme
5. Didaktische Ansätze zur dringenden Reform der Kurrikula
7
© 2008, [email protected]
http://hartenstein.de
Become an FPGA engineer ?
TU Kaiserslautern
sehr gesuchte Leute:
[FPGA journal (newsletter)]
Eingebettete Software
99% aller Mikroprozessoren
typische Absolventen
sitzen in eingebetteten Systemen:
sind nicht qualifiziert
fast 25 Mrd.
für diesen Arbeitsmarkt
2
Faktor
Bis 2010 werden
mehr als 10 mal mehr
Programmierer eingebettete
Anwendungen schreiben, als
“normale” Computer Software.
ConfigwareKenntnisse sind 1
unverzichtbare
Qualifikation am
IT-Arbeitsmarkt
geworden.
[Rammig„s Gesetz]
1
0
© 2008, [email protected]
http://hartenstein.de
TU Kaiserslautern
9
http://hartenstein.de
Computing Curricula 2004
TU Kaiserslautern
ignoriert FPGA & RC
of Trade and Industry, London
10
© 2008, [email protected]
12
18
10
Monate
http://hartenstein.de
Field-Programmable Gate Array FPGA
TU Kaiserslautern
“Draht” formen
Joint Task Force for Computing Curricula 2004
ACM Education Board.
AIS Association for Information Systems
IEEE Computer Society‟s EAB
(+ ABET‟s Computing Accreditation Commission)
*) Department
CLB anschließen
Reconfigurable
Computing (RC)
ist seit Jahren
“mainstream” bei
Eingebetteten
Systemen.
8
© 2008, [email protected]
CLB
A
CLB
CLB
CLB
CLB
B
CLB
sogar hier
CLB
C
© 2008, [email protected]
11
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
12
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
RAM-basiert
TU Kaiserslautern
0
0
0
0
3
Configware-Kode-Eingang
Plattform-FPGA
8 – 32
schnelle
serielle I/OKanäle
56 – schnelle on424
chip Block
RAMs:
BRAMs
TU Kaiserslautern
256 – 1704 BGA
mit Flash “hidden RAM”
kein wiederholtes “Booting”
0
[email protected]
29 June 2008
DPUs
Configware-Kode wird
vor der Laufzeit von außen
in das “hidden RAM” geladen
1
Teil des FF
“hidden RAM”
es gibt auch partiell
rekonfigurierbare FPGAs
13
© 2008, [email protected]
TU Kaiserslautern
[courtesy Lattice
Semiconductor]
http://hartenstein.de
Plattform-FPGA (DSP)
SoC möglich
[courtesy Xilinx Corp. (modifiziert)]
500MHz PowerPC™ Processors
(680DMIPS)
with
Auxiliary Processor Unit
auch unterstützt durch partiell rekonfigurierbare Plattformen
Chuck Thacker,
Microsoft
Technical Fellow
(Lab in Cambridge)
500MHz DCM Digital
Clock Management
Experten in
Ihrer Fakultät
0.6-11.1Gbps
Serial Transceivers
1Gbps Differential
I/O
Marco Platzner,
Universität
Paderborn
500MHz Programmable DSP
Execution Units wie z.B. MAC
© 2008, [email protected]
Configware-Betriebssysteme
TU Kaiserslautern
500MHz multi-port
Distributed 10 Mb SRAM
500MHz Flexible
Soft Logic Architecture
200KLogic Cells
15
Multiply and ACcumulate
2004, 1.2V, 90nm
http://hartenstein.de
Geschichte der Datenverarbeitung
• Prototyp: 1884
Herman Hollerith
Der erste rekonfigurierbare Computer
TU Kaiserslautern
17
http://hartenstein.de
… und andere
http://hartenstein.de
Configware-Programmierung
TU Kaiserslautern
Prototyp: 1884, Herman Hollerith
• manuell
(Configuration)
• oder, durch Austausch
vorprogrammierter
Steckbretter
DPU
• Das erste
Xilinx FPGA
kam 100
Jahre später
Jürgen Becker
16
© 2008, [email protected]
• Datenstrom-basiert
© 2008, [email protected]
http://hartenstein.de
insbesondere für dynamisch rekonfigurierbare Systeme
Akzelerator
CPU
14
© 2008, [email protected]
(Reconfiguration)
60 Jahre später:
RAM verfügbar –
z.B. Ferritkern
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
J. v N, 1946
dann: Motivation für das vonNeumann-Machinen-Paradigma
18
http://hartenstein.de
>> Gliederung <<
TU Kaiserslautern
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
4
Die von-Neumann-Revolution
TU Kaiserslautern
19
Programm-Ebene
Programm-Ebene
Betriebssystem-Ebene
Prozessor-Speicher-Ebene
RT-Ebene
Logik-Ebene
etc.
http://hartenstein.de
die VLSI Revolution
TU Kaiserslautern
20
© 2008, [email protected]
publiziert: 1946
1. US CS dept. 1962
Purdue University
Begriff v.: CS: George Forsythe 1961,
*) schafft Platz für
die Mathematik
http://hartenstein.de
Mikroelektronik-Entwurfs-Revolution
Um davon zu lernen
TU Kaiserslautern
Wissenschaftliche
Szenen gehorchen
dem Herdentrieb …
Anwendung
…bis dramatische
Änderungen der
Randbedingungen
einen Umbruch
erzwingen
RT-Ebene
Logik-Ebene
Switching-Ebene
VLSI-Revolution
Carver Mead:
Design muß eine
eigene Disziplin sein
Thomas Kuhn
Anwendung
Anwendung
2. Was wir aus der Geschichte lernen können
© 2008, [email protected]
Das geniale Modell fördert
die Entrümpelung
der Lehre im Grundstudium*:
Das Problem der
vielen Kernfächer:
Technologen:
das Bißchen Design
erledigen wir mit Links
© 2008, [email protected]
1980
21
µP-Anwender*:
mehr Durchsatz
durch Warten auf
die nächste Generation
http://hartenstein.de
Mikroelektronik-Entwurfs-Revolution
Anwendung
Layout-Ebene
Technologie-Ebene
Technologie
Logik-Ebene
Switching-Ebene
Schaltkreis-Ebene
© 2008, [email protected]
Schaltkreis-Ebene
Layout-Ebene
Technologie-Ebene
22
© 2008, [email protected]
23
Carver Mead
Lynn Conway
Software
Mainframe-Zeitalter:
RAM
memory
CPU
Mikroprozessor-Zeitalter:
(heterogenes Modell)
Befehlsstrombasiert
CPU
DPU
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
Datenstrombasiert
Akzelerator
Ko-Prozessoren
ProgrammZähler
von Neumann
Befehlsstrombasierte Maschine
http://hartenstein.de
http://hartenstein.de
v. N. ist nicht mehr das allgemeine Modell
TU Kaiserslautern
tall thin man
RT-Ebene
automotive*: >10 Mrd.$ 2010
*) i. W. Programmierer
TU Kaiserslautern
Anwendung
Entrümpelung notwendig
Hardware
1.
2.
3.
4.
5.
6.
[email protected]
29 June 2008
von Neumann
Modell
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
VLSI Revolution: wieso?
steigender Bedarf an Akzeleratoren
24
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
5
Entwicklungskosten-Krise
TU Kaiserslautern
TU Kaiserslautern
zur Terminologie:
ASIC
Application-Specific Integrated Circuit
Moore‟s Gesetz ist nicht
anwendbar auf alle Aspekte
ASIC
Akzelerator
Entwicklungskosten-Krise
VLSI-Revolution
Carver Mead:
Design muß eine
eigene Disziplin sein
ein Mikroelektronik-Marktsegment für etwas
kostengünstigere Hardware-Entwicklungen
Xilinx
Technologen:
das Bißchen Design
erledigen wir mit Links
1984
25
© 2008, [email protected]
http://hartenstein.de
© 2008, [email protected]
http://hartenstein.de
FPGAs statt ASICs
Niedergang der ASICs
TU Kaiserslautern
26
TU Kaiserslautern
hohe Maskenkosten
FPGAs vom Regal statt
maßgeschneiderte ASICs
FPGA-Marktvolumen 4 Mrd $-
[Nick Tredennick]
neue Prozeßlinien
verteuern die Herstellung
eskalierende VLSIEntwurfskosten
© 2008, [email protected]
starker Rückgang an
Entwurfs-Projekten
27
http://hartenstein.de
Software-zu-Configware-Migration
TU Kaiserslautern
einige publizierte speed-up-Faktoren [2000– 2008]
mainstream seit einem Jahrzehnt
fastest growing segment …
“Hardware”-Leute werden
zu Programmierern
© 2008, [email protected]
28
Speedup-Faktor
103
xputer
Accelerator bord from Bruchsal
Speed-up:
x 3 000
DES
breaking
52 BLAST
crypto
1000
400
288
100
1000
© 2008, [email protected]
MAC means
Multiply and
ACcumulate
29
88
3000
Viterbi Decoding
Smith-Waterman
pattern matching
molecular dynamics simulation
heute:
Bioinformatik
PlattformAstrophysik
FPGAs !
GRAPE
protein identification
20
2400
MAC
FFT
100
16 FPGAs
28500
DSP and drahtlos
real-time face detection
6000
Reed-Solomon Decoding
video-rate stereo vision
pattern recognition 730
900
SPIHT wavelet-based image compression 457
40
http://hartenstein.de
http://hartenstein.de
TU Kaiserslautern
106
Bildverarbeitung,
Pattern matching,
Multimedia
automotive*: >10 Mrd.$ 2010
Morphware
“Hardware”-Entwurf auf
einer seltsamen Plattform
“schrumpfende
ProduktLebenszyklen
Quelle: Gilder Technology Report (Nick Tredennick, USA, 2003)
• 1.5 TeraMAC/s
• I/O bandwidth: 50 GByte/s
Tera means 1012 or
1 000 000 000 000
(1 trillion)
deutsch: eine Billion
• manufactured by SIEMENS at Bruchsal
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
30
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
Demonstrating the intensive Impact
(FPGA-based speed up and power saving)
TU Kaiserslautern
Platform (compared
to Beowulf cluster)
SDC-6
Cray XD-1
SGI Altix 4700
with RC 100 RASC
?
Speed-up
factor
6757
12162
Power saving
factor
856
608
28514
3439
[email protected]
29 June 2008
6
Reconfigurable Supercomputing
TU Kaiserslautern
Silicon graphics
Reconfigurable
ApplicationSpecific
Computing
(RASC™)
Cray XD1
DES breaking [T. Elghazawi et al.: IEEE COMPUTER, Febr. 2008]
•Xilinx Virtex-II Pro
•Bibliothek von Cray
Verschlüsselung auf von Neumann wird unbezahlbar
© 2008, [email protected]
31
http://hartenstein.de
© 2008, [email protected]
Daten treffen den Prozessor (CPU)
TU Kaiserslautern
Veranschaulichung der Migration
ineffizienter
Transport über OffChip-Speicher durch
Speicherzyklenhungrige
Befehlsströme
mittels
Software
Supercomputing
2007, Reno, NV
9600 reg. Teiln.
440 Aussteller
TU Kaiserslautern
32
http://hartenstein.de
Daten treffen die PU
Veranschaulichung der Akzeleration
Plazierung des Ort
der Ausführung (PU)
im Pipe-Netzwerk generiert
d. d. Configware-Compiler
Dies ist nur eines von
vielen von Neumann-
mittels
Configware
Overhead-Phänomenen
© 2008, [email protected]
TU Kaiserslautern
33
http://hartenstein.de
Welche Form der Parallelität?
(Veranschaulichung)
[Hartenstein’s
Gießkannen-Modell]
Befehlsstrom-basierte Lösung:
Datenstrom-basierte Lösung:
kein von
NeumannEngpaß
viele von
Neumann
Engpässe
© 2008, [email protected]
35
http://hartenstein.de
© 2008, [email protected]
TU Kaiserslautern
1.
2.
3.
4.
5.
6.
34
http://hartenstein.de
>> Gliederung <<
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
3. Das aktuelle Problem: der bisher dramatischste Umbruch
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
36
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
7
TU Kaiserslautern
TU Kaiserslautern
chicken
intel‘s strong oxen unter
Strong chicken
Andy Grove und Craig Barret
relative Taktfrequenz
© 2008, [email protected]
3 Größenordnungen
Laptop mit
Wasserkühlung?
Pentium 4
103
8080
100
1980
37
1990
2000 http://hartenstein.de
2010
Paradigmen-Zusammenbruch ?
TU Kaiserslautern
2005: das
GHz-TaktfrequenzWettrennen bendet
Relative clock speed
103
Pentium 4
8080
100
1980
© 2008, [email protected]
38
2005
1990
http://hartenstein.de
2000
2010
Many-core: Break-through or Breakdown?
TU Kaiserslautern
Die Industrie steht an einem Wendepunkt
zu einem völlig neuen Entwurfs-Ökosystem
Zusammenbruch?
Multi-core-Mikroprozessoren sind angekündigt:
mit bald 32 cores (AMD) oder 80 cores (intel).
Nicht plötzlich: denn
ein nachhaltiger
Zerfall der MIPS
ab Mitte der 90er
µP Verlustleistungs- und Architektur-Krise
“Parallelism running out of steam for >4 cores”
[Gary Smith]
Entwicklungskosten-Krise
Multi-threading, transactional memory, register renaming, spekulative Tricks, vielf. Superskalarität,
out-of-order Befehlsausf…: keine Wunderwaffen.
intel’s vision:
MultiCore
VLSI-Revolution
intel und Sun keynotes [DAC‟08] räumen ein: Schwierigkeiten
der Manycore-Programmierung, das Fehlen geeigneter
Software, und Drosselung durch Speicher-Latenzzeit.
Zusätzliche sehr ernste
Carver Mead:
Probleme durch den Design muß eine
abrupten Wechseleigene
zurDisziplin sein
Manycore-Strategie
Technologen:
Aus der Supercomputing-Szene sind nur wenige Spezialisten
teuer verfügbar, nur für wenige spezielle Anwendungsgebiete.
das Bißchen Design
erledigen wir mit Links
© 2008, [email protected]
Hier:
Stop!
chicken
intel‘s <1024 oxen
unter neuem CEO
39
http://hartenstein.de
Klima-Wandel
TU Kaiserslautern
40
© 2008, [email protected]
TU Kaiserslautern
*) a Hail Mary pass
in American football
is a forward pass
made in desperation,
with a very small
chance of success
http://hartenstein.de
Dave Patterson staunt
Methods for supporting
manycore could reset
microprocessor hardware
and software roadmaps
for the next 30 years
„intel has thrown a Hail Mary
pass and nobody is running yet“.
„Die gesamte IT Industry hat auf ihre Zukunft gewettet,
daß das Problem der Parallel-Programmierung gelöst wird."
ein Jahr später :„I am still astonished about that"
Der Einsatz ist hoch. Wenn die Forschung keine effizienten
Parallel-Techniken findet, wird die Programmierung so schwierig,
daß die Leute von der neuen Hardware keinen Vorteil haben.
from growth industry to replacement industry
Aus der Wachstums-Industrie würde eine Ersatzteil-Industrie
© 2008, [email protected]
41
Wawrzynek missing
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
42
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
8
>> Gliederung <<
Akzeleratoren unvermeidbar
TU Kaiserslautern
Solche Akzeleratoren können bewährte Technologien nutzen,
um kleinere Märkte anzugehen, sogar Nischen-Märkte
Prozessoren zusammen mit Akzeleratoren können immer noch
Standard-Software und deren Werkzeuge nutzen
Wir brauchen eine Zwillings-Paradigmen-Strategie, die das
von-Neumann-Paradigma mit dem Grundmodell der Akzeleratoren
kombiniert
43
© 2008, [email protected]
http://hartenstein.de
Das von Neumann Syndrom
TU Kaiserslautern
Konsequenzen mehrfacher
Overhead-Phänomene:
1. weniger Rechenleistung
durch mehr Transistoren
2. Software-Kodegrößen mit
astronomischen Dimensionen
3. unbezahlbarer Energie-Verbrauch
45
© 2008, [email protected]
http://hartenstein.de
Computational Density (2)
TU Kaiserslautern
1.
2.
3.
4.
5.
6.
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
4. Mehrfache Ursachen der nun eskalierenden Probleme
44
© 2008, [email protected]
http://hartenstein.de
Decline of Computational Density
TU Kaiserslautern
Architektur-Overhead
[Wawrzynek; Sep 8, 2005, GSRC Symposium (GSRC’05) ]
200
SPECfp2000/MHz/Billion Transistors
Wir müssen zunehmend programmierbare Akzeleratoren
als Ko-Prozessoren hinzunehmen
alpha: down by 100x in 6 yrs
IBM: down by 20x in 6 yrs
TU Kaiserslautern
[BWRC, UC Berkeley, 2004]
175
150
125
100
75
50
25
HP
0
1990
© 2008, [email protected]
1995
2000
46
2005
http://hartenstein.de
Das von Neumann Syndrom
TU Kaiserslautern
Konsequenzen mehrfacher
Overhead-Phänomene:
[BWRC, UC Berkeley, 2004]
[Wawrzynek; Sep 8, 2005, GSRC Symposium
(GSRC’05) ]
2. Software-Kodegrößen mit
astronomischen Dimensionen
x 0.1 in 4 Jahren
1999
1996
© 2008, [email protected]
1. weniger Rechenleistung
durch mehr Transistoren
47
1999
3. unbezahlbarer Energie-Verbrauch
2000
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
48
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
9
The “Memory Wall ”
massive Overhead-Phänomene
TU Kaiserslautern
von Neumann
CPU
wird akkumuliert zu Kode-Paket-Größen
astronomischer Dimensionen
einzelne CPU
overhead
instruction fetch
state address computation
data address computation
data meet PU + other overh.
i/o to/from off-chip RAM
von NeumannMaschine
Befehlsstrom
Befehlsstrom
Befehlsstrom
Befehlsstrom
Befehlsstrom
von Neumann-Syndrom
49
http://hartenstein.de
von Neumann-Overhead: ein Beispiel
CPU
single CPU
data address computation
data meet PU + other overh.
i / o to / from off-chip RAM
rDPU
rDPU
rDPU
© 2008, [email protected]
50
http://hartenstein.de
Das von Neumann Syndrom
TU Kaiserslautern
instruction fetch
state address computation
rDPU
schneller On-chip-Speicher ist viel
zu klein für derartige Kode-Pakete
mit astronomischen Dimensionen
langsame off-Chip-Speicher
erlauben keinerlei Umgehung
der Memory Wall
TU Kaiserslautern
Overhead
[Win. Wulf, Sally McKee,1994]
[C.V. “RAM” Ramamoorthy]
Dijkstra 1968: The Goto considered harmful
R.H. & Koch 1975: The universal Bus considered harmful
Backus, 1978: Can programming be liberated from the von Neumann style?
Arvind et al., 1983: A critique of Multiprocessing the von Neumann Style
© 2008, [email protected]
TU Kaiserslautern
von NeumannMaschine
Befehlsstrom
Befehlsstrom
Befehlsstrom
Befehlsstrom
Befehlsstrom
(Gesamtprojekt:
15000x speed-up)
PISA DRC Akzelerator [ICCAD 1984]
(im E.I.S-Projekt)
rekonfigurierbarer Address- Generator
(GAG): ~20x speed-up
© 2008, [email protected]
51
http://hartenstein.de
Konsequenzen mehrfacher
Overhead-Phänomene:
1. weniger Rechenleistung
durch mehr Transistoren
2. Software-Kodegrößen mit
astronomischen Dimensionen
3. unbezahlbarer Energie-Verbrauch
© 2008, [email protected]
Energie als Strategie-Thema
TU Kaiserslautern
TU Kaiserslautern
52
Grüne
Computer?
nur ~ Faktor 3
Brauchen wir
Kohle für das
Internet?
(2005)
• Google„s jährliche Stromrechnung: > 50,000,000 $
http://hartenstein.de
aktueller
Wert
26. 6. 2008
Akzeleratoren !
• Amsterdam„s Stromverbrauch: 25% geht in Server-Farmen
• NY city Server-Farmen: 1/4 km2 Gebäude-Nutzfläche
© 2008, [email protected]
53
53
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
54
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
10
>> Gliederung <<
Software-zu-Configware-Migration (2)
TU Kaiserslautern
(speed-up- und) teils Energiespar-Faktoren
Speedup-Faktor
106
xputer
103
28500
DSP und drahtlos
real-time face detection
6000
Reed-Solomon Decoding
video-rate stereo vision
pattern recognition 730
900
SPIHT wavelet-based image compression 457
*) verbesserungsfähig
100
DES
breaking
Bildverarbeitung,
Pattern matching,
Multimedia
@10
© 2008, [email protected]
MAC
1000
400
288
100
FFT
52 BLAST
protein identification
20
88
2400
crypto
3000
1000
Viterbi Decoding
Smith-Waterman
pattern matching
molecular dynamics simulation
40
Bioinformatik
Astrophysik
GRAPE
55
TU Kaiserslautern
1.
2.
3.
4.
5.
6.
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
5. Didaktische Ansätze zur dringenden Reform der Kurrikula
http://hartenstein.de
Für Manycore das falsche Modell
TU Kaiserslautern
56
© 2008, [email protected]
TU Kaiserslautern
http://hartenstein.de
Was ist Dichotomie ?
Die „memory wall“: das Haupt-Problem kann nicht
gelöst werden durch neue CPU-Architekturen
Das vN Paradigma ist kein Kommunikations-Paradigma
Wir brauchen ein zweites Maschinen-Paradigma
Wir brauchen ein Kommunikations-Paradigma
Dichotomie = wechselseitige Zuordnung
zweier gegensätzlicher Domänen,
wobei eine Dritte daneben ausgeschlossen ist.
Wir brauchen beide Paradigmen:
zwecks bester Kohärenz eine intuitive Dichotomie
Wir brauchen ein Zwillings-Paradigma
57
57
http://hartenstein.de
(Dichotomie-Beispiel)
Christophe Bobda
TU Kaiserslautern
Paul Dirac (1928, Nobelpreis 1933): “There are regions
in the universe, which consist of antimatter .....
Anwendung
Artefakte, in Beschleunigern synhetisiert (1955 – 1995)
Aber in der Informatik gibt es die Antimaterie
schon: die Antimaterie der Informatik
(CERN 1995)
Reconfigurable Computing beruht
auf dieser Antimaterie
Paul Dirac: “Aber es gibt Asymmetrien”
Informatik: nur eine!
*) außer Positronen (Höhenstrahlung)
© 2008, [email protected]
59
von Neumann
Paradigma
Programm-Ebene
gesucht*
von Neumann
Modell
Nach “echter” Antimaterie wird noch heute
http://hartenstein.de
Reconfigurable Computing Revolution
(Materie und) Anti-Materie
TU Kaiserslautern
58
© 2008, [email protected]
Antimaschinen
Paradigma
© 2008, [email protected]
Zwillings-Paradigma
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
60
Reconfigurable
Computing
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
[email protected]
29 June 2008
11
Die Dichotomie: Materie und Antimaterie
TU Kaiserslautern
Anwendung
Materie
Antimaterie
von Neumann
Paradigma
CPU
ProgrammZähler
Dichotomie
61
© 2008, [email protected]
-
Antimaschinen
Paradigma
Programm-Ebene
+
-
Aber es gibt eine Asymmetrie:
TU Kaiserslautern
+
ASM
DatenZähler
http://hartenstein.de
Doppelte Dichotomie
TU Kaiserslautern
CPU
+
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
rDPU
TU Kaiserslautern
von-Neumann
Anti-Maschine
(Software-Domäne)
(Flowware-Domäne)
Datenstrom
Relativitäts-Dichotomie
Raum
Zeit
Prozedur
Struktur
(Software-Domäne)
© 2008, [email protected]
(Configware-Domäne)
63
http://hartenstein.de
rDPA
-
62
http://hartenstein.de
Doppelte Dichotomie
1.) Prozedurale Dichotomie
Datenstrom-Domäne
CPU
ASM
ProgrammZähler
DatenZähler
(Befehls-prozedural)
(Daten-prozedural)
imperative
Software-Sprache
© 2008, [email protected]
systolische
Flowware-Sprache
64
http://hartenstein.de
Wer erzeugt die Datenstrüme?
TU Kaiserslautern
imperative Software-Sprachen
systolische Flowware- Sprachen
read next data item
goto (data address)
jump to (data address)
data loop
data loop nesting
data loop escape
data stream branching
yes: internally parallel loops
read next instruction
goto (instruction address)
jump to (instruction address)
instruction loop
instruction loop nesting
instruction loop escape
instruction stream branching
no: internally parallel loops
Ohne
Sequenzierer
ist es keine
Maschine !
x
x x
x x x
x x |
x | |
x x x
x x x -
65
http://hartenstein.de
- - - x xx
- - - - xx x
- - - - - x x x
x x x - -
Aber es gibt eine Asymmetrie
© 2008, [email protected]
ASM
+
Befehlsstrom-Domäne
Dualität prozeduraler Sprachen
TU Kaiserslautern
1st data-stream-based computer (Hollerith)
1st instruction stream computer (Konrad Zuse)
von Neumann machine paradigm defined
1st microprocessor (Ted Hoff)
„data streams“ def. (systolic array: Kung / Leiserson)
anti machine paradigm published
rDPA / DPSS (supersystolic array: Rainer Kress)
+
© 2008, [email protected]
Dichotomie der Maschinen-Paradigmen
Befehlsstrom
1884
1936
1946
1971
1979
1990
1995
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
66
|
|
|
|
|
|
|
|
|
x | |
x x |
x x x
x x
x
http://hartenstein.de
TU Kaiserslautern
x
x
x
ASM
x x x
x x x -
ASM
x x x - -
ASM:
|
|
|
|
|
|
|
|
|
|
x
x
x
Der Datenzähler:
plaziert im Speicher**
(nicht beim Datenpfad***)
|
|
ASM
© 2008, [email protected]
x
x
x
|
x
x
x
AutoSequencing
Memory
|
mehrere Datenzähler statt
eines Programmzählers
|
x
x
x
- - - x x x
ASM
- - - - x x x
ASM
- - - - - x x x
ASM
Datenströme
GAG
[Kung et al. 1979]
12
Doppelte Dichotomie
TU Kaiserslautern
Dichotomie der Maschinen-Paradigmen
von-Neumann
Anti-Maschine
(Software-Domäne)
(Flowware-Domäne)
67
Datenstrom
Befehlsstrom
Relativitäts-Dichotomie
RAM
*) vorzugsweise grobkörnig:
wie z. B. mittels Plattform-FPGA
**) normalerweise on-chip
***) nicht wie bei der CPU
http://hartenstein.de
Nick Tredennick‟s Perspektive
Raum
Zeit
Datenzähler
TU Kaiserslautern
Prozedur
Struktur
(Software-Domäne)
(Configware-Domäne)
68
© 2008, [email protected]
http://hartenstein.de
Relativitäts-Dichotomie
TU Kaiserslautern
Zeit-Domäne:
Software Engineering
CPU
Software
(Befehlsströme)
resources: fixed
algorithm: variable
Configware
Flowware
(Datenströme)
resources: variable
algorithm: variable
© 2008, [email protected]
(Maschinen-Dichotomie)
1 Programm
Quelle nötig
2 Programm
Quellen nötig
69
http://hartenstein.de
Zeit zu Raum Abbildung
TU Kaiserslautern
Zeit-Domäne:
Prozedur-Domäne
Struktur-Domäne
Raum
Zeit
3 Phasen:
1) Rekonfiguration
von Strukturen
2) Programmierung
von Datenströmen
3) Laufzeit
2 Phasen:
1) Programmierung
v. Befehlsströmen
2) Laufzeit
© 2008, [email protected]
70
http://hartenstein.de
Die Kollision der Paradigmen
TU Kaiserslautern
Raum-Domäne:
Struktur-Domäne
Zeit-Algorithmus
Raum-Algorithmus
Pipeline
Programmschleife
n Zeitschritte, 1 CPU
1 Taktschritt, n DPUs
Shuffle Sort
Bubble Sort
n x k Zeitschritte,
1 „conditional
x
swap“ unit
y
k Taktschritte,
n „conditional
swap“ units
conditional
swap
”you can never
teach hardware
to a programmer”
“you can always
teach programming
to a hardware guy”
conditional
swap
conditional
swap
conditional
swap
Dies ist die Schuld unserer Kurrikula
Raum- / Zeit-Algorithmus
Zeit-Algorithmus
© 2008, [email protected]
Raum-Domäne:
Prozedur-Domäne
Configware Engineering
(Struktur)
conditional
swap
[email protected]
29 June 2008
programmiert durch Flowware
ASM
ASM
x
x
x
ASM
(r)DPA*
Die Anti-Maschine
ASM
ASM
ASM
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
71
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
72
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
TU Kaiserslautern
Lehre ohne “connected thinking”
zu vermeiden
strukturell
[email protected]
29 June 2008
13
Lehre mit “connected thinking”
TU Kaiserslautern
prozedural und
strukturell
prozedural
CPU
prozedural (nur)
CPU
DPU
(hardwired)
DPU
Befehlsstrombasiert
Tear down this wall !
© 2008, [email protected]
ProgrammZähler
dirigiert durch den
Programmzähler
73
http://hartenstein.de
Co-Compilation
TU Kaiserslautern
C, FORTRAN, MATHLAB
rDPU
DPU
ASM
Befehlsstrombasiert
Datenstrom
-basiert
data
counter
dirigiert durch by
Datenzähler
dirigiert durch den
Programmzähler
74
© 2008, [email protected]
ProgrammZähler
http://hartenstein.de
grobkörnig rekonfigurierbarer Array
TU Kaiserslautern
SNN Filter auf supersystolischem Array (i. W. Pipeline-Netzwerk)
rout thru only
automatic SW / CW partitioner
software
compiler
Software /
Configware
Co-Compiler
keine CPU
mapper
configware
compiler
data scheduler
rDPU
rekonfigurierbare
Data Path Unit,
32 Bits breit
Legend:
software code
© 2008, [email protected]
configware code
75
flowware code
http://hartenstein.de
Beton-Wand im Gehirn
TU Kaiserslautern
Nach dem Vortrag* springt sofort ein VIP hoch:
„But you can„t implement decisions!“
Diese peinliche Bemerkung kam von einem top level
F&E-Manager eines IT-Weltkonzerns (späte 90er)
rDPU not used
backbus connect
used connect
for routing only
backbus
© 2008, [email protected]
76
© 2008, [email protected]
77
http://hartenstein.de
http://hartenstein.de
„But you can„t implement decisions!“
Software zu
Configware
S = R + (if C then A else B endif);
Migration:
section of a very
large pipe network:
R B A
C =1
decision box turns
into a multiplexer*
im Jahr 1971**:
“That’s so simple!
why did it take 30
years to find out?”
völlig fehlendes Gespür für Dichotomien
*) RAW workshop, late 90ies at Orlando, Florida
port used
location marker
not
TU Kaiserslautern
Man sieht sofort die Beton-Wand im Gehirn:
nicht vertraut mit ganz einfachen Uralt-Weisheiten:
operator and routing
Array-Größe: 10 x 16 rDPUs
Generiert mit Nageldinger„s KressArray Xplorer (Jürgen Becker„s CoDe-X inside)
+
**) die HDL-Szene
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
W. A. Clark: 1967 SJCC, AFIPS Conf. Proc.
C. G. Bell et al: IEEE Trans-C21/5, May 1972
78
http://hartenstein.de
Reiner Hartenstein, TU Kaiserslautern, Germany
http://hartenstein.de
TU Kaiserslautern
1.
2.
3.
4.
5.
6.
>> Gliederung <<
Reconfigurable Computing
Allgemeine Randbedingungen
Die Manycore-Krise
Das von-Neumann-Syndrom
Dichotomien des Zwillings-Paradigma
Schlußfolgerungen
© 2008, [email protected]
79
http://hartenstein.de
TU Kaiserslautern
14
Schlußfolgerungen
TU Kaiserslautern
Kurrikulum-Task Forces haben die Wichtigkeit Eingebetteter Systeme
vernachlässigt und die Bedeutung der FPGAs völlig ignoriert.
Wir befürchten, daß auch die in Folge der Manycore-Krise gegebene
Unabdingbarkeit programmierbarer Akzeleratoren ignoriert wird.
Zuhörer und Leser werden hierzu dringend aufgefordert,
bei allen Gelegenheiten als Lobbyist aktiv zu werden
… die solche
Für dieses Ausbildungs-Dilemma brauchen
Betonwände
wir durchschlagende duale Lösungen …
durchschlagen
Ein effizientes didaktisches Konzept wurde vorgeschlagen
Die Ausarbeitung und Durchführung solche Probleme lösender
neuartiger Kurse und Studienpläne ist hochwillkommen
© 2008, [email protected]
80
http://hartenstein.de
TU Kaiserslautern
END
© 2008, [email protected]
[email protected]
29 June 2008
81
vielen Dank für Ihre Geduld
http://hartenstein.de
© 2008, [email protected]
Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008
82
http://hartenstein.de