Coarse Grain Reconfigurable Architectures
Transcrição
Coarse Grain Reconfigurable Architectures
Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 1 Falsch programmiert TU Kaiserslautern Die Kluft zwischen Kultur und Zivilisation, wurde schon in den 60ern beklagt von Karl Steinbuch …. Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 Informatik jenseits des von-Neumann-Paradigma Reiner Hartenstein … neuerdings durch Siegfried Wendt … … katastrophales BerufswahlVerhalten © 2008, [email protected] 2 Die Kluft zwischen Kultur und Zivilisation TU Kaiserslautern TU Kaiserslautern http://hartenstein.de Dramatiker aller Dramatiker Anglist Dietrich Schwanitz über Shakespeare: „Der Dramatiker aller Dramatiker, der nächst Gott am meisten auf dieser Welt geschaffen hat“ Wurde erneut bestätigt durch Anglist Dietrich Schwanitz: „Naturwissenschaftliche Kenntnisse müssen zwar nicht versteckt werden, aber zur Bildung gehören sie nicht.“ haben „diese Welt“ stärker verändert „artes mechanicae“: laut Aristoteles keine Bildung. „So darf man über Literatur nicht schreiben“ Banause: von bánausos (griechisch βάναυσος von baunos, βαῦνος, „Ofen“, ... © 2008, [email protected] TU Kaiserslautern 3 http://hartenstein.de Die Kluft zwischen Software und Configware Configware-Kenntnisse müssen zwar nicht versteckt werden, aber zum zertifizierten Kern-Kurrikulum gehören sie nicht (Obwohl für normale Informatiker die Hardware-Leute sonst keine Banausen sind) Joint Task Force for Computing Curricula: unser Aristoteles ? © 2008, [email protected] 5 http://hartenstein.de 4 © 2008, [email protected] TU Kaiserslautern 1. 2. 3. 4. 5. 6. Foto: dpa. http://hartenstein.de >> Gliederung << Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 6 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de TU Kaiserslautern 1. 2. 3. 4. 5. 6. [email protected] 29 June 2008 2 Vorwort Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen Reconfigurable Computing (RC) TU Kaiserslautern Dresdner Informatik hervorragend vertreten 1. Was Reconfigurable Computing heute bedeutet Wertvoll wäre Ihre Mithilfe beim Sturm auf die Festung der “curriculum task force” 2. Was wir aus der Geschichte lernen können 3. Das aktuelle Problem: der bisher dramatischste Umbruch 4. Mehrfache Ursachen der nun eskalierenden Probleme 5. Didaktische Ansätze zur dringenden Reform der Kurrikula 7 © 2008, [email protected] http://hartenstein.de Become an FPGA engineer ? TU Kaiserslautern sehr gesuchte Leute: [FPGA journal (newsletter)] Eingebettete Software 99% aller Mikroprozessoren typische Absolventen sitzen in eingebetteten Systemen: sind nicht qualifiziert fast 25 Mrd. für diesen Arbeitsmarkt 2 Faktor Bis 2010 werden mehr als 10 mal mehr Programmierer eingebettete Anwendungen schreiben, als “normale” Computer Software. ConfigwareKenntnisse sind 1 unverzichtbare Qualifikation am IT-Arbeitsmarkt geworden. [Rammig„s Gesetz] 1 0 © 2008, [email protected] http://hartenstein.de TU Kaiserslautern 9 http://hartenstein.de Computing Curricula 2004 TU Kaiserslautern ignoriert FPGA & RC of Trade and Industry, London 10 © 2008, [email protected] 12 18 10 Monate http://hartenstein.de Field-Programmable Gate Array FPGA TU Kaiserslautern “Draht” formen Joint Task Force for Computing Curricula 2004 ACM Education Board. AIS Association for Information Systems IEEE Computer Society‟s EAB (+ ABET‟s Computing Accreditation Commission) *) Department CLB anschließen Reconfigurable Computing (RC) ist seit Jahren “mainstream” bei Eingebetteten Systemen. 8 © 2008, [email protected] CLB A CLB CLB CLB CLB B CLB sogar hier CLB C © 2008, [email protected] 11 http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 12 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de RAM-basiert TU Kaiserslautern 0 0 0 0 3 Configware-Kode-Eingang Plattform-FPGA 8 – 32 schnelle serielle I/OKanäle 56 – schnelle on424 chip Block RAMs: BRAMs TU Kaiserslautern 256 – 1704 BGA mit Flash “hidden RAM” kein wiederholtes “Booting” 0 [email protected] 29 June 2008 DPUs Configware-Kode wird vor der Laufzeit von außen in das “hidden RAM” geladen 1 Teil des FF “hidden RAM” es gibt auch partiell rekonfigurierbare FPGAs 13 © 2008, [email protected] TU Kaiserslautern [courtesy Lattice Semiconductor] http://hartenstein.de Plattform-FPGA (DSP) SoC möglich [courtesy Xilinx Corp. (modifiziert)] 500MHz PowerPC™ Processors (680DMIPS) with Auxiliary Processor Unit auch unterstützt durch partiell rekonfigurierbare Plattformen Chuck Thacker, Microsoft Technical Fellow (Lab in Cambridge) 500MHz DCM Digital Clock Management Experten in Ihrer Fakultät 0.6-11.1Gbps Serial Transceivers 1Gbps Differential I/O Marco Platzner, Universität Paderborn 500MHz Programmable DSP Execution Units wie z.B. MAC © 2008, [email protected] Configware-Betriebssysteme TU Kaiserslautern 500MHz multi-port Distributed 10 Mb SRAM 500MHz Flexible Soft Logic Architecture 200KLogic Cells 15 Multiply and ACcumulate 2004, 1.2V, 90nm http://hartenstein.de Geschichte der Datenverarbeitung • Prototyp: 1884 Herman Hollerith Der erste rekonfigurierbare Computer TU Kaiserslautern 17 http://hartenstein.de … und andere http://hartenstein.de Configware-Programmierung TU Kaiserslautern Prototyp: 1884, Herman Hollerith • manuell (Configuration) • oder, durch Austausch vorprogrammierter Steckbretter DPU • Das erste Xilinx FPGA kam 100 Jahre später Jürgen Becker 16 © 2008, [email protected] • Datenstrom-basiert © 2008, [email protected] http://hartenstein.de insbesondere für dynamisch rekonfigurierbare Systeme Akzelerator CPU 14 © 2008, [email protected] (Reconfiguration) 60 Jahre später: RAM verfügbar – z.B. Ferritkern © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 J. v N, 1946 dann: Motivation für das vonNeumann-Machinen-Paradigma 18 http://hartenstein.de >> Gliederung << TU Kaiserslautern Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen 4 Die von-Neumann-Revolution TU Kaiserslautern 19 Programm-Ebene Programm-Ebene Betriebssystem-Ebene Prozessor-Speicher-Ebene RT-Ebene Logik-Ebene etc. http://hartenstein.de die VLSI Revolution TU Kaiserslautern 20 © 2008, [email protected] publiziert: 1946 1. US CS dept. 1962 Purdue University Begriff v.: CS: George Forsythe 1961, *) schafft Platz für die Mathematik http://hartenstein.de Mikroelektronik-Entwurfs-Revolution Um davon zu lernen TU Kaiserslautern Wissenschaftliche Szenen gehorchen dem Herdentrieb … Anwendung …bis dramatische Änderungen der Randbedingungen einen Umbruch erzwingen RT-Ebene Logik-Ebene Switching-Ebene VLSI-Revolution Carver Mead: Design muß eine eigene Disziplin sein Thomas Kuhn Anwendung Anwendung 2. Was wir aus der Geschichte lernen können © 2008, [email protected] Das geniale Modell fördert die Entrümpelung der Lehre im Grundstudium*: Das Problem der vielen Kernfächer: Technologen: das Bißchen Design erledigen wir mit Links © 2008, [email protected] 1980 21 µP-Anwender*: mehr Durchsatz durch Warten auf die nächste Generation http://hartenstein.de Mikroelektronik-Entwurfs-Revolution Anwendung Layout-Ebene Technologie-Ebene Technologie Logik-Ebene Switching-Ebene Schaltkreis-Ebene © 2008, [email protected] Schaltkreis-Ebene Layout-Ebene Technologie-Ebene 22 © 2008, [email protected] 23 Carver Mead Lynn Conway Software Mainframe-Zeitalter: RAM memory CPU Mikroprozessor-Zeitalter: (heterogenes Modell) Befehlsstrombasiert CPU DPU © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 Datenstrombasiert Akzelerator Ko-Prozessoren ProgrammZähler von Neumann Befehlsstrombasierte Maschine http://hartenstein.de http://hartenstein.de v. N. ist nicht mehr das allgemeine Modell TU Kaiserslautern tall thin man RT-Ebene automotive*: >10 Mrd.$ 2010 *) i. W. Programmierer TU Kaiserslautern Anwendung Entrümpelung notwendig Hardware 1. 2. 3. 4. 5. 6. [email protected] 29 June 2008 von Neumann Modell Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de VLSI Revolution: wieso? steigender Bedarf an Akzeleratoren 24 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 5 Entwicklungskosten-Krise TU Kaiserslautern TU Kaiserslautern zur Terminologie: ASIC Application-Specific Integrated Circuit Moore‟s Gesetz ist nicht anwendbar auf alle Aspekte ASIC Akzelerator Entwicklungskosten-Krise VLSI-Revolution Carver Mead: Design muß eine eigene Disziplin sein ein Mikroelektronik-Marktsegment für etwas kostengünstigere Hardware-Entwicklungen Xilinx Technologen: das Bißchen Design erledigen wir mit Links 1984 25 © 2008, [email protected] http://hartenstein.de © 2008, [email protected] http://hartenstein.de FPGAs statt ASICs Niedergang der ASICs TU Kaiserslautern 26 TU Kaiserslautern hohe Maskenkosten FPGAs vom Regal statt maßgeschneiderte ASICs FPGA-Marktvolumen 4 Mrd $- [Nick Tredennick] neue Prozeßlinien verteuern die Herstellung eskalierende VLSIEntwurfskosten © 2008, [email protected] starker Rückgang an Entwurfs-Projekten 27 http://hartenstein.de Software-zu-Configware-Migration TU Kaiserslautern einige publizierte speed-up-Faktoren [2000– 2008] mainstream seit einem Jahrzehnt fastest growing segment … “Hardware”-Leute werden zu Programmierern © 2008, [email protected] 28 Speedup-Faktor 103 xputer Accelerator bord from Bruchsal Speed-up: x 3 000 DES breaking 52 BLAST crypto 1000 400 288 100 1000 © 2008, [email protected] MAC means Multiply and ACcumulate 29 88 3000 Viterbi Decoding Smith-Waterman pattern matching molecular dynamics simulation heute: Bioinformatik PlattformAstrophysik FPGAs ! GRAPE protein identification 20 2400 MAC FFT 100 16 FPGAs 28500 DSP and drahtlos real-time face detection 6000 Reed-Solomon Decoding video-rate stereo vision pattern recognition 730 900 SPIHT wavelet-based image compression 457 40 http://hartenstein.de http://hartenstein.de TU Kaiserslautern 106 Bildverarbeitung, Pattern matching, Multimedia automotive*: >10 Mrd.$ 2010 Morphware “Hardware”-Entwurf auf einer seltsamen Plattform “schrumpfende ProduktLebenszyklen Quelle: Gilder Technology Report (Nick Tredennick, USA, 2003) • 1.5 TeraMAC/s • I/O bandwidth: 50 GByte/s Tera means 1012 or 1 000 000 000 000 (1 trillion) deutsch: eine Billion • manufactured by SIEMENS at Bruchsal © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 30 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de Demonstrating the intensive Impact (FPGA-based speed up and power saving) TU Kaiserslautern Platform (compared to Beowulf cluster) SDC-6 Cray XD-1 SGI Altix 4700 with RC 100 RASC ? Speed-up factor 6757 12162 Power saving factor 856 608 28514 3439 [email protected] 29 June 2008 6 Reconfigurable Supercomputing TU Kaiserslautern Silicon graphics Reconfigurable ApplicationSpecific Computing (RASC™) Cray XD1 DES breaking [T. Elghazawi et al.: IEEE COMPUTER, Febr. 2008] •Xilinx Virtex-II Pro •Bibliothek von Cray Verschlüsselung auf von Neumann wird unbezahlbar © 2008, [email protected] 31 http://hartenstein.de © 2008, [email protected] Daten treffen den Prozessor (CPU) TU Kaiserslautern Veranschaulichung der Migration ineffizienter Transport über OffChip-Speicher durch Speicherzyklenhungrige Befehlsströme mittels Software Supercomputing 2007, Reno, NV 9600 reg. Teiln. 440 Aussteller TU Kaiserslautern 32 http://hartenstein.de Daten treffen die PU Veranschaulichung der Akzeleration Plazierung des Ort der Ausführung (PU) im Pipe-Netzwerk generiert d. d. Configware-Compiler Dies ist nur eines von vielen von Neumann- mittels Configware Overhead-Phänomenen © 2008, [email protected] TU Kaiserslautern 33 http://hartenstein.de Welche Form der Parallelität? (Veranschaulichung) [Hartenstein’s Gießkannen-Modell] Befehlsstrom-basierte Lösung: Datenstrom-basierte Lösung: kein von NeumannEngpaß viele von Neumann Engpässe © 2008, [email protected] 35 http://hartenstein.de © 2008, [email protected] TU Kaiserslautern 1. 2. 3. 4. 5. 6. 34 http://hartenstein.de >> Gliederung << Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen 3. Das aktuelle Problem: der bisher dramatischste Umbruch © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 36 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 7 TU Kaiserslautern TU Kaiserslautern chicken intel‘s strong oxen unter Strong chicken Andy Grove und Craig Barret relative Taktfrequenz © 2008, [email protected] 3 Größenordnungen Laptop mit Wasserkühlung? Pentium 4 103 8080 100 1980 37 1990 2000 http://hartenstein.de 2010 Paradigmen-Zusammenbruch ? TU Kaiserslautern 2005: das GHz-TaktfrequenzWettrennen bendet Relative clock speed 103 Pentium 4 8080 100 1980 © 2008, [email protected] 38 2005 1990 http://hartenstein.de 2000 2010 Many-core: Break-through or Breakdown? TU Kaiserslautern Die Industrie steht an einem Wendepunkt zu einem völlig neuen Entwurfs-Ökosystem Zusammenbruch? Multi-core-Mikroprozessoren sind angekündigt: mit bald 32 cores (AMD) oder 80 cores (intel). Nicht plötzlich: denn ein nachhaltiger Zerfall der MIPS ab Mitte der 90er µP Verlustleistungs- und Architektur-Krise “Parallelism running out of steam for >4 cores” [Gary Smith] Entwicklungskosten-Krise Multi-threading, transactional memory, register renaming, spekulative Tricks, vielf. Superskalarität, out-of-order Befehlsausf…: keine Wunderwaffen. intel’s vision: MultiCore VLSI-Revolution intel und Sun keynotes [DAC‟08] räumen ein: Schwierigkeiten der Manycore-Programmierung, das Fehlen geeigneter Software, und Drosselung durch Speicher-Latenzzeit. Zusätzliche sehr ernste Carver Mead: Probleme durch den Design muß eine abrupten Wechseleigene zurDisziplin sein Manycore-Strategie Technologen: Aus der Supercomputing-Szene sind nur wenige Spezialisten teuer verfügbar, nur für wenige spezielle Anwendungsgebiete. das Bißchen Design erledigen wir mit Links © 2008, [email protected] Hier: Stop! chicken intel‘s <1024 oxen unter neuem CEO 39 http://hartenstein.de Klima-Wandel TU Kaiserslautern 40 © 2008, [email protected] TU Kaiserslautern *) a Hail Mary pass in American football is a forward pass made in desperation, with a very small chance of success http://hartenstein.de Dave Patterson staunt Methods for supporting manycore could reset microprocessor hardware and software roadmaps for the next 30 years „intel has thrown a Hail Mary pass and nobody is running yet“. „Die gesamte IT Industry hat auf ihre Zukunft gewettet, daß das Problem der Parallel-Programmierung gelöst wird." ein Jahr später :„I am still astonished about that" Der Einsatz ist hoch. Wenn die Forschung keine effizienten Parallel-Techniken findet, wird die Programmierung so schwierig, daß die Leute von der neuen Hardware keinen Vorteil haben. from growth industry to replacement industry Aus der Wachstums-Industrie würde eine Ersatzteil-Industrie © 2008, [email protected] 41 Wawrzynek missing http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 42 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 8 >> Gliederung << Akzeleratoren unvermeidbar TU Kaiserslautern Solche Akzeleratoren können bewährte Technologien nutzen, um kleinere Märkte anzugehen, sogar Nischen-Märkte Prozessoren zusammen mit Akzeleratoren können immer noch Standard-Software und deren Werkzeuge nutzen Wir brauchen eine Zwillings-Paradigmen-Strategie, die das von-Neumann-Paradigma mit dem Grundmodell der Akzeleratoren kombiniert 43 © 2008, [email protected] http://hartenstein.de Das von Neumann Syndrom TU Kaiserslautern Konsequenzen mehrfacher Overhead-Phänomene: 1. weniger Rechenleistung durch mehr Transistoren 2. Software-Kodegrößen mit astronomischen Dimensionen 3. unbezahlbarer Energie-Verbrauch 45 © 2008, [email protected] http://hartenstein.de Computational Density (2) TU Kaiserslautern 1. 2. 3. 4. 5. 6. Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen 4. Mehrfache Ursachen der nun eskalierenden Probleme 44 © 2008, [email protected] http://hartenstein.de Decline of Computational Density TU Kaiserslautern Architektur-Overhead [Wawrzynek; Sep 8, 2005, GSRC Symposium (GSRC’05) ] 200 SPECfp2000/MHz/Billion Transistors Wir müssen zunehmend programmierbare Akzeleratoren als Ko-Prozessoren hinzunehmen alpha: down by 100x in 6 yrs IBM: down by 20x in 6 yrs TU Kaiserslautern [BWRC, UC Berkeley, 2004] 175 150 125 100 75 50 25 HP 0 1990 © 2008, [email protected] 1995 2000 46 2005 http://hartenstein.de Das von Neumann Syndrom TU Kaiserslautern Konsequenzen mehrfacher Overhead-Phänomene: [BWRC, UC Berkeley, 2004] [Wawrzynek; Sep 8, 2005, GSRC Symposium (GSRC’05) ] 2. Software-Kodegrößen mit astronomischen Dimensionen x 0.1 in 4 Jahren 1999 1996 © 2008, [email protected] 1. weniger Rechenleistung durch mehr Transistoren 47 1999 3. unbezahlbarer Energie-Verbrauch 2000 http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 48 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 9 The “Memory Wall ” massive Overhead-Phänomene TU Kaiserslautern von Neumann CPU wird akkumuliert zu Kode-Paket-Größen astronomischer Dimensionen einzelne CPU overhead instruction fetch state address computation data address computation data meet PU + other overh. i/o to/from off-chip RAM von NeumannMaschine Befehlsstrom Befehlsstrom Befehlsstrom Befehlsstrom Befehlsstrom von Neumann-Syndrom 49 http://hartenstein.de von Neumann-Overhead: ein Beispiel CPU single CPU data address computation data meet PU + other overh. i / o to / from off-chip RAM rDPU rDPU rDPU © 2008, [email protected] 50 http://hartenstein.de Das von Neumann Syndrom TU Kaiserslautern instruction fetch state address computation rDPU schneller On-chip-Speicher ist viel zu klein für derartige Kode-Pakete mit astronomischen Dimensionen langsame off-Chip-Speicher erlauben keinerlei Umgehung der Memory Wall TU Kaiserslautern Overhead [Win. Wulf, Sally McKee,1994] [C.V. “RAM” Ramamoorthy] Dijkstra 1968: The Goto considered harmful R.H. & Koch 1975: The universal Bus considered harmful Backus, 1978: Can programming be liberated from the von Neumann style? Arvind et al., 1983: A critique of Multiprocessing the von Neumann Style © 2008, [email protected] TU Kaiserslautern von NeumannMaschine Befehlsstrom Befehlsstrom Befehlsstrom Befehlsstrom Befehlsstrom (Gesamtprojekt: 15000x speed-up) PISA DRC Akzelerator [ICCAD 1984] (im E.I.S-Projekt) rekonfigurierbarer Address- Generator (GAG): ~20x speed-up © 2008, [email protected] 51 http://hartenstein.de Konsequenzen mehrfacher Overhead-Phänomene: 1. weniger Rechenleistung durch mehr Transistoren 2. Software-Kodegrößen mit astronomischen Dimensionen 3. unbezahlbarer Energie-Verbrauch © 2008, [email protected] Energie als Strategie-Thema TU Kaiserslautern TU Kaiserslautern 52 Grüne Computer? nur ~ Faktor 3 Brauchen wir Kohle für das Internet? (2005) • Google„s jährliche Stromrechnung: > 50,000,000 $ http://hartenstein.de aktueller Wert 26. 6. 2008 Akzeleratoren ! • Amsterdam„s Stromverbrauch: 25% geht in Server-Farmen • NY city Server-Farmen: 1/4 km2 Gebäude-Nutzfläche © 2008, [email protected] 53 53 http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 54 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 10 >> Gliederung << Software-zu-Configware-Migration (2) TU Kaiserslautern (speed-up- und) teils Energiespar-Faktoren Speedup-Faktor 106 xputer 103 28500 DSP und drahtlos real-time face detection 6000 Reed-Solomon Decoding video-rate stereo vision pattern recognition 730 900 SPIHT wavelet-based image compression 457 *) verbesserungsfähig 100 DES breaking Bildverarbeitung, Pattern matching, Multimedia @10 © 2008, [email protected] MAC 1000 400 288 100 FFT 52 BLAST protein identification 20 88 2400 crypto 3000 1000 Viterbi Decoding Smith-Waterman pattern matching molecular dynamics simulation 40 Bioinformatik Astrophysik GRAPE 55 TU Kaiserslautern 1. 2. 3. 4. 5. 6. Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen 5. Didaktische Ansätze zur dringenden Reform der Kurrikula http://hartenstein.de Für Manycore das falsche Modell TU Kaiserslautern 56 © 2008, [email protected] TU Kaiserslautern http://hartenstein.de Was ist Dichotomie ? Die „memory wall“: das Haupt-Problem kann nicht gelöst werden durch neue CPU-Architekturen Das vN Paradigma ist kein Kommunikations-Paradigma Wir brauchen ein zweites Maschinen-Paradigma Wir brauchen ein Kommunikations-Paradigma Dichotomie = wechselseitige Zuordnung zweier gegensätzlicher Domänen, wobei eine Dritte daneben ausgeschlossen ist. Wir brauchen beide Paradigmen: zwecks bester Kohärenz eine intuitive Dichotomie Wir brauchen ein Zwillings-Paradigma 57 57 http://hartenstein.de (Dichotomie-Beispiel) Christophe Bobda TU Kaiserslautern Paul Dirac (1928, Nobelpreis 1933): “There are regions in the universe, which consist of antimatter ..... Anwendung Artefakte, in Beschleunigern synhetisiert (1955 – 1995) Aber in der Informatik gibt es die Antimaterie schon: die Antimaterie der Informatik (CERN 1995) Reconfigurable Computing beruht auf dieser Antimaterie Paul Dirac: “Aber es gibt Asymmetrien” Informatik: nur eine! *) außer Positronen (Höhenstrahlung) © 2008, [email protected] 59 von Neumann Paradigma Programm-Ebene gesucht* von Neumann Modell Nach “echter” Antimaterie wird noch heute http://hartenstein.de Reconfigurable Computing Revolution (Materie und) Anti-Materie TU Kaiserslautern 58 © 2008, [email protected] Antimaschinen Paradigma © 2008, [email protected] Zwillings-Paradigma http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 60 Reconfigurable Computing http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de [email protected] 29 June 2008 11 Die Dichotomie: Materie und Antimaterie TU Kaiserslautern Anwendung Materie Antimaterie von Neumann Paradigma CPU ProgrammZähler Dichotomie 61 © 2008, [email protected] - Antimaschinen Paradigma Programm-Ebene + - Aber es gibt eine Asymmetrie: TU Kaiserslautern + ASM DatenZähler http://hartenstein.de Doppelte Dichotomie TU Kaiserslautern CPU + rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU rDPU TU Kaiserslautern von-Neumann Anti-Maschine (Software-Domäne) (Flowware-Domäne) Datenstrom Relativitäts-Dichotomie Raum Zeit Prozedur Struktur (Software-Domäne) © 2008, [email protected] (Configware-Domäne) 63 http://hartenstein.de rDPA - 62 http://hartenstein.de Doppelte Dichotomie 1.) Prozedurale Dichotomie Datenstrom-Domäne CPU ASM ProgrammZähler DatenZähler (Befehls-prozedural) (Daten-prozedural) imperative Software-Sprache © 2008, [email protected] systolische Flowware-Sprache 64 http://hartenstein.de Wer erzeugt die Datenstrüme? TU Kaiserslautern imperative Software-Sprachen systolische Flowware- Sprachen read next data item goto (data address) jump to (data address) data loop data loop nesting data loop escape data stream branching yes: internally parallel loops read next instruction goto (instruction address) jump to (instruction address) instruction loop instruction loop nesting instruction loop escape instruction stream branching no: internally parallel loops Ohne Sequenzierer ist es keine Maschine ! x x x x x x x x | x | | x x x x x x - 65 http://hartenstein.de - - - x xx - - - - xx x - - - - - x x x x x x - - Aber es gibt eine Asymmetrie © 2008, [email protected] ASM + Befehlsstrom-Domäne Dualität prozeduraler Sprachen TU Kaiserslautern 1st data-stream-based computer (Hollerith) 1st instruction stream computer (Konrad Zuse) von Neumann machine paradigm defined 1st microprocessor (Ted Hoff) „data streams“ def. (systolic array: Kung / Leiserson) anti machine paradigm published rDPA / DPSS (supersystolic array: Rainer Kress) + © 2008, [email protected] Dichotomie der Maschinen-Paradigmen Befehlsstrom 1884 1936 1946 1971 1979 1990 1995 © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 66 | | | | | | | | | x | | x x | x x x x x x http://hartenstein.de TU Kaiserslautern x x x ASM x x x x x x - ASM x x x - - ASM: | | | | | | | | | | x x x Der Datenzähler: plaziert im Speicher** (nicht beim Datenpfad***) | | ASM © 2008, [email protected] x x x | x x x AutoSequencing Memory | mehrere Datenzähler statt eines Programmzählers | x x x - - - x x x ASM - - - - x x x ASM - - - - - x x x ASM Datenströme GAG [Kung et al. 1979] 12 Doppelte Dichotomie TU Kaiserslautern Dichotomie der Maschinen-Paradigmen von-Neumann Anti-Maschine (Software-Domäne) (Flowware-Domäne) 67 Datenstrom Befehlsstrom Relativitäts-Dichotomie RAM *) vorzugsweise grobkörnig: wie z. B. mittels Plattform-FPGA **) normalerweise on-chip ***) nicht wie bei der CPU http://hartenstein.de Nick Tredennick‟s Perspektive Raum Zeit Datenzähler TU Kaiserslautern Prozedur Struktur (Software-Domäne) (Configware-Domäne) 68 © 2008, [email protected] http://hartenstein.de Relativitäts-Dichotomie TU Kaiserslautern Zeit-Domäne: Software Engineering CPU Software (Befehlsströme) resources: fixed algorithm: variable Configware Flowware (Datenströme) resources: variable algorithm: variable © 2008, [email protected] (Maschinen-Dichotomie) 1 Programm Quelle nötig 2 Programm Quellen nötig 69 http://hartenstein.de Zeit zu Raum Abbildung TU Kaiserslautern Zeit-Domäne: Prozedur-Domäne Struktur-Domäne Raum Zeit 3 Phasen: 1) Rekonfiguration von Strukturen 2) Programmierung von Datenströmen 3) Laufzeit 2 Phasen: 1) Programmierung v. Befehlsströmen 2) Laufzeit © 2008, [email protected] 70 http://hartenstein.de Die Kollision der Paradigmen TU Kaiserslautern Raum-Domäne: Struktur-Domäne Zeit-Algorithmus Raum-Algorithmus Pipeline Programmschleife n Zeitschritte, 1 CPU 1 Taktschritt, n DPUs Shuffle Sort Bubble Sort n x k Zeitschritte, 1 „conditional x swap“ unit y k Taktschritte, n „conditional swap“ units conditional swap ”you can never teach hardware to a programmer” “you can always teach programming to a hardware guy” conditional swap conditional swap conditional swap Dies ist die Schuld unserer Kurrikula Raum- / Zeit-Algorithmus Zeit-Algorithmus © 2008, [email protected] Raum-Domäne: Prozedur-Domäne Configware Engineering (Struktur) conditional swap [email protected] 29 June 2008 programmiert durch Flowware ASM ASM x x x ASM (r)DPA* Die Anti-Maschine ASM ASM ASM Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de 71 http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 72 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de TU Kaiserslautern Lehre ohne “connected thinking” zu vermeiden strukturell [email protected] 29 June 2008 13 Lehre mit “connected thinking” TU Kaiserslautern prozedural und strukturell prozedural CPU prozedural (nur) CPU DPU (hardwired) DPU Befehlsstrombasiert Tear down this wall ! © 2008, [email protected] ProgrammZähler dirigiert durch den Programmzähler 73 http://hartenstein.de Co-Compilation TU Kaiserslautern C, FORTRAN, MATHLAB rDPU DPU ASM Befehlsstrombasiert Datenstrom -basiert data counter dirigiert durch by Datenzähler dirigiert durch den Programmzähler 74 © 2008, [email protected] ProgrammZähler http://hartenstein.de grobkörnig rekonfigurierbarer Array TU Kaiserslautern SNN Filter auf supersystolischem Array (i. W. Pipeline-Netzwerk) rout thru only automatic SW / CW partitioner software compiler Software / Configware Co-Compiler keine CPU mapper configware compiler data scheduler rDPU rekonfigurierbare Data Path Unit, 32 Bits breit Legend: software code © 2008, [email protected] configware code 75 flowware code http://hartenstein.de Beton-Wand im Gehirn TU Kaiserslautern Nach dem Vortrag* springt sofort ein VIP hoch: „But you can„t implement decisions!“ Diese peinliche Bemerkung kam von einem top level F&E-Manager eines IT-Weltkonzerns (späte 90er) rDPU not used backbus connect used connect for routing only backbus © 2008, [email protected] 76 © 2008, [email protected] 77 http://hartenstein.de http://hartenstein.de „But you can„t implement decisions!“ Software zu Configware S = R + (if C then A else B endif); Migration: section of a very large pipe network: R B A C =1 decision box turns into a multiplexer* im Jahr 1971**: “That’s so simple! why did it take 30 years to find out?” völlig fehlendes Gespür für Dichotomien *) RAW workshop, late 90ies at Orlando, Florida port used location marker not TU Kaiserslautern Man sieht sofort die Beton-Wand im Gehirn: nicht vertraut mit ganz einfachen Uralt-Weisheiten: operator and routing Array-Größe: 10 x 16 rDPUs Generiert mit Nageldinger„s KressArray Xplorer (Jürgen Becker„s CoDe-X inside) + **) die HDL-Szene © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 W. A. Clark: 1967 SJCC, AFIPS Conf. Proc. C. G. Bell et al: IEEE Trans-C21/5, May 1972 78 http://hartenstein.de Reiner Hartenstein, TU Kaiserslautern, Germany http://hartenstein.de TU Kaiserslautern 1. 2. 3. 4. 5. 6. >> Gliederung << Reconfigurable Computing Allgemeine Randbedingungen Die Manycore-Krise Das von-Neumann-Syndrom Dichotomien des Zwillings-Paradigma Schlußfolgerungen © 2008, [email protected] 79 http://hartenstein.de TU Kaiserslautern 14 Schlußfolgerungen TU Kaiserslautern Kurrikulum-Task Forces haben die Wichtigkeit Eingebetteter Systeme vernachlässigt und die Bedeutung der FPGAs völlig ignoriert. Wir befürchten, daß auch die in Folge der Manycore-Krise gegebene Unabdingbarkeit programmierbarer Akzeleratoren ignoriert wird. Zuhörer und Leser werden hierzu dringend aufgefordert, bei allen Gelegenheiten als Lobbyist aktiv zu werden … die solche Für dieses Ausbildungs-Dilemma brauchen Betonwände wir durchschlagende duale Lösungen … durchschlagen Ein effizientes didaktisches Konzept wurde vorgeschlagen Die Ausarbeitung und Durchführung solche Probleme lösender neuartiger Kurse und Studienpläne ist hochwillkommen © 2008, [email protected] 80 http://hartenstein.de TU Kaiserslautern END © 2008, [email protected] [email protected] 29 June 2008 81 vielen Dank für Ihre Geduld http://hartenstein.de © 2008, [email protected] Tag der Fakultät Informatik, TU Dresden, 1. Juli 2008 82 http://hartenstein.de