Hardware

Hardware: GPU versus CPU – Teamplayer bevorzugt

Mit ihren häufig mehreren hundert oder über 1.000 Rechenkernen können moderne Grafikprozessoren vor allem gut parallelisierbare CAE-Berechnungen beschleunigen. Doch die CPU muss dadurch nicht arbeitslos werden. Nutzt die jeweilige Software sowohl GPU als auch Mehrkern-CPU gleichzeitig, profitiert der Anwender noch mehr. Umfangreiche Simulationsrechnungen lassen sich dann wesentlich schneller durchführen – jedes Entwicklerteam wird die so gewonnene Zeit gut einzusetzen wissen.
Auswertung von Ansys anhand einer Pre-Release-Version von Ansys 13. Die Ergebnisse zeigen die Beschleunigung durch die GPU bezogen auf den gesamten Lösungsprozess – also inklusive Pre- und Postprocessing. (Bild: Ansys)

Drahtgittermodelle sind out, photorealistische Darstellungen in Echtzeit in. So lässt sich kurz zusammenfassen, was moderne Workstations dem CAD-Anwender bringen. Das hat Folgen, denn neben einem leistungsfähigen Prozessor (CPU – Central Processing Unit) steckt in solchen Systemen eine ebenso leistungsfähige Grafikkarte. Der solchermaßen auf Spitzenleistung getrimmte Grafikprozessor (GPU – Graphics Processing Unit) bleibt dabei aber immer öfter ‚unterfordert‘, weswegen die Chip-Hersteller nach neuen Aufgaben für die GPU suchen. Aufgrund der hohen Zahl an Rechenkernen in einer GPU – mehrere Hundert sind hier Standard – können vor allem Aufgaben an die Grafikkarte übergeben werden, die sich leicht parallelisieren lassen. Davon profitieren Anwender im Bereich der Simulation und Berechnung, die quasi immer auf der Suche nach mehr Rechenleistung sind.

Anzeige

Sowohl AMD als auch Nvidia bieten Lösungen an, um GPU-unterstützt CAE-Anwendungen zu beschleunigen. Gelegentlich taucht dafür auch das Stichwort General Purpose GPU (GPGPU) auf. Bei Nvidia steckt dahinter die so genannte Compute Unified Device Architecture (CUDA), mit deren Hilfe CAE-Programme bestimmte Aufgaben der GPU zuweisen können. „Seit Kurzem liegt bereits Version 4.0 des CUDA-Toolkits vor, das unter anderem per GPUDirect 2.0 die Peer-to-Peer-Kommunikation zwischen verschiedenen GPUs in einer Workstation unterstützt und per Unified Virtual Adressing den Hauptspeicher des Systems und den GPU-Speicher zu einem Speicheradressraum zusammenfassen kann“, berichtet Lutz Eigenfeld, Professional Solutions Sales Manager Central Europe bei Nvidia. Hardwareseitig eignen sich insbesondere die neuen Grafikkarten der Quadro-Reihe (Quadro 4000, 5000 und insbesondere 6000; siehe hierzu auch Interview CAD-CAM Report 9/2010, S. 54ff) sowie für reine Rechenanwendungen die Tesla-Baureihen für das GPU-Rechnen.

Bei AMD spricht man inzwischen von der so genannten Accelerated Parallel Processing Technology (APP; früher auch Stream Processing oder ATI Stream). Da AMD sowohl CPUs wie GPUs liefert, ist zudem der Fokus in Richtung des möglichst optimalen Einsatzes der insgesamt zur Verfügung stehenden Hardware verschoben. Zudem setzt das Unternehmen ganz auf den OpenCL-Standard (Open Computing Language). Open CL wurde ursprünglich von Apple entwickelt und zusammen mit AMD, IBM, Intel und Nvidia ausgearbeitet, um hardwareunabhängig die Vorteile heterogener Systeme nutzen zu können. Heute sind eine Reihe weiterer Unternehmen unter Führung der Khronos Group (siehe http://www.khronos.org/opencl/) an der Weiterentwicklung beteiligt, auch Nvidia unterstützt OpenCL. Software-Entwickler können bei AMD das APP Software Development Kit nutzen, um Anwendungen hinsichtlich der kombinierten CPU/GPU-Nutzung auszulegen. „Der auf diese Weise erzeugte OpenCL-Code ist nicht an eine bestimmte Hardware gebunden, sondern läuft auch auf Plattformen anderer Hersteller“, betont André Heidekrüger, Senior Technical Consultant Presales EMEA bei AMD in München. Folglich laufen diese Applikationen auch auf allen AMD-Grafikkarten, seien es Radeon- oder die insbesondere für den CAx-Bereich geeigneten FirePro-Karten ab der 4000er-Generation. Für den reinen Rechenbetrieb gedacht sind die Firestream-Karten, die aber – weil selbst nur passiv gekühlt – nur in Server-Systemen mit entsprechender Kühlung zum Einsatz kommen können.

Spritzguss-Simulation profitiert von GPU-Leistung

„Verfügt man sowohl über eine schnelle CPU als auch eine schnelle GPU, lassen sich Rechnungen unglaublich schnell absetzen“, erläutert Stefan Kühne, bei Autodesk als Teamleiter zuständig für den Support rund um die Software-Suite Autodesk Moldflow für die Spritzguss-Simulation. Speziell deren Simulations-Teil – Autodesk Moldflow Insight (AMI) simuliert die Füll- und Nachdruckphase im Spritzguss-Prozess, womit sich das Fließverhalten der Schmelze besser vorhersagen und eine höhere Fertigungsqualität erzielen lässt – kann per CUDA schon seit einiger Zeit auf die Nvidia-Quadro-GPU zugreifen. Ebenfalls einsetzen lässt sich das GPU-Rechnen auch bei der auf Füll- und Nachdruck folgenden Berechnung des Verzugs von Bauteilen.

Was das konkret in Rechenzeit bedeutet, lässt sich pauschal nicht beantworten – zu stark hängt das sowohl von der gestellten Aufgabe als auch von der jeweiligen Hardware-Ausstattung ab. „Grob geschätzt gingen wir zunächst von einer rund 20 Prozent höheren Leistung aus, verglichen mit der Leistung einer Xeon-CPU“, fährt Kühne fort. Modernere Systeme, insbesondere mit den i7-Mehrkern-Prozessoren von Intel, seien aber ebenfalls sehr leistungsfähig – vor allem dann, wenn man deren Kerne alle nutze. „Soll es dann sehr schnell gehen, können wir mit unserer Software GPU und CPU voll ausnutzen.“

Voraussetzung ist nach Angaben von Autodesk lediglich eine Grafikkarte, die mit doppelter Genauigkeit (Double Precision) arbeitet – was allerdings gerade auf die in Workstations eingesetzten Modelle überwiegend zutreffen dürfte. Entscheidend ist darüber hinaus das Zusammenspiel von CPU, GPU und Speicher – sowohl im Rechner als auch auf der Grafikkarte. „Unsere 3D-Modelle bestehen ja aus Tetraedern“, erläutert der Simulationsprofi. „Solange das Modell oder Teile davon in den Speicher der Grafikkarte passen, können wir also Rechnungen auf der GPU absetzen. Werden sie größer, geht das nicht mehr.“ Deswegen habe man den Solver optimiert, um gegebenenfalls einen Schritt zurückgehen zu können, so dass sich die restliche Rechnung per CPU durchführen lasse. „Das kann insbesondere bei Füllrechnungen passieren, die im Grunde genommen zunächst mit einem Tetraeder anfangen und mit einer enorm hohen Anzahl enden.“ Der per CUDA 4.0 nun mögliche zusammengefasste Speicheradressraum dürfte hier zukünftig weitere Lösungsmöglichkeiten eröffnen.

Den Anwender der Autodesk-Software muss das alles glücklicherweise nicht stören. Denn bei der Installation des Moldflow-Pakets wird der volle Leistungsumfang installiert – unabhängig davon, ob man die GPU mitnutzen will oder nicht. „Man muss also keine Spezial-Anwendung starten“, betont Stefan Kühne. „Lediglich beim Starten der Berechnung gebe ich in einem Pull-down-Menü an, ob die GPU mitgenutzt werden soll – das ist alles!“ Ist die entsprechende Hardware vorhanden, steht der Beschleunigung per GPU nichts mehr im Wege. Nach Einschätzung des Autodesk-Mitarbeiters sind übrigens auch dann keine wirklichen Leistungseinbußen zu erkennen, wenn gleichzeitig eine Grafikanwendung läuft.

GPU-Hersteller bieten spezielle ‚Rechenkarten‘

Dass das GPU-Rechnen von Interesse ist, zeigt sich zudem bei den großen Rohstoffherstellern im Bereich des Spritzgießens, die ebenfalls AMI einsetzen. „Traditionell kommen hier eher Linux-Systeme zum Einsatz, um die FE-Rechnungen auf verschiedenen CPUs absetzen zu können“, so Kühne weiter. „Da wir die GPU-Unterstützung aber bislang nur unter Windows anbieten, werden selbst in diesem Bereich nun teilweise auch Windows-Workstations eingesetzt – um eben die Möglichkeiten der GPUs zu nutzen.“

Die Chip-Anbieter unterstützen solche hohen Anforderungen an die Rechenleistungen insbesondere mit den oben erwähnten speziellen Rechenkarten (Firestream bei AMD, Tesla bei Nvidia), die ausschließlich diesem Zweck dienen. „Unsere Tesla-Serie ist für das High Performance Computing entwickelt worden“, erläutert Lutz Eigenfeld von Nvidia und hebt deren Vorteile hervor: „Verglichen mit den Mehrkern-CPUs sind bei gleicher Rechenleistung sowohl die elektrische Leistungsaufnahme als auch die Kosten deutlich geringer.“ In der aktuellen ‚Green-500-Liste‘ der weltweit energieeffizientesten Supercomputer (www.green500.org) findet sich denn Anfang März 2011 auf Platz 3 auch das GSIC-Center des Tokyo Institute of Technology, dessen Supercomputer unter anderem mit Tesla-Karten arbeitet. Weitere Hochleistungsrechner mit Tesla-Unterstützung folgen auf den Plätzen 11 und 13. „Dass sich GPU-basierte Supercomputer vermehrt auf unserer Liste finden, zeigt einmal mehr, dass heterogene Systemlösungen mit GPUs und CPUs gleichermaßen eine hohe Leistung und Effizienz bieten“, sagt auch Dr. Wu-chun Feng, Gründer von Green500.

Auf Platz 8 der Green-500-Liste findet sich folglich auch ein AMD-System, der so genannte Loewe-Cluster des Centers for Scientific Computing (CSC) der Johann-Wolfgang-Goethe-Universität in Frankfurt am Main. Hier sind nach Angaben des CSC 20.928 CPU-Kerne und 778 GPGPU-Hardware-Beschleuniger am Werk, die auf 56 TB RAM zugreifen können. Dies zeigt zudem nicht nur die Energieeffizienz solcher Systeme, sondern auch, dass sich die Teamarbeit von CPUs und GPUs lohnt.

Vorteile gerade auch abseits der Supercomputer

Parallel zu den Erfolgen bei den Supercomputern bietet sich das GPU-Rechnen aber vor allem auch bei ‚normalen‘ Aufgabestellungen an. „Ein großes Potenzial sehen wir für Anwender ohne Zugriff auf leistungsfähige Rechennetzwerke oder Supercomputer“, sagt Mathias Jirka, Marketing-Verantwortlicher beim Softwareanbieter und Simulationsspezialisten Ansys Germany. „Geschwindigkeitsvorteile ergeben sich im Lösungsprozess – also nicht bei Pre- und Postprocessing –, wenn die Zahl der Freiheitsgrade kleiner als drei Millionen ist.“ Diese Bedingungen seien bei üblichen Simulationsrechnungen gegeben. Bei Untersuchungen mit einer Pre-Release-Version der CAE-Software Ansys 13 zeigte sich, dass ein Rechenkern der Intel-Xeon-5560-CPU (bei einer Taktfrequenz von 2,8 GHz) zusammen mit der GPU-Beschleunigung einer Tesla-C2050-Karte von Nvidia in punkto Rechengeschwindigkeit vergleichbare Resultate liefert wie vier Intel-Xeon-5560-CPU-Rechenkerne. „In dieser Konstellation entspricht also die GPU-Beschleunigung in etwa dem Leistungszuwachs, der sich alternativ durch drei zusätzlich eingesetzte Rechenkerne ergibt“, so Jirka weiter.

Ansys sieht deswegen vor allem das Potenzial des GPU-Rechnens für die simulationsgetriebene Entwicklung (Simulation Driven Product Development). „Generell arbeiten wir daran, unsere Software hinsichtlich des Einsatzes der sich rasch verändernden High-Performance-Computing-Technologien zu optimieren“, betont Dipankar Choudhury, Vice President of Corporate Product Strategy and Planning bei Ansys. Hier mache sich die technische Zusammenarbeit mit Anbietern wie Nvidia und AMD bereits bezahlt.

Hardware lässt sich individuell anpassen

Hilfreich für den Anwender ist, dass er sich sein System individuell anpassen kann. „Sind Platz und eine entsprechende Stromversorgung vorhanden, kann ich beispielsweise in einer Workstation auch eine Quadro- und mehrere Tesla-Karten zusammen betreiben“, betont Stefan Hummel, Field Marketing Manager EMEA bei PNY (das Unternehmen ist unter anderem zuständig für den Vertrieb der Quadro-Karten mit Nvidia-Chip in Europa und Amerika). Ein System mit beispielsweise einer Quadro- und drei Tesla-Karten eigne sich sehr gut für rechenintensive Anwendungen im CAE-Bereich.

Nicht uninteressant sind in diesem Zusammenhang auch die Bestrebungen der Hardware-Anbieter, zukünftig CPU und GPU auf einer Plattform zusammenzuführen. AMD nennt das ganze Fusion APU (Accelerated Processing Unit), womit Anwendern auch bei kleinen Formfaktoren (sprich kleinen und platzsparenden Systemen) eine entsprechende Grafik- und Rechenleistung zur Verfügung stehen soll. Und unter dem Codenamen ‚Denver-Projekt‘ hat Nvidia eine neue Initiative zur Entwicklung ARM-basierter CPU-Kerne angekündigt. Diese sollen auf dem gleichen Chip wie die Nvidia-GPU integriert werden und sich für den Einsatz in PC, Workstations, Servern und Supercomputern eignen. „ARM ist diejenige CPU-Architektur, die in der Geschichte die schnellste Verbreitung gefunden hat“, sagt dazu Jen-Hsun Huang, President und CEO von Nvidia. „Sie markiert den Beginn der ‚Internet-Everywhere-Ära‘ – mit Geräten, die fortschrittliche CPU-Kerne und Betriebssysteme bieten.“ Im Rahmen des Denver-Projektes wolle man nun einen ARM-CPU-Kern in Kombination mit den eigenen, massiv-parallelen GPU-Kernen entwickeln, um eine neue Klasse von Prozessoren zu begründen. Dem CAE-Anwender kann das alles nur Recht sein, denn er benötigt vor allem eines: möglichst viel Leistung.

Michael Corban, CAD-CAM Report

Advanced Micro Devices GmbH, Dornach Tel. 089/45053-199, http://www.amd.com

Ansys Germany GmbH, Darmstadt Tel. 06151/3644-0, http://www.ansys.com

Autodesk GmbH, München Tel. 0180/5225959, http://www.autodesk.de

Nvidia GmbH, Würselen Tel. 02405/478-0, http://www.nvidia.de

PNY Technologies Quadro GmbH Tel. 02405/40848-0, http://www.pny.de

Anzeige

Das könnte Sie auch interessieren

Anzeige

Hardware

Bis zu 50 Prozent mehr Leistung

Die neue Palette von Kepler-basierten, professionellen Nvidia-Quadro-GPUs bietet hohe Leistung und Zuverlässigkeit für professionelle Einsatzgebiete in Workstations. Davon sollen vor allem Content-Entwickler, Designer und Ingenieure profitieren.

mehr...

Hardware

Alles auf eine Karte

Nvidias neue Maximus-Technologie für Grafikkarten basiert auf der Kepler-Architektur. Der Hersteller spricht von einer Revolution und verspricht Anwendern ein vollkommen neues Arbeiten: Visualisieren und Simulieren auf einem Rechner.

mehr...

Hardware

Viel Rechen-Power nicht nur für die Grafik

Stefan Hummel, WürselenMit der aktuellen Generation an Grafikkarten und den damit auf den Karten verwendeten GPUs (Graphics Processing Unit) werden mittlerweile Leistungsdaten erreicht, die noch vor fünf Jahren für eine vordere Platzierung auf der...

mehr...

Fabrik-Vernetzung

Standards setzen sich durch

Datennetze in Fabriken müssen schnell, echtzeitfähig und standardisiert sein, fordert Oliver Riedel, Professor vom Institut für Steuerungstechnik der Werkzeugmaschinen und Fertigungseinrichtungen (ISW) der Universität Stuttgart.

mehr...
Anzeige

3D-Imaging

Innovativer Chip für 3D-Imaging

Vayyar Imaging, ein führender Anbieter von 3D-Imaging-Technologie, bietet künftig laut eigenen Aussagen "das weltweit fortschrittlichste "System on a Chip" (SOC) für die mmWave 3D-Imaging-Technologie" an. Dieser Chip integriere eine bislang noch nie...

mehr...

Gateway

Kleines WLAN-Gateway für serielle Daten

Serielle Daten, die an einer bestimmten Position einer Anlage oder eines Gebäudes erfasst werden, müssen oft über lange Datenleitungen zu einer zentralen Steuerung geführt werden. Hier wäre der Aufbau einer Funkstrecke die elegantere und...

mehr...

Datensicherung

Simple Backup-Lösung

Waxar, Spezialist für betriebssystem-unabhängige Backup-Lösungen, bringt mit Waxar ImageStick eine Datensicherungslösung für PC-basierte Steuerungssysteme auf den Markt. Die Backup-Software, die in einen USB-Stick integriert ist, erstellt auf diesem...

mehr...

Newsletter bestellen

Immer auf dem Laufenden mit dem SCOPE Newsletter

Aktuelle Unternehmensnachrichten, Produktnews und Innovationen kostenfrei in Ihrer Mailbox.

AGB und Datenschutz gelesen und bestätigt.
Zur Startseite