Wie füreinander gemacht:

Big Data und HPC

Vorbei sind die Zeiten, in denen High Performance Computing (HPC) ein Nischenthema war, heute ist es fast schon Mainstream. Entscheidend dazu beigetragen hat vor allem die verstärkte Nutzung im Big-Data-Umfeld.

Grafik: transtec

Dass High Performance Computing (HPC) und Big Data heute fast immer in einem Atemzug genannt werden, liegt unter anderem daran, dass HPC sein ursprüngliches Anwendungsspektrum erweitert hat – und zwar um den Bereich Big Data. Dieser war noch vor fünf Jahren keinesfalls ein Bestandteil von HPC, heute positioniert sich fast jeder bedeutende HPC-Player auch im Big-Data-Umfeld, überwiegend im Segment Big Data Analytics.

So überraschend ist das eigentlich nicht. Auch wenn die eingesetzten Technologien oder auch die jeweiligen Zielsetzungen teilweise unterschiedlich sind, gibt es einen gemeinsamen Nenner: der hohe Rechenbedarf. Ein HPC-Lösungsanbieter wie transtec ist nicht nur in der Lage große HPC-Rechencluster mit mehr als einem Petaflops Rechenpower zu konzipieren und aufzubauen, sondern kann natürlich auch zum Beispiel einen Hadoop-Cluster für Big Data Analytics mit zehn Petabyte Speicherkapazität problemlos realisieren.

Beim HPC geht es traditionell um rechenintensive Simulationen oder Analysen großer Datenbestände. Im industriellen oder mittelständischen Umfeld werden HPC-Systeme vor allem für die Entwicklung neuer und die Verbesserung vorhandener Produkte oder Produktkomponenten betrieben, wie die Optimierung von Produktionsprozessen. Konkrete Anwendungsbeispiele sind Crash-Simulationen bei Automobilherstellern oder die Berechnung des optimalen Energiemix durch Stromanbieter. Bereits bei der Entwicklung von einzelnen Teilen und Komponenten wird HPC eingesetzt. Daher haben auch kleinere Unternehmen oder Ingenieurbüros, also ganz „normale“ Unternehmen, einen Bedarf an HPC.

Anzeige
Autor Dr. Oliver Tennert ist Director HPC Solutions bei der transtec AG in Reutlingen.

HPC für die Wertschöpfungskette
HPC-Anwendungen sind damit ein wesentlicher Bestandteil der Wertschöpfungskette des Unternehmens. Auch bei akademischen Institutionen stehen rechenintensive Datenanalysen und Simulationen im Vordergrund. Im Controlling oder in der Unternehmensleitung finden sich dagegen die Nutzer von Big-Data-Systemen. Big Data Analytics ist eine zentrale Anwendung im Business-Intelligence- und Business-Analytics-Umfeld, also in Bereichen, in denen sehr viele Daten unterschiedlichen Typs in kurzer Zeit anfallen und diese Daten so schnell wie möglich ausgewertet werden müssen. Dazu gehören zum Beispiel die Erfassung und Auswertung von Finanzdaten und Kennzahlen.

Big-Data-Plattformen werden aber auch in produktionsspezifischen Bereichen eingesetzt wie die Steuerung von Produktionsprozessen „just in time“ oder die Durchführung von Analysen zur Prozessoptimierung und -automatisierung. Gerade bei Anwendungen, bei denen es um eine schnelle Datenabfrage oder Lesezugriffe geht, sind leistungsstarke Big-Data-Technologien gefragt. Ein Beispiel sind hier Applikationen von Buchungsportalen oder das Aufdecken von Unregelmäßigkeiten bei Finanztransaktionen (Fraud Detection) bei Kreditkartenabrechnungsinstituten, bei denen Datenbankanalysen in kürzester Zeit erfolgen müssen.

Die Datenflut nimmt zu
Die Datenvolumina werden in allen Bereichen weiter kontinuierlich wachsen. Dies wird, forciert durch neue Entwicklungen wie das Internet der Dinge und Services, weshalb künftig kaum ein Unternehmen am Thema Big Data vorbeikommen wird. Denn Daten sind eine unverzichtbare Informationsquelle für jedes Unternehmen, wenn sie richtig aufbereitet, gefiltert, strukturiert und bewertet sind. Da es sich hier um eine teilweise unstrukturierte Datenflut handelt, die eine hohe Rechen-Power erfordert, kommen zunehmend auch im Bereich Big Data leistungsstarke HPC-Systeme zum Einsatz.

Von der technischen Seite aus gibt es bei Big Data und HPC mehr Gemeinsamkeiten als oft vermutet wird. Das betrifft etwa den grundlegenden „Scale-Out“-Ansatz. Nicht der einzelne Server wird immer leistungsfähiger, sondern durch Parallelisierung und Verteilung der Last auf mehrere Server wird eine Beschleunigung erzielt. Parallele Berechnungen etwa über den Message-Passing-Interface (MPI)-Standard sind im HPC-Umfeld heute das Maß aller Dinge. Simulationen werden damit auf vielen Rechnern gleichzeitig gerechnet, wodurch die Rechenzeit sinkt. Im Big-Data-Analytics-Umfeld gewinnen verteilte und vor allem In-Memory-Datenbanken stark an Bedeutung. Datenbank-Abfragen können so von mehreren Servern gleichzeitig und mit sehr geringer Latenz bearbeitet werden.

Open-Source-Lösungen wie Lustre oder BeeGFS vom Fraunhofer-Institut für Techno- und Wirtschaftsmathematik in Kaiserslautern sorgen als parallele Filesysteme für eine Beschleunigung der HPC-Anwendungen. Für Big Data Analytics hat sich dagegen beispielsweise Hadoop als Framework für die verteilte Datenanalyse etabliert.

Big Data und HPC aus der Cloud
Ein genereller IT-Trend betrifft heute sowohl HPC- als auch Big-Data-Anwendungen: Die dynamische Provisionierung von Ressourcen in Private-Cloud-Szenarien gewinnt dramatisch an Bedeutung. In erheblichem Maße hat dazu das Softwareprojekt Open-Stack beigetragen. In naher Zukunft wird das dynamische Deployment in mittel- bis sehr großen Umgebungen genauso Usus sein wie heute das effiziente, allerdings statische Deployment. Künftig werden also virtuelle Maschinen erst dann bereitgestellt, wenn sie benötigt und angefragt werden. Das heißt, die dynamische Provisierung sorgt dafür, dass die Hardware, die eigentliche Rechnerkapazität also, immer genau für einen bestimmten Zweck konzipiert und zur Verfügung gestellt wird. Der Vorteil ist, dass beispielsweise vorbereitete, aber inaktive Windows-Server keine Hardware-Ressourcen binden, die eigentlich gerade von Linux-Compute-Nodes für Rechenjobs benötigt werden.

Doch zurück zu Open-Stack: Die Plattform hat sich nicht zuletzt dank der Tatsache, dass sie gewissermaßen eine Gemeinschaftsentwicklung mehrerer großer Player im IT-Markt ist, als das Cloud-Betriebssystem schlechthin herauskristallisiert. Vorurteile gibt es verschiedentlich noch hinsichtlich einer vermeintlichen Komplexität. Dies ist allerdings nicht unbedingt zutreffend. In der Tat kann man sich mit Open-Stack das Leben sehr schwer machen, wenn mal will. Es ist aber auch nicht notwendig. Eine normale Linux-Installation macht man heutzutage schließlich auch nicht mehr „from scratch“. Hierfür bedient man sich im professionellen Umfeld qualitativ hochwertiger Distributionen, die auch Support anbieten. Und für Open-Stack gilt das Gleiche. Bright Computing etwa bietet hier den Bright Cluster Manager for Big Data und den Bright Cluster Manager for HPC an. Aber auch führende Anbieter im Open-Stack-Bereich wie Red Hat verfügen über entsprechende Deployment-Frameworks.

Durch den Einsatz von HPC-Systemen für Big Data Analytics ist es möglich einen schnellen Zugriff auf alle unternehmensrelevanten Erkenntnisse zu bekommen. Für Unternehmen ist nicht nur die große Rechenleistung von Bedeutung, sondern auch die hohe Geschwindigkeit – viel spricht deshalb für eine kombinierte Nutzung beider Lösungen. -sg-

Dr. Oliver Tennert, transtec AG

transtec, Reutlingen, Tel. 07121/2678-400, www.transtec.de

Anzeige

Das könnte Sie auch interessieren

Anzeige

Hardware

Bechtle gewinnt Ausschreibung der NATO

Die NATO Communications and Information (NCI) Agency hat der Bechtle AG den Zuschlag für einen Rahmenvertrag zur Deckung des Bedarfs an IT-Komponenten erteilt. Über das vereinbarte Bestellmanagement können berechtigte Einrichtungen standardisierte...

mehr...

Hardware

ISC-Kongress: Rechnen auf höchstem Niveau

Zu seinem 30. Jahrestag präsentiert sich der Kongress ISC High Performance 2015 als die bislang größte Veranstaltung in seiner Geschichte. Hier dreht sich vom 12. bis 16. Juli 2015 in Frankfurt/Main alles um Leistung – Rechenleistung.

mehr...
Anzeige

Daten speichern

5 Trends auf dem Vormarsch

Homogene Speicherlandschaften gehören der Vergangenheit an. Der digitale Fortschritt, die Flut unterschiedlicher Datentypen und die höheren Anforderungen an Skalierbarkeit und Flexibilität erfordern neue Speicherkonzepte. IT-Dienstleister Transtec...

mehr...

Fabrik-Vernetzung

Standards setzen sich durch

Datennetze in Fabriken müssen schnell, echtzeitfähig und standardisiert sein, fordert Oliver Riedel, Professor vom Institut für Steuerungstechnik der Werkzeugmaschinen und Fertigungseinrichtungen (ISW) der Universität Stuttgart.

mehr...

3D-Imaging

Innovativer Chip für 3D-Imaging

Vayyar Imaging, ein führender Anbieter von 3D-Imaging-Technologie, bietet künftig laut eigenen Aussagen "das weltweit fortschrittlichste "System on a Chip" (SOC) für die mmWave 3D-Imaging-Technologie" an. Dieser Chip integriere eine bislang noch nie...

mehr...

Gateway

Kleines WLAN-Gateway für serielle Daten

Serielle Daten, die an einer bestimmten Position einer Anlage oder eines Gebäudes erfasst werden, müssen oft über lange Datenleitungen zu einer zentralen Steuerung geführt werden. Hier wäre der Aufbau einer Funkstrecke die elegantere und...

mehr...

Newsletter bestellen

Immer auf dem Laufenden mit dem SCOPE Newsletter

Aktuelle Unternehmensnachrichten, Produktnews und Innovationen kostenfrei in Ihrer Mailbox.

AGB und Datenschutz gelesen und bestätigt.
Zur Startseite