transtec
Accelerate Productivity

Panasas PanFS Parallel File System für HPC Storage

                    Panasas

        

 

 

PanFS 10

 

           

 

PanFS Parallel File System

Panasas® PanFS®, die Betriebsumgebung für die Panasas ActiveStor® Architektur, maximiert die Effizienz aller Speichermedien in einem nahtlosen, leistungsstarken Speichersystem.
Ein Scale-Out-Objekt-Backend unterstützt eine unbegrenzte Skalierung, während eine optimale Datenplatzierung und eine intern ausgewogene Architektur die Effizienz steigern.
PanFS nutzt Dynamic Data Acceleration, um sich automatisch an sich ändernde Dateigrössen und Arbeitslasten anzupassen und so eine konstant hohe Leistung für die anspruchsvollen Arbeitslasten von heute zu liefern.
Und das alles bei frustfreier Bereitstellung, Betrieb und Wartung.

Gehen Sie nie wieder Kompromisse zwischen Leistung und Zuverlässigkeit ein.
Panasas verbindet die überragende Leistung und Skalierbarkeit eines parallelen Dateisystems mit der felsenfesten Ausfallsicherheit eines Cloud-Objektspeichers. Das parallele Dateisystem PanFS ist die branchenweit einzige Lösung mit anpassbarem Erasure Coding auf Dateiebene und umfassender Ausfallsicherheit, die in die Kernsoftware integriert ist. Das bedeutet, dass Sie sich bei der Ausweitung Ihres Betriebs keine Sorgen über Datenverluste oder Serviceunterbrechungen machen müssen – die Zuverlässigkeit nimmt mit der Skalierung sogar zu.

Erstaunliche Einfachheit – Set-It-and-Forget-It Automation – Kein Tuning oder Retuning notwendig
PanFS on ActiveStor bietet eine frustfreie Bereitstellung, Bedienung und Wartung. Sie können in weniger als einem Tag vom Dock zu den Daten gelangen, und die Lösung erfordert keine tiefgreifenden technischen Kenntnisse für die laufende Verwaltung. Ein einziger IT-Administrator kann Systeme jeder Grösse unterstützen.
Die Panasas Lösung kümmert sich um sich selbst. Das schlüsselfertige Gerät rationalisiert die Installation. Normale Wartungsarbeiten erfordern keine manuellen Eingriffe. Wiederherstellungsmassnahmen werden von der intelligenten PanFS-Software automatisch eingeleitet, überwacht und ausgeführt.
Im Gegensatz zu anderen High-Performance-Computing-Storage-Lösungen muss die Panasas-Appliance zur Aufrechterhaltung der Spitzenleistung nicht eingestellt oder nachjustiert werden. Automatisierte Aufgaben reduzieren den Zeitaufwand für die Speicherverwaltung und helfen Ihnen, Kosten zu senken und Ressourcen für wichtige geschäftliche Herausforderungen freizusetzen.

Lineare Skalierbarkeit ohne Begrenzung – Maximale Gesamtleistung für vielfältige und sich verändernde Arbeitsabläufe in HPC und AI
Skalieren Sie schnell und schrittweise, ohne Unterbrechung und ohne die Notwendigkeit von Anpassungen. Unser Objekt-Backend ist unbegrenzt skalierbar, sodass Sie Kapazität und Leistung mühelos erweitern können. Eine ausgewogene Knotenarchitektur optimiert die Netzwerk-, CPU-, Arbeitsspeicher- und Speicherkapazität und verhindert so Hotspots und Engpässe.
Dynamische Datenbeschleunigung verwaltet die Bewegung von Dateien zwischen SSD und HDD und maximiert das volle Potenzial von NVMe

Panasas Linear-Scalability-Parallel-Architecturev2

Die herausragende HPC-Speicherarchitektur
Drei Komponenten arbeiten zusammen, um das PanFS-Dateisystem zu betreiben: Director Nodes, Storage Nodes und der DirectFlow-Client-Treiber. Die Director Nodes und Storage Nodes sind Computersysteme, auf denen die PanFS-Software läuft und die zusammen die PanFS-Speicherlösung von Panasas bilden. Der DirectFlow-Client-Treiber ist ein ladbares Softwaremodul, das auf Linux-Compute-Servern („Clients“) läuft und mit den Director Nodes und Storage Nodes interagiert, um die von PanFS gespeicherten Dateien zu lesen und zu schreiben. Die erforderliche Verwaltung erfolgt über die grafische Benutzeroberfläche (GUI) oder die Befehlszeilenschnittstelle (CLI), die auf einem Director-Knoten läuft. Es besteht keine Notwendigkeit, mit den Speicherknoten oder dem DirectFlow-Client-Treiber zu interagieren – die Director-Knoten kümmern sich um alles.

Trennung von Kontroll- und Datenebenen
PanFS trennt ausdrücklich die „Steuerebene“ von der „Datenebene“, und die Director-Knoten in PanFS sind der Kern der Steuerebene. Direktor-Knoten:
1) Zwischenspeichern und Ändern von Dateisystem-Metadaten (z. B. Verzeichnisse, Dateiattribute, Zugriffsberechtigungen usw.).

2) Koordinierung der Aktionen der Speicherknoten und der DirectFlow-Client-Treiber für Dateizugriffe.
3) Verwaltung des Mitgliedschaftsstatus von Director- und Storage-Knoten innerhalb des PanFS-Storage-Clusters.
4) Kontrolle aller Vorgänge zur Wiederherstellung von Ausfällen und der Datenzuverlässigkeit.

Bei den Director-Knoten handelt es sich um handelsübliche Compute-Server mit einer Hochgeschwindigkeits-Netzwerkverbindung, beträchtlicher DRAM-Kapazität und einem dauerhaften Speicher für Transaktionsprotokolle.

Die Speicherknoten in PanFS sind das Herzstück der Datenebene. Sie sind der einzige Teil der Gesamtarchitektur, der Daten oder Metadaten speichert. Während Director Nodes die Metadaten des Dateisystems bereitstellen und ändern, verwenden sie Storage Nodes, um sie zu speichern. Bei den Speicherknoten handelt es sich um Systeme, die wir aufgrund ihrer sorgfältig ausbalancierten Hardwarearchitektur in Bezug auf ihre HDD-, SSD-, NVMe- und DRAM-Kapazitäten, die Stärke der CPU, die Netzwerkbandbreite usw. ausgewählt haben.

Der DirectFlow-Client-Treiber ist eine ladbare Dateisystem-Implementierung für Linux-Systeme, die auf Compute-Servern installiert wird und von Ihren Anwendungsprogrammen wie jedes andere Dateisystem verwendet wird. Er arbeitet mit den Director Nodes und Storage Nodes zusammen, um ein vollständig POSIX-konformes und Cache-kohärentes Dateisystemverhalten von einem einzigen Namespace aus für alle Server im Compute-Cluster bereitzustellen. Es werden alle gängigen Linux-Distributionen und -Versionen unterstützt.

Der zuverlässigste Speicher der HPC-Klasse – Director Software und tiefgreifend automatisierte Fehlerbehebung
Director Nodes sind nicht nur für die POSIX-Semantik und die Cache-Kohärenz der Dateien in einem Volume verantwortlich, sondern müssen auch den Status und den Zustand der einzelnen Speicher- und Director Nodes verwalten, die Teil des Realm sind. Panasas hat die Fehlermodi aller Standardplattformen analysiert, auf die PanFS portiert wurde, und wir haben eine Wiederherstellungslogik für jeden dieser Fälle in den Director-Node-Software-Stack integriert. Diese zusätzliche Entwicklungsarbeit trägt wesentlich zur Gesamtzuverlässigkeit eines PanFS-Realms bei und ist einer der Schlüssel zu seiner unkomplizierten Verwaltung. PanFS reagiert automatisch auf Ausfälle und erholt sich von ihnen und kümmert sich um sich selbst.

 

File Maps, Parallelism und Erasure Coding
PanFS nutzt mehrere Speicherknoten, indem es jeder Datei eine Karte zuweist, die anzeigt, wo alle gestrippten Komponenten dieser Datei zu finden sind und welcher Speicherknoten jeden Teil enthält. Der DirectFlow-Client verwendet diese Zuordnung, um zu wissen, auf welche Speicherknoten er direkt oder parallel zugreifen muss.
PanFS verwendet ausserdem Network Erasure Coding als Teil des Striping, um ein Höchstmass an Datenintegrität und Zuverlässigkeit zu gewährleisten.

 

Jede Datei ist individuell erasure-codiert für maximale Zuverlässigkeit
Bei den Speicherknoten in PanFS handelt es sich um hochentwickelte Objektspeichergeräte (OSDs), und wir profitieren von unseren OSDs genauso von den Vorteilen einer skalierbaren und gemeinsam genutzten Architektur wie jeder andere Objektspeicher auch. Die Definition eines Objekts, die in unseren OSDs verwendet wird, stammt aus der SCSI-Standarddefinition von Objekten und nicht aus der Amazon S3-Objektdefinition.
PanFS verwendet SCSI-Objekte, um POSIX-Dateien zu speichern, aber es geht dabei anders vor, als wenn S3-Objekte typischerweise zum Speichern von Dateien verwendet werden. Anstatt jede Datei in einem Objekt zu speichern, wie es S3 tut, strippt PanFS eine grosse POSIX-Datei über eine Reihe von Komponentenobjekten und fügt zusätzliche Komponentenobjekte in diesen Stripe ein, die die P- und Q-Datenschutzwerte eines N+2 Erasure Coding Schemas speichern. Die Verwendung mehrerer Objekte pro POSIX-Datei ermöglicht das Striping, das eine der Quellen für die Leistung eines parallelen Dateisystems ist.

Ein RAID-Verbund rekonstruiert den Inhalt von Laufwerken, während PanFS den Inhalt von Dateien rekonstruiert.
Während grosse POSIX-Dateien mit Hilfe von Erasure Coding in mehreren Komponentenobjekten gespeichert werden, werden kleine POSIX-Dateien mit Dreifach-Replikation in drei Komponentenobjekten gespeichert. Dieser Ansatz bietet eine höhere Leistung als die Verwendung von Erasure Coding für solch kleine Dateien und ist ausserdem platzsparender. Sofern der erste Schreibvorgang in eine Datei nicht gross ist, beginnt sie als kleine Datei. Wenn eine kleine Datei zu einer grossen Datei anwächst, stellt der Director Node die Datei transparent auf das erasure codierte Format um, wenn dieses effizienter wird.

Wenn eine Datei erstellt wird und zu einer grossen Datei heranwächst, weist der Director Node, der diese Vorgänge verwaltet, jedes der einzelnen Komponentenobjekte, aus denen die Datei besteht, nach dem Zufallsprinzip verschiedenen Speicherknoten zu. Keine zwei Komponentenobjekte für eine Datei befinden sich in der gleichen Ausfallsdomäne.

Panasas DirectFlow-Protokoll
Das DirectFlow-Protokoll ist ein Netzwerkprotokoll, das von Panasas für den direkten und effizienten Zugriff auf Dateien in parallelen Dateisystemen entwickelt wurde. Es ermöglicht parallelen Zugriff auf Dateien, optimiert Datenübertragungen, minimiert Overheads und erlaubt den direkten Zugriff auf Datenblöcke, was dazu beiträgt, die Latenz zu reduzieren und die Effizienz bei der Datenübertragung zu maximieren. Das Protokoll ist darauf ausgerichtet, die Leistung zu maximieren und bietet trotzdem eine gewisse POSIX-Kompatibilität. Es ist spezifisch für Panasas ActiveStor und spielt eine entscheidende Rolle bei der Beschleunigung von Lese- und Schreibvorgängen in HPC-Umgebungen.

Verhinderung von Hot Spots
Durch die zufällige Zuordnung von Komponentenobjekten zu Speicherknoten wird die Last der Dateizugriffe auf alle diese Knoten verteilt. In den meisten PanFS-Installationen ist die Anzahl der Speicherknoten viel grösser als die typische Stripe-Breite einer Datei, so dass sich jede Datei sehr wahrscheinlich nur wenige Speicherknoten mit anderen Dateien teilt. Dadurch wird die Wahrscheinlichkeit, dass ein einzelner Speicherknoten überlastet wird und die Leistung des gesamten Realms beeinträchtigt, erheblich reduziert. Das Ergebnis ist eine wesentlich gleichmässigere Systemleistung, unabhängig davon, welche Arbeitslast von den Rechenservern angefordert wird oder wie sie sich im Laufe der Zeit verändert. PanFS erreicht dies ohne jegliche Abstimmung oder manuelle Eingriffe.

Da eine skalierbare Leistung davon abhängt, dass alle Dateien relativ gleichmässig über den Pool von Speicherknoten verteilt werden, beinhaltet PanFS Active Capacity Balancing. Wenn das Gleichgewicht um mehr als einen bestimmten Schwellenwert abweicht – z. B. wenn viele Dateien auf einmal gelöscht werden und ein OSD am Ende deutlich weniger ausgelastet ist als die anderen -, fordert der Realm-Präsident den Pool der Direktoren auf, die Auslastung aller Speicherknoten zu überprüfen und Komponentenobjekte transparent von überfüllten Speicherknoten auf weniger ausgelastete Speicherknoten zu verschieben, während der Realm online ist.

Aktiver Kapazitätsausgleich wird auch verwendet, wenn neue Speicherknoten in einen Realm aufgenommen werden. Unmittelbar nach dem Hinzufügen beginnt der Realm, Teile der neu erstellten Dateien auf ihnen zu speichern. Da die Auslastung dieser neuen Speicherknoten so viel geringer ist als die Auslastung der vorhandenen Speicherknoten, beginnt Active Capacity Balancing im Hintergrund mit dem Verschieben von Komponentenobjekten von den vorhandenen Speicherknoten auf die neuen Speicherknoten. Die neuen Speicherknoten tragen sofort zur Leistung des Realms bei und übernehmen nach und nach immer mehr von der Arbeitslast des Realms, bis alle Speicherknoten wieder gleichermassen zur Gesamtleistung des Realms beitragen.

Zusätzlich zu den Leistungs- und Zuverlässigkeitsvorteilen, die sich aus der PanFS-Gesamtarchitektur ergeben, gibt es erhebliche Leistungsoptimierungen in der PanFS-Speicherknoten-Software, die die effizienteste Nutzung der verfügbaren Speichermedien in jedem Speicherknoten ermöglichen. PanFS ist darauf ausgelegt, Kombinationen von bis zu vier verschiedenen Leistungs-„Tiers“ zu verarbeiten, darunter Storage Class Memory wie pmem von CXL 2.0, latenzoptimierte NVMe-SSDs, kapazitätsoptimierte SSDs und HDDs.

Datensicherheit – ACLs, SELinux und Verschlüsselung im Ruhezustand
PanFS unterstützt zwei Funktionen, die unbefugten Datenzugriff verhindern, während der Realm online ist – ACLs und SELinux, und eine, die unbefugten Datenzugriff verhindert, während der Realm offline ist – Encryption at Rest.
Zusätzlich zu den traditionellen Linux-Benutzer-IDs, Gruppen-IDs und Modus-Bits wie „joe dev -rwxr-xr-x“ unterstützt PanFS Zugriffskontrolllisten (ACLs) für jede Datei und jedes Verzeichnis. PanFS ACLs sind vollständig kompatibel mit Windows ACLs und ActiveDirectory-basierter und LDAP-basierter Kontenverwaltung und bieten eine feinkörnige Kontrolle darüber, welche Benutzerkonten welche Operationen auf jeder Datei oder jedem Verzeichnis ausführen dürfen. 

Panasas PanView Analytics Example Dashboard

PanView – Analytische Einblicke in die Dateipopulation
PanFS enthält eine optimierte API namens PanView für den Massenabruf der POSIX-Metadaten von in PanFS gespeicherten Dateien und unterstützt den Export dieser Metadaten in Visualisierungstools zur Analyse. Eine optionale erweiterte Version von PanView ermöglicht vollständige grafische Analyseberichte und Ad-hoc-Abfragen, ohne dass Tools von Drittanbietern erforderlich sind.

PanMove – Optimierte Massenverschiebung von Daten in grossem Umfang, einschliesslich in/aus Clouds
PanFS enthält eine besonders optimierte und skalierbare Datenverschiebungsfunktion namens PanMove, mit der grosse Benutzerdatendateien auf/von anderen Systemen kopiert werden können, sowohl auf PanFS-Realms als auch auf Nicht-PanFS-Speicherlösungen, egal ob lokal oder geografisch entfernt. PanMove kann die Daten zwischen Quelle und Ziel synchronisieren; es kann die Daten auch verschieben, indem es die Quelle löscht, nachdem die Kopie erstellt und verifiziert worden ist. Darüber hinaus kann PanView so konfiguriert werden, dass es PanMove-Operationen direkt auslöst und den Benutzer nicht nur darüber informiert, dass er einige Dateien verschieben soll.

Die Basisebene dieser Funktion ist eine optimierte und parallele „rsync“-Implementierung, die Bewegungen zwischen POSIX-Dateisystemen unterstützt. Da Cloud-Speicher als Basis für Berechnungen und/oder als Archivspeicher für wertvolle Daten genutzt werden können, ist eine optionale erweiterte Version von PanMove eine voll funktionsfähige parallele Data-Mover-Architektur, die Dateien zu/von allen grossen öffentlichen Clouds (AWS, Azure und Google) über deren native Objekt-APIs sowie zwischen POSIX-Dateisystemen übertragen kann. PanMove kann auch Sicherungs- und Archivierungsvorgänge auf lokalen Medien wie Bändern sowie Cloud-Archivspeicher unterstützen.

Abschluss

PanFS hat tiefe Wurzeln in der HPC-Branche. Panasas hat im Laufe der Jahre viele Kernaspekte der Architekturen und Best Practices für HPC-Speicher entwickelt und beigetragen. Der Fokus von PanFS auf Zuverlässigkeit und einfache Verwaltung ist einzigartig für ein Speichersystem der HPC-Klasse und schliesst die Lücke zwischen dem traditionellen HPC, das sich auf Kosten der Zuverlässigkeit auf die Leistung konzentrierte, und der neuen Realität des HPC, das als Kerndienstleistung in das Unternehmen einzieht.

Der Begriff „Scratch-Storage“, der traditionell auf HPC-Speichersysteme angewandt wurde, impliziert im Wesentlichen zwei Dinge: dass das Speichersystem schnell, aber unzuverlässig ist. Mit PanFS müssen Sie sich nicht mehr entscheiden – PanFS ist sowohl sehr schnell als auch sehr zuverlässig. Es kann die Hochleistungs-Zwischendateien von HPC-Rechenjobs speichern und bereitstellen und gleichzeitig alle Home-Verzeichnisse und Zusatzdateien Ihrer Benutzergemeinschaft speichern und bereitstellen, und das mit Stabilität der Unternehmensklasse, Datenzuverlässigkeitsfunktionen und einfacher Verwaltung.

PanFS ist das erste Speichersystem der HPC-Klasse, das alle Anforderungen einer Hochleistungsumgebung erfüllen kann.

    Bei uns finden Sie Produkte von renommierten Herstellern für PC-Systeme, Server, Storage und Netzwerk.

    KONTAKT

    Transtec Computer AG
    Chaltenbodenstrasse 21
    CH-8834 Schindellegi

    +41 44 818 47 00
    transtec.ch@transtec.ch
    Ihr Weg zu uns