Spis treści

Wydajność FDS na Wielu Rdzeniach i Skalowalność MPI

9 kwietnia 2023

#bezpieczeństwo pożarowe

#cfd

#fds

#mpi

#optymalizacja

Symulacje z zakresu dynamiki pożaru w oprogramowaniu FDS (Fire Dynamics Simulator), zwłaszcza te o dużej złożoności, często wymagają znacznego czasu obliczeniowego. Kluczowym sposobem na jego skrócenie jest wykorzystanie obliczeń równoległych, czyli rozdzielenie zadań na wielu rdzeniach procesora. Standardowa instalacja FDS umożliwia takie działanie dzięki zintegrowanej obsłudze interfejsu MPI (Message Passing Interface).

Ten artykuł wyjaśnia, jak poprawnie skonfigurować i uruchomić symulacje CFD w trybie równoległym. Dowiesz się, jak zmaksymalizować potencjał sprzętowy stacji roboczej, aby przyspieszyć realizację projektów inżynierskich związanych z bezpieczeństwem pożarowym.

Jak FDS Wykorzystuje Obliczenia Równoległe z MPI?

Oprogramowanie FDS skraca czas trwania symulacji, opierając się na interfejsie MPI. Ta technika pozwala na efektywne wykorzystanie wielu rdzeni, co znacząco zwiększa wydajność i skalowalność obliczeń na nowoczesnych procesorach. Czas potrzebny na ukończenie symulacji jest ściśle powiązany z całkowitym rozmiarem analizowanej domeny i złożonością modelowanych zjawisk, takich jak propagacja dymu.

Dekompozycja Domeny na Siatki Obliczeniowe (Meshes)

Podstawową strategią jest dekompozycja domeny. Oznacza to podział całej przestrzeni obliczeniowej na mniejsze, prostokątne obszary zwane siatkami (meshes). Każda siatka jest następnie przypisywana do osobnego procesu MPI, który wykonuje obliczenia dla swojego fragmentu. Taki podział umożliwia jednoczesne prowadzenie analiz na wielu rdzeniach, co prowadzi do znacznego przyspieszenia złożonych symulacji.

Rola MPI w Komunikacji Między Procesami

Kluczową rolę odgrywa MPI, które zarządza wymianą danych pomiędzy poszczególnymi procesami. Gdy zjawiska fizyczne, takie jak modelowanie przepływu ciepła czy dymu, przekraczają granice sąsiadujących siatek, procesy muszą się ze sobą komunikować. Narzut związany z tą komunikacją jest głównym czynnikiem ograniczającym skalowalność. Wzrost liczby siatek zwiększa intensywność wymiany danych, co może zniwelować korzyści płynące ze zrównoleglenia. Mimo to, w kontekście FDS, MPI skaluje się znacznie lepiej niż alternatywne podejście oparte na OpenMP.

MPI vs. OpenMP: Kluczowe Różnice w Zrównoleglaniu FDS

FDS, jako zaawansowane oprogramowanie CFD, wykorzystuje dwie podstawowe techniki zrównoleglania zadań: MPI oraz OpenMP. Różnią się one fundamentalnie modelem pracy i efektywnością. Porównanie obu metod pozwala zrozumieć, dlaczego MPI jest preferowane w profesjonalnych symulacjach z zakresu CFD w ochronie przeciwpożarowej.

Cecha	MPI (Message Passing Interface)	OpenMP (Open Multi-Processing)
Model Pamięci	Pamięć rozproszona	Pamięć współdzielona
Podział Zadań	Domena dzielona na niezależne siatki (meshes)	Równoległe pętle wewnątrz jednej siatki
Jednostka Pracy	Osobny proces na każdą siatkę	Wiele wątków w jednym procesie
Skalowalność w FDS	Wysoka, standard przemysłowy	Niska, znikome korzyści
Zastosowanie	Klastry, stacje wielordzeniowe	Pojedynczy procesor z wieloma rdzeniami

Dlaczego MPI jest Preferowaną Metodą?

MPI jest standardem dla FDS, ponieważ znacznie lepiej się skaluje, co bezpośrednio przekłada się na przyspieszenie obliczeń. Skalowalność MPI, choć ograniczona przez narzut komunikacyjny, pozwala efektywnie wykorzystać moc nowoczesnych procesorów. W praktyce, wersja OpenMP jest niemal nieskalowalna. Chociaż FDS teoretycznie wspiera model hybrydowy (MPI + OpenMP), w praktyce nie przynosi on znaczących korzyści. Zalecane jest ustawienie jednego wątku OpenMP na proces MPI.

Główne Czynniki Ograniczające Skalowalność MPI w FDS

Chociaż MPI oferuje znacznie lepszą skalowalność niż OpenMP, jego efektywność napotyka na fundamentalne ograniczenia. Główne bariery to narzut komunikacyjny, nierównomierne obciążenie rdzeni oraz sekwencyjna natura niektórych algorytmów.

Narzut Komunikacyjny (Communication Overhead): Gdy zjawiska jak transfer ciepła przekraczają granice siatek, procesy MPI muszą wymieniać dane. Im więcej siatek, tym intensywniejsza komunikacja. W pewnym momencie czas poświęcony na wymianę danych przewyższa zysk z podziału obliczeń.
Problem Nierównego Obciążenia Rdzeni (Load Imbalance): Czas symulacji jest determinowany przez najwolniejszy proces. Jeśli jeden rdzeń przetwarza siatkę ze źródłem ognia, podczas gdy inne obsługują obszary o małej aktywności, dochodzi do nierównego obciążenia. W rezultacie wiele rdzeni pozostaje w stanie bezczynności.
Ograniczenia Solwera Ciśnienia: Niektóre fragmenty kodu FDS, jak solwer ciśnienia, nie poddają się efektywnemu zrównolegleniu. Jego algorytm wymaga globalnej komunikacji i synchronizacji wszystkich procesów w każdym kroku czasowym. Ta sekwencyjna operacja stanowi fundamentalne wąskie gardło, szczególnie w symulacjach na dużą skalę.

Optymalizacja Siatki Obliczeniowej: Złote Zasady Wydajności

Efektywne modelowanie pożaru wymaga starannej optymalizacji podziału domeny. Skalowalność uzyskana dzięki MPI jest kluczowa dla skrócenia czasu analizy.

Dopasuj Liczbę Siatek do Liczby Fizycznych Rdzeni: Podstawową zasadą jest przypisanie jednej siatki obliczeniowej (mesh) do jednego fizycznego rdzenia procesora. Taki podział minimalizuje bezczynność zasobów i maksymalizuje wydajność.
Zwróć Uwagę na Kształt i Rozmiar Siatek: Optymalne są siatki o proporcjach zbliżonych do sześcianu, ponieważ minimalizują stosunek powierzchni do objętości. To redukuje narzut komunikacyjny między procesami.
Unikaj Długich i Wąskich Siatek: W przypadku obiektów takich jak tunele, zaleca się podział wzdłuż najdłuższego boku, aby zminimalizować powierzchnię styku. Długie, wąskie siatki generują nadmierne obciążenie komunikacyjne, które wydłuża całkowity czas symulacji.

Ręczne Przypisywanie Procesów MPI: Kiedy jest Konieczne?

Konieczność ręcznego przypisywania procesów MPI pojawia się, gdy liczba siatek przekracza liczbę dostępnych rdzeni. Domyślny mechanizm, zwłaszcza w starszych wersjach FDS, mógł prowadzić do nierównomiernego obciążenia. Celem ręcznej alokacji jest zrównoważenie obciążenia (load balancing), czyli zapewnienie, że każdy proces MPI przetwarza podobną liczbę komórek.

Implementacja odbywa się poprzez dodanie parametru MPI_PROCESS do linii &MESH w pliku wejściowym. Numeracja procesów zaczyna się od zera.

Przykład dla 8 siatek na 4 rdzeniach:

fds &MESH IJK=..., XB=..., MPI_PROCESS=0 / &MESH IJK=..., XB=..., MPI_PROCESS=0 / &MESH IJK=..., XB=..., MPI_PROCESS=1 / &MESH IJK=..., XB=..., MPI_PROCESS=1 / &MESH IJK=..., XB=..., MPI_PROCESS=2 / &MESH IJK=..., XB=..., MPI_PROCESS=2 / &MESH IJK=..., XB=..., MPI_PROCESS=3 / &MESH IJK=..., XB=..., MPI_PROCESS=3 /

Analiza Wydajności Symulacji za Pomocą Pliku `CHID_cpu.csv`

Plik CHID_cpu.csv jest kluczowym narzędziem do diagnostyki wydajności symulacji pożaru. Dostarcza on szczegółowych informacji o czasie, jaki każdy rdzeń poświęcił na poszczególne etapy obliczeń. Interpretacja pliku polega na porównaniu całkowitego czasu (kolumna TOTAL) dla każdego procesu MPI. Znaczące różnice wskazują na nierównomierne obciążenie rdzeni (load imbalance), które jest wąskim gardłem i wydłuża całkowity czas analizy.

Wpływ Sprzętu na Szybkość Obliczeń FDS

Szybkość obliczeń w FDS jest ściśle powiązana z wydajnością sprzętu. Skuteczna analiza ryzyka pożarowego często zależy od czasu, w jakim można uzyskać wyniki.

Procesor (CPU): Więcej rdzeni to szybsze obliczenia, ale obowiązuje prawo malejących zysków. Przejście z 16 na 32 rdzenie da mniejszy wzrost wydajności niż z 4 na 8. Co więcej, zaleca się pozostawienie jednego rdzenia wolnego dla systemu operacyjnego, aby uniknąć rywalizacji o zasoby.
Pamięć (RAM): Wymagana ilość pamięci zależy od wielkości modelu. Dobrą praktyką jest zapewnienie 2-4 GB RAM na każdy wykorzystywany rdzeń.
Sieć: W przypadku obliczeń na wielu maszynach (klaster), szybka sieć (minimum Gigabit Ethernet) jest kluczowa do minimalizacji opóźnień w komunikacji MPI.
Producent CPU: Badania wskazują, że symulacje FDS często działają szybciej na procesorach Intel. Wynika to z faktu, że kod źródłowy jest kompilowany przy użyciu kompilatorów Intela, które optymalizują go pod kątem własnej architektury.

Dobór odpowiedniego sprzętu jest kluczowy dla efektywnego CFD w budownictwie i innych zastosowaniach inżynierskich.

Najczęściej zadawane pytania

Jaka jest główna różnica między MPI a OpenMP w symulacjach FDS?

Główna różnica leży w modelu zarządzania pamięcią i podziale zadań. MPI używa modelu pamięci rozproszonej, dzieląc problem na niezależne siatki (meshes) przypisane do osobnych procesów. OpenMP działa w modelu pamięci współdzielonej, zrównoleglając pętle obliczeniowe wewnątrz jednej siatki. W FDS, MPI skaluje się znacznie lepiej i jest standardem przemysłowym, podczas gdy OpenMP oferuje znikome korzyści.

Jak optymalizacja siatki obliczeniowej (mesh) wpływa na szybkość obliczeń FDS?

Optymalizacja siatki jest kluczowa dla wydajności. Najważniejsze zasady to dopasowanie liczby siatek do liczby fizycznych rdzeni procesora oraz dbanie o ich kształt. Siatki o proporcjach zbliżonych do sześcianu minimalizują komunikację między procesami MPI, co skraca czas obliczeń. Długie i wąskie siatki zwiększają narzut komunikacyjny i spowalniają symulację.

Dlaczego wydajność FDS nie skaluje się liniowo wraz z liczbą rdzeni procesora?

Wydajność nie skaluje się liniowo z powodu trzech głównych ograniczeń: 1) Narzut komunikacyjny między procesami MPI, który rośnie z liczbą siatek; 2) Nierówne obciążenie rdzeni, gdy niektóre siatki są bardziej wymagające obliczeniowo; 3) Sekwencyjne fragmenty kodu, takie jak solwer ciśnienia, które wymagają globalnej synchronizacji i stają się wąskim gardłem przy dużej liczbie rdzeni.

Czy FDS to dobre narzędzie do symulacji CFD w inżynierii bezpieczeństwa pożarowego?

Tak, FDS jest jednym z wiodących i walidowanych narzędzi CFD (Obliczeniowej Mechaniki Płynów) przeznaczonych do modelowania pożarów. Jest szeroko stosowany w inżynierii bezpieczeństwa pożarowego do analizy ryzyka, projektowania systemów oddymiania, oceny dróg ewakuacyjnych i badania scenariuszy rozprzestrzeniania się dymu oraz ciepła w budynkach.

Ile rdzeni procesora powinienem używać do symulacji FDS dla optymalnej wydajności?

Optymalna liczba rdzeni zależy od konkretnego problemu, ale ogólną zasadą jest użycie tylu rdzeni, ile wynosi liczba siatek w modelu. Należy jednak pamiętać o zjawisku malejących zysków – podwajanie liczby rdzeni nie podwaja prędkości. Dobrą praktyką jest również pozostawienie jednego rdzenia wolnego dla systemu operacyjnego, aby uniknąć konfliktów o zasoby, co może poprawić stabilność i ogólną wydajność.