Naukowcy NCBJ wspomagają przetwarzanie ogromnych ilości danych w sieci globalnej
Twórcy i użytkownicy platformy obliczeniowej DIRAC-a spotykają się w Warszawie na konferencji organizowanej przez NCBJ. Polscy naukowcy przedstawią m.in. rozwiązania ułatwiające monitorowanie działania zasobów globalnych sieci obliczeniowych i wykorzystujące technologię systemów kolejkowych, stosowaną np. przez serwis fotograficzny Instagram oraz firmy Cisco, Ford i inne.
W Warszawie, 29 maja, rozpoczęła się trzydniowa konferencja twórców i użytkowników platformy do rozproszonego przetwarzania dużych zbiorów danych DIRAC. System został stworzony pierwotnie dla fizyków z eksperymentu LHCb przy Wielkim Zderzaczu Hadronów w CERNie. Dziś korzystają z niego naukowcy z różnych dziedzin. Cykliczne spotkanie użytkowników DIRACa po raz pierwszy jest organizowane w Polsce. Tegorocznym organizatorem konferencji jest Narodowe Centrum Badań Jądrowych (NCBJ), którego naukowcy uczestniczą w eksperymencie LHCb i korzystają z platformy DIRAC na co dzień. Z kolei ośrodek obliczeniowy NCBJ, Centrum Informatyczne Świerk (CIŚ) jest jednym z głównych światowych dostawców mocy obliczeniowych, które za pośrednictwem platformy DIRAC są wykorzystywane przez cały zespół LHCb.
„Współczesne przedsięwzięcia naukowe coraz częściej wymagają współpracy wielkich, liczących nawet tysiące osób, grup naukowców mających swoje pracownie na całym świecie” – wyjaśnia prof. dr hab. Wojciech Wiślicki, dyrektor Departamentu Układów Złożonych NCBJ, kierownik projektu CIŚ. „Prowadzone badania wymagają też przetwarzania ogromnej liczby danych, do czego wykorzystywana jest infrastruktura obliczeniowa rozproszona w dziesiątkach, a nawet setkach współpracujących instytucji badawczych. Do obsługi procesu przetwarzania danych tworzone są specjalne narzędzia informatyczne. Użytkownik systemu nie interesuje się tym, czy jego zadanie jest liczone w Genewie, w Świerku czy w Malezji. Jest dla niego ważne, by wynik został otrzymany szybko i by jego kolega mający swoje laboratorium na antypodach mógł z tego wyniku natychmiast skorzystać.”
Ilość danych zbieranych każdego dnia przez eksperyment LHCb odpowiada 10 tys. płyt CD. Dane przetwarzane są w 120 lokalizacjach na świecie, a jednocześnie uruchomionych jest średnio 50 tys. procesów. Strumień danych generowanych przez cztery eksperymenty LHC sięga 25 milionów gigabajtów na rok. Dane te muszą być przesłane i przetworzone w sprawny sposób. Jest to skala, w której wykorzystywane są metody tzw. big data, podobnie jak w serwisach typu Youtube czy Facebook. Utrzymanie funkcjonalności tak rozbudowanej struktury obliczeniowej pracującej dla wielu użytkowników jest bardzo trudnym zadaniem.
„System pracujący na rozproszonych zasobach wymaga m.in. zdalnego monitorowania” – tłumaczy dr Wojciech Krzemień (NCBJ), organizator tegorocznej konferencji użytkowników DIRACa i autor jednego z rozwiązań, które będzie na niej przedstawiane. „Administrator – często odległy o tysiące kilometrów od maszyny działającej w systemie – powinien wiedzieć na bieżąco o wszelkich zaistniałych nieprawidłowościach i podejmować stosowne działania. Proces monitorowania pracy zasobów nie powinien zakłócać pracy zwykłych użytkowników. Wspólnie z Henrykiem Giemzą z Zakładu Technologii Informatycznych NCBJ, zaproponowaliśmy rozwiązanie pozwalające niemal natychmiast określić, który z fragmentów sieci nie działa prawidłowo, oraz czy źródłem problemu są łącza czy konkretne zasoby przetwarzające lub przechowujące dane. Nasze rozwiązanie zostało zaimplementowane do DIRACa i właśnie czeka na skonfigurowanie. Elementem naszej propozycji jest moduł do integracji platformy DIRAC z serwerami kolejek wiadomości (Message Queue). Rozwiązanie tego typu wykorzystywane jest między innymi przez popularny serwis fotograficzny Instagram oraz inne globalne serwisy udostępniania danych.”
DIRAC to jedna z kilku platform obliczeniowych wykorzystywanych przez naukowców. Jej głównym użytkownikiem jest eksperyment LHCb – jeden z czterech wielkich multidetektorów obserwujących zderzenia protonów i ciężkich jonów rozpędzanych w Wielkim Zderzaczu Hadronów w Genewie. Z platformy DIRAC korzystają także inne duże grupy fizyków m. in. prowadzące eksperymenty Belle II w Japonii i BES III w Chinach. Ważnym użytkownikiem DIRACa jest też sieć BIOMED skupiająca głównie francuskich biologów i lekarzy zajmujących się m.in. rozwijaniem obrazowania medycznego na potrzeby redioterapii czy neurologii. W warszawskiej konferencji uczestniczą naukowcy z Europy Azji i USA, którzy będą dzielić się swoimi doświadczeniami z zakresu przetwarzania danych z wykorzystaniem sieci HPC typu Grid i Cloud.