Dr. Rauni Kilde - O utajovaném pozadí světa, nadvládě mocných a nebezpečích kolem nás. (cz)
Obsah:
Vzhledem k tomu, že superpočítače se stanou silnějšími, stanou se díky většímu objemu vestavěné komponenty také zranitelnější než selhání. Několik výzkumníků na nedávné konferenci SC12, které se uskutečnilo minulý týden v Salt Lake City v Utahu, nabídlo možné řešení tohoto rostoucího problému.
Dnešní vysoce výkonné výpočetní systémy (HPC) mohou mít 100 000 uzlů nebo více - součásti paměti, procesorů, autobusů a dalších obvodů. Statisticky řečeno, všechny tyto komponenty se v určitém okamžiku nezdaří a zastaví operace, když tak učiní, řekl David Fiala, Ph.D student na státní univerzitě v Severní Karolíně, během rozhovoru na SC12.
Problém není nový, samozřejmě. Když bělový superpočítač ASCI (Accelerated Strategic Computing Initiative) se objevil online v roce 2001, měl v průměru pouze jeden pět hodin průměrný čas mezi poruchami (MTBF), a to částečně díky selhání součástí. Pozdější vyladění vylepšilo MTBF na ASCI White na 55 hodin, řekl Fiala.
Ale vzhledem k tomu, že se počet uzlů superpočítačů zvětšuje, tak to bude problém. "Je to něco, co se musí udělat s tím, že se zhorší, když se dostaneme do exaskály," říká Fiala a říká, že superpočítače v příštím desetiletí by měly mít desetkrát vyšší výpočetní výkon, který dnešní modely dělají. pro řešení selhání systému se nemusí měřit velmi dobře, řekl Fiala. Citoval kontrolní bod, ve kterém běžící program je dočasně zastaven a jeho stav je uložen na disk. Pokud by program následně selhal, systém je schopen restartovat úlohu od posledního kontrolního bodu.
NCSUDavid Fiala
Problém s checkpointingem podle Fiala je, že vzhledem k počtu uzlů roste, množství systémových režií potřebné k tomu, aby kontrolní body rostly stejně - a rostou exponenciálně. Například na superpočítači o velikosti 100 000 uzlů se bude podílet pouze na 35% činnosti. Zbytek bude převzato checkpointingem a - pokud by došlo k selhání operačního systému, odhadl Fiala.Vzhledem k veškerému dodatečnému hardwaru potřebnému pro exaskale systémy, který by mohl být vybudován z milionu nebo více komponent, spolehlivost systému bude mít aby se udržel stejný MTBF, který dnešní superpočítače těší, řekl Fiala.
Stará, dobrá rada: data zálohování
Fiala představila technologii, kterou vyvinuli spolu s dalšími výzkumníky, což může pomoci zlepšit spolehlivost. Technologie se zabývá problémem poškození tichých dat, když systémy detekují chyby při zápisu dat na disk.
V podstatě přístup výzkumníků spočívá v tom, že současně běží více kopií nebo "klonů" programu a poté porovnává odpovědi. Software, nazvaný RedMPI, je spuštěn ve spojení s rozhraním Message Passing Interface (MPI), knihovnou pro rozdělení běžících aplikací na více serverů, takže jednotlivé části programu mohou být prováděny paralelně.
RedMPI zachycuje a kopíruje všechny MPI zpráva, kterou aplikace odesílá, a odešle kopie zprávy na klon (nebo klony) programu. Pokud různé klony vypočítají různé odpovědi, pak se čísla mohou přepočítat za běhu, což ušetří čas a prostředky při spuštění celého programu.
"Implementace redundance není drahá, může být vysoká v počtech jádrových počtů které jsou zapotřebí, ale vyhýbá se nutnosti přepisů s restarty kontrolních bodů, "řekl Fiala. "Alternativou je samozřejmě jednoduché opakování pracovních úkolů, dokud si nemyslíte, že máte správnou odpověď."
Fiala doporučila provozovat dvě záložní kopie každého programu, a to za trojnásobnou redundanci. Ačkoli běh více kopií programu by zpočátku převzal více zdrojů, v průběhu času by to mohlo být skutečně efektivnější, protože programy by nemusely být opakovaně kontrolovány. Kontrola také nemusí být potřeba při spouštění více kopií, což by také ušetřilo systémové prostředky.
UCSCEv Miller
"Myslím, že myšlenka dělat redundanci je ve skutečnosti skvělý nápad." Pro velmi velké výpočty zahrnující stovky tisíc uzlů, jistě existuje šanci, že se chyby začnou plížit, "řekl Ethan Miller, profesor počítačové vědy na univerzitě v Kalifornii Santa Cruz, který se účastnil prezentace. Ale řekl, že tento přístup nemusí být vhodný vzhledem k množství síťové komunikace, kterou by tato redundance mohla způsobit. Navrhl spustit všechny aplikace na stejném souboru uzlů, což by mohlo minimalizovat internodový provoz.V jiné prezentaci představila Ana Gainaru, Ph.D. Studentka z Illinoisské univerzity v Urbane-Champaign, techniku analýzy log soubory předpovědět, kdy dojde k selhání systému.
Práce kombinuje analýzu signálu s dolováním dat. Analýza signálu se používá k charakterizaci normálního chování, takže když dojde k selhání, může být snadno vidět. Data mining hledá korelace mezi jednotlivými hlášenými poruchami. Jiní vědci prokázali, že několik selhání je někdy vzájemně propojeno, protože selhání s jednou technologií může ovlivnit výkon v jiných, podle Gainaru. Například pokud selže síťová karta, brzy se bude hobbit další systémové procesy, které se spoléhají na síťovou komunikaci.
Výzkumníci zjistili, že 70% korelovaných poruch poskytuje oknu příležitostí více než 10 sekund. Jinými slovy, pokud byl zjištěn první znak selhání, systém může mít až 10 sekund, než uloží svou práci nebo přesune práci do jiného uzlu, než dojde k závažnějšímu selhání. "Prognóza selhání může být spojena s dalšími technikami odolnosti proti chybám," uvedl Gainaru.
Joab Jackson pokrývá podnikový software a obecnou technologii o novinkách
IDG News Service. Sledujte Joab na Twitteru @ @ Joab_Jackson. Joabova e-mailová adresa je [email protected]
Mobilní komunikace společnosti Sony Ericsson neprodává tolik jednotek Xperia X1, jeho vlajkové lodi Windows Mobile, původně plánované z důvodu zpoždění výroby. Nejtěžší zásahy jsou Švédsko, Německo a Spojené království, země, ve kterých byl telefon poprvé spuštěn, uvedl úřadující představitel společnosti.
Očekává se, že v příštích několika dnech budou ve Švédsku prodány další telefony. očekávané ve Velké Británii a Německu během příštích pár týdnů, uvedl manažer společnosti Nordic Gustaf Brusewitz.
Conficker zasáhl nejtěžší v Asii, Latinské Americe
Asie a Latinská Amerika byly nejvíce zasaženy červem Conficker. : Diego AguirreComputerové sítě v Asii a Latinské Americe jsou nejvíce náchylné k rychle se šířícímu počítačovému červu, který infikoval mezi 6 miliony a 9 miliony osobních počítačů po celém světě, uvedli bezpečnostní experti.
Zálohování dat s Bonkey: Nejtěžší část se používá pro jméno
Tento dobře zaokrouhlený nástroj pro zálohování je překvapivě jednoduché.