Windows

Facebookské velké datové plány zahrnují sklady, rychlejší analýzu

Week 9

Week 9
Anonim

Společnost Facebook může pokládat data, která má na svých miliardách uživatelů za reklamu, ale analýza, kterou stránky provádí na těchto datech, by měla nadále představovat řadu výzev v příštím roce, říká inženýr

. Problémy, které se Facebook musel potýkat s "mnohem dříve než širším průmyslem" efektivnější způsoby zpracování chování uživatelů na webu, lepší přístup a konsolidaci různých typů dat ve více datových centrech Facebook a navrhování nových softwarových systémů s otevřeným zdrojovým kódem pro zpracování těchto dat, Ra "Facebook je datová společnost a nejvíce zřejmá věc, o které si lidé myslí, že na tom frontě jsou reklamy zaměřené," uvedl Murthy, který řídí analytickou infrastrukturu společnosti Facebook.

mluvit o back-end infrastruktuře Facebooku, datové analýze a open source projektech.

"Ale to jde hlouběji než toto," řekl.

Jedna z hlavních oblastí work behind-the-scenes se týká infrastruktury pro analýzu Facebook, která je určena k urychlení vývoje produktu a ke zlepšení uživatelské zkušenosti prostřednictvím hluboké analýzy všech dostupných dat, ať už se jedná o akce, které uživatelé využívají na webu, jako je zveřejňování aktualizací stavu nebo aplikace používají v rámci Facebooku na různých zařízeních.

Facebook v současné době využívá několik různých otevřených softwarových systémů známých jako Hadoop, Corona a Prism pro zpracování a analýzu dat, které společnost zaměří na výrobu rychlejší a efektivnější v příštích šesti až dvanácti měsících, uvedl Murthy.

Mnohé výzvy společnosti jsou spojeny s tím, co Facebook označuje jako svůj datový sklad, který kombinuje data z více zdrojů do databáze, kde lze analyzovat aktivitu uživatele v souhrnu, například dáváním denní zprávy o počtu fotografií, které byly označeny v určité zemi, nebo o tom, kolik uživatelů v určité oblasti se zabývalo stránkami, které jim byly doporučeny.

Analýza je navržen tak, aby optimalizoval uživatelské zážitky a zjistil, co se jim líbí a nelíbí, ale zároveň se stává stále více zdaněním, protože Facebook má přístup ke stále větším datům o svých uživatelích, řekl Murthy. V současné době skladuje Facebook denně 500 terabajtů nových dat nebo 500 000 gigabajtů. Sklad se v posledních čtyřech letech rozrostl téměř o 4000 násobek, což je "cesta před růstem uživatelů Facebooku," uvedl Murthy.

Pro řešení těchto problémů společnost Facebook vyvinula svůj software Prism, který je navržen tak, aby fungoval klíčové analytické funkce v celosvětových datových centrech společnosti a analýzu rozdělili na "kusy", řekl Murthy. Tímto způsobem provádíme analýzu, například, nějaké metriky týkající se zpráv o uživateli, které nebudou do skladu obecně upchat.

"Často přemýšlíme o tom, jak tyto údaje zachytit," uvedl. > Společnost také pracuje na systému, který zaujme úplně jiný přístup k dotazu ve skladu, aby poskytl dobu odezvy během několika sekund, uvedl Murthy.

Další oblast, ve které se Facebook neustále zabývá zlepšováním, je její "transakční infrastruktura, ", Který zpracovává základní, každodenní zpracování dat, například řekněme, rád, komentáře a aktualizace stavu, aby se sociální síť udržovala hladce. Některé z otázek, které analytici a inženýři společnosti zkoumají, zahrnují zjištění, jak předpovídat skutečný růst tohoto typu dat a kolik počítačů Facebook by mělo skutečně přidělit, uvedl Murthy.

"Můžeme předpovědět, co bude za šest měsíců?"

Mezitím se Facebook také podílí na dlouhodobém úsilí o zefektivnění fyzických serverů. Společnost zahájila svůj projekt Open Compute v roce 2011 s cílem navrhnout modularizované servery, které zákazníkům poskytují větší kontrolu nad sítí, pamětí, napájecími zdroji a dalšími součástmi, které přicházejí na jejich servery. Bylo rozšířeno o začlenění procesorů ARM v lednu.