Android

Výzkum Google zaměřuje na strukturované údaje webu

Leap Motion SDK

Leap Motion SDK
Anonim

"Na webu je mnoho strukturovaných dat a my jsme že se nám nepodaří prezentovat to našim uživatelům, "řekl Alon Halevy během rozhovoru na konferenci New England Database on Massachusetts Institute of Technology

Halevy se zčásti odvolával na tzv." hluboký web ", například databáze, které se nacházejí za webem založeným na formulářích jako jsou Cars.com nebo Realtor.com. Google odesílá dotazy do různých formulářů nějakou dobu, získává výsledné webové stránky a začleňuje je do svého vyhledávacího indexu, pokud informace vypadají užitečné.

Ale také společnost chce analyzovat data nalezená v strukturovaných tabulkách na mnoha webových stránkách, uvedla Halevy, která nabízí jako příklad tabulku na webové stránce, která uvádí prezidenta Spojených států.

A tam jsou záznamy o těchto stolech - Index Google se objevil 14 miliardy z nich, podle Halevyho. "Velmi rychle si uvědomil, že více než 98 procent z nich není tak zajímavé," ale i po významném filtrování zůstanou okolo 154 milionů tabulek, které by měly být indexovány.

Jedním z hlavních cílů společnosti Google je poskytnout výsledky, "vyhledávacího dotazu, zejména průzkumného typu, jako například" cestování ve Vietnamu ", na rozdíl od dotazu na konkrétní fakt, jako je" populace Vietnamu ", řekl Halevy. Dřívější dotaz by například poskytl informace o vízových požadavcích, počasí a turistických balíčcích.

Nápad má ozvěny vyhledávací služby nabízené společností Kosmix, ale společnost Google chce jít dále, podle Halevyho. "Kosmix vám dá" aspekt ", ale je připojen k informačnímu zdroji," řekl.

Hledání "cestování Vietnamem" na Kosmixu dává organizovaný soubor výsledků, včetně recenzí restaurací z New York Times, obrazů z Yahoo a Flickr, nákupní informace od společnosti Shopping.com a obecné výsledky webových stránek společnosti Google

"V našem případě by všechny aspekty mohly být pouze výsledky vyhledávání na webu, ale zorganizovali bychom je jinak," řekl Halevy.