Car-tech

Google: 129 milionů různých knih bylo zveřejněno

What we learned from 5 million books

What we learned from 5 million books
Anonim

Pro ty, kteří se někdy divili, kolik různých knih je na světě, Google má odpověď: 129,864,880, podle Leonida Taychera, softwarového inženýra Google, který pracuje na projektu Knihy Google

Odhad čísla knih na světě je víc než cvičení zvědavosti pro vyhledávače obor: To také poskytuje plán některé z práce ještě zbývá udělat v plnění ambiciózní cíl společnosti organizovat všechny světové informace.

"Kdy jste součástí společnosti, která se snaží digitalizovat všechny knihy na světě, první otázkou, kterou často získáte, je: "Kolik knih je tam venku?", vysvětlil Taycher na blogu oznamujícím odhad. > [Další čtení: Nejlepší televizní vysílání]

Abychom dospěli k rozumnému přiblížení, začala společnost přijímáním informací o knihách z několika katalogizačních systémů, jako jsou např. Mezinárodní čísla standardních čísel (ISBN).

Takové katalogy jsou užitečné a neposkytují konečný počet, nicméně. Například čísla ISBN byly od roku 1960 přiděleny pouze knihám a používají se pouze v západních zemích.

K jednotlivým číslům ISBN bylo přiděleno více knih a vydavatel přidělil ISBN k jiným položkám než knihám, jako jsou t-košile a DVD.

Takže inženýři společnosti Google napsali programy, které by mohly skrýt zhruba 150 takových katalogů a adresářů, a odstranit tolik duplicitních záznamů, kolik by bylo možné najít.

Společnost také musel učinit řadu těžké rozhodnutí o tom, co je a není knihou, vysvětlil Taycher.

Například měkké kryty a vydatné texty jsou počítány jako dvě knihy, stejně jako mnoho různých verzí populárního textu, jako je Shakespearova "Hamlet", kvůli předmluvám a komentářům, které mohou obsahovat. Seriály se mohou počítat jako samostatné knihy nebo jako shromážděné dílo.

Společnost v červnu zkoumala 12 milionů knih podle prezentace vydané vedoucím pracoviště Google Books Jon Orwant na výroční technické konferenci USENIX v Bostonu. Tyto knihy byly napsány v přibližně 480 jazycích (včetně 3 knih v klingonském jazyce Star Trek).

Společnost plánuje dokončit skenování stávajících knih během desetiletí. Výsledná virtuální sbírka bude obsahovat čtyři miliardy stránek a dvě biliony slov, uvádí Orwant.

Asi 20 procent světových knih je ve veřejném vlastnictví, vysvětluje Orwant. Zhruba 10 až 15 procent těchto knih je v tisku. Zbývající knihy - drtivá většina všech titulů - jsou stále pod autorským právem, ale z tisku. Google je v procesu výpůjčky kopií těchto knih za účelem jejich digitalizace z přibližně 40 velkých knihoven po celém světě.

Je to skenování v knihách, které jsou vytištěny, ale stále jsou pokryty autorskými právy, které byly splněny s určitým odporem od vydavatelského průmyslu.

Společnost nyní čeká na rozsudek amerického okresního soudu pro jižní okres New York o tom, zda může tyto knihy naskenovat.

V roce 2005 se Asociace autorů Sdružení amerických vydavatelů samostatně podalo žalobu na třídní žalobu proti vyhledávacímu gigantovi a tvrdila, že společnost porušuje autorská práva skrze skenování v knihách.

Společnost Google prohlašuje, že chce prodat digitální kopie těchto jinak vyřazených autorských práv, vytisknout knihy a vyčlenit autorské odměny. Společnost také doufá, že odhalí úryvky z těchto knih při vyhledávání na webu a tvrdí, že toto použití spadá pod doktrínu o spravedlivém užití v USA.

Skenování ve všech knihách světa povede k dalším výhodám kromě zlepšení vyhledávání, vysvětluje Orwant. Jakmile jsou všechny tyto svazky digitalizovány, jejich obsah může být podroben analýze, což může vést k novým poznatkům. Lingvisti mohou zjistit, kdy se určitá slova dostala do širokého použití, nebo kdo nejprve začíná používat tato slova.

Vyhledávání knih Google by také mohlo pomoci odpovědět na některé mimořádné historické otázky: Například by mohlo informovat debatu o tom, zda Isaac Newton a Gottfried Leibniz - nebo někdo jiný úplně - vymyslel počet.

"Můžeme hledat nejen ale pro koncept, "vysvětlil Orwant. "Můžeme vzít všechny různé způsoby, jak [být myšlenka] nekonečna může být oslabena, překládat to do různých jazyků a paralelně hledat."

"Doufám, že když začneme vystavovat mnohem víc tato sbírka umožní lidem klást takováto témata, na která se ještě nemohli zeptat, "řekl.

IDG News Service editor Juan Carlos Perez přispěl k této zprávě.

Joab Jackson pokrývá podnikový software a obecná technologie přinášející novinky pro

IDG News Service. Sledujte Joab na Twitteru @ @ Joab_Jackson. Joabova e-mailová adresa je [email protected]