Car-tech

Systémy rozpoznávání řeči musí být chytřejší, Profesor říká

How to spot a liar | Pamela Meyer

How to spot a liar | Pamela Meyer
Anonim

Většina počítačových systémů pro rozpoznávání řeči může pochopit, co člověk říká až 98 procent času, a přesto lidé stále chafe při používání automatizované telefonní help-desk systémy. Klíčem k tomu, aby se tyto systémy staly méně frustrujícími, by bylo, kdybyste jim dali hlubší znalosti jazyka a učinili by je interaktivnějšími, řekl Allen.

[Další informace: Váš nový počítač potřebuje tyto 15 bezplatných, vynikajících programů]

Oddělení oddělení zákaznických služeb většiny velkých organizací nyní nabízí automatizované telefonní systémy nápovědy. Uživatel zavolá číslo pomoci a umělý hlas vyzve volajícího k řadě otázek. Většina těchto systémů je založena na rámcích, které jsou v podstatě velkými rozhodovacími stromy. V takových systémech "zjistíte, co si člověk přeje, budete sledovat scénář," říká.

Systémy jsou ve skutečnosti složené z řady různých technologií. Jedním z nich je rozpoznávání řeči nebo schopnost počítače pochopit nebo úspěšně přeložit do textu, co říká mluvčí.

Druhá technologie, zpracování přirozeného jazyka (NLP), se pokouší buď konvertovat zprávu mluvčího na příkaz že počítač může spouštět, nebo to může být shrnuto pro lidského operátora.

V posledních několika desetiletích došlo k velkým krokům jak v rozpoznávání hlasu, tak v NLP, avšak zdánlivě přinesly většinou frustraci svým uživatelům. "Zavolám banku pouze tehdy, když mám problém a bojovat s těmito systémy. [Ptám se], co mohu odpovědět, abych se dostala k člověku co nejrychleji," řekl Allen. při hledání způsobů, jak "můžeme mluvit se strojem stejným způsobem, jakým můžeme mluvit s člověkem," řekl.

Rozhovory mezi dvěma lidmi mohou být přesné, pokud jde o způsoby, jak se počítače potýkají s potížemi. Allen poukázal na některou ranou práci, kterou absolvoval jako student, v němž nahrál rozhovory na informačním pultu vlakového nádraží. V jedné interakci cestuje ke stánku a říká "Windsorovi 8:50" a obsluha odpoví "Gate 10, 20 minut pozdě." Zatímco obsluha přesně věděla, jaké informace požadoval, počítačové systémy by našly první výklad cestujícího.

Jak vidí Allen, chybí dva prvky z moderních systémů: Schopnost analyzovat to, co řečník říká a schopnost konverzovat s mluvčím, aby se dozvěděli více o tom, co mluvčí zamýšlí říct.

"Spousta off-the-shelf NLP má tendenci být plytká, nemáme technologii, která vám dává význam vět" řekl. Statistické nástroje pro zpracování a definice slov, například WordNet, mohou pomoci definovat slovo, ale také vztahy jednoho slova, takže systém bude vědět, že například "dceřiná společnost" je součástí "společnosti".

Více obousměrná komunikace mezi uživateli a počítači je také nutná. Když mluvíme o jejich potřebách, lidé mohou poskytovat informace v žádném pořádku. Mělo by být na počítači, aby shromažďoval tyto informace a nezaťažoval uživatele otázkami, jejichž odpovědi již byly poskytnuty.

"Toto je budoucnost, to je opravdu to, co chcete, aby systémy dělaly, a můžeme vytvořit dialog systémy, které mohou podporovat tento rozsah složitosti, "řekl.

Pro ilustraci této myšlenky Allen a tým výzkumníků navrhli program nazvaný Cardiac, který by mohl napodobit otázky, které by zdravotní sestra požádala pacienta se srdečním onemocněním. Program byl vytvořen s financováním od Národních institucí zdravotnictví USA. S tímto systémem, jakmile uživatel poskytne informace, systém by o to požádal znovu, řekl Allen. Systém by uvažoval o tom, jaký materiál již byl poskytnut a co bylo ještě zapotřebí.

Další program, který navrhl Allen a jeho tým, nazvaný Plough, se mohou naučit provádět běžné úkoly na počítači. "Jedná se o systém, který vám umožňuje v zásadě používat dialog, aby váš systém vyškolel, jak pro vás dělat věci," řekl.

Jako příklad ukázal Allen program, který se učil, jak najít blízké restaurace pomocí prohlížeče. Uživatel by otevřel prohlížeč, navigoval na místo určení restaurace, zadejte typ vyhledávané restaurace a umístění a poté vyjmul a vložil výsledky na prázdnou stránku. Uživatel popsal každý krok, jak byl proveden.

V tomto procesu pluh zaznamená každý krok a slyšitelně reaguje, když je krok pochopen. Později, kdy by uživatel chtěl vyhledat jinou restauraci, program by prošel stejnými pohyby, čímž automaticky vytvoří další seznam restaurací. Americká agentura pro obranné výzkumné projekty financovala rozvoj tohoto programu.

Další údaje jsou klíčovým faktorem pro další lidské systémy zpracování řeči, souhlasil hlavní vedec společnosti Microsoft za řeč Larry Hecková v dalším rozhovoru na konferenci. "Pokud nemáte data, nezáleží na tom, jak jsou vaše algoritmy sofistikované," řekl.

Jedno místo, kde by bylo možné najít více dat, by bylo v dotazech vyhledávače, navrhl. Služby vyhledávače získají obrovské množství dotazů, z nichž všechny jsou spojeny s odpověďmi. "Prohledávám vyhledávání jako blízký bratranec v technologii zpracování jazyka," řekl Heck.

V těchto dnech jsou lidé vyškoleni k tomu, aby strukturovali své dotazy jako soubor klíčových slov. Místo toho, kdyby uživatelé zadali úplné věty popisující to, co potřebují, výsledná sada dat by mohla dlouhou cestu pomáhat systémům lépe pochopit, co lidé hledají.

Heck předpovídal, že čím více lidí používá služby hlasové vyhledávání od společnosti Microsoft a společnosti Google, budou zvyklí strukturovat své dotazy jako plné věty, což by pomohlo systémům NLP lépe předvídat potřeby uživatelů.

Joab Jackson pokrývá podnikový software a obecnou technologii, která přináší nové zprávy

Novinky z IDG Služba

. Sledujte Joab na Twitteru @ @ Joab_Jackson. Joabova e-mailová adresa je [email protected]