„Alexo, kdo jsem?“ Hlasem ovládaná virtuální asistentka Amazon Echo, Alexa, na to zatím nemá odpověď. Pro jiné aplikace řečové technologie jsou však počítačové algoritmy stále více schopny rozlišovat, rozpoznávat a identifikovat jednotlivce z hlasových záznamů.

Tyto algoritmy mají samozřejmě k dokonalosti daleko, jak se nedávno ukázalo, když se novinář BBC vloupal do jeho vlastního hlasem ovládaného bankovního účtu pomocí hlasu svého bratra-dvojčete. Je to případ, kdy počítače prostě selhávají v něčem, co lidé umí dokonale? Rozhodli jsme se to zjistit.

Každá lidská bytost má hlas, který je odlišný a odlišný od hlasu všech ostatních. Zdá se tedy intuitivní, že bychom byli schopni poměrně snadno identifikovat někoho z jeho hlasu. Ale jak dobře to můžete ve skutečnosti udělat? Pokud jde o rozpoznání vaší nejbližší rodiny a přátel, pravděpodobně jste na tom docela dobře. Dokázali byste ale rozpoznat hlas své první učitelky na základní škole, kdybyste je dnes slyšeli znovu? A co ten chlap dnes ráno ve vlaku, který křičel do telefonu? Co kdybyste ho museli vybrat ne z jeho mluvícího hlasu, ale z ukázek jeho smíchu nebo zpěvu?

Dosud výzkum zkoumal vnímání hlasové identity pouze pomocí omezeného souboru vokalizací, například vět, které byly přečteny nahlas, nebo úryvků konverzační řeči. Tyto studie zjistily, že ve skutečnosti dokážeme docela dobře rozpoznat hlasy řeči známých lidí. Ale také ukázaly, že existují problémy: svědectví ušních svědků jsou notoricky nespolehlivá a nepřesná.

Je důležité mít na paměti, že tyto studie příliš nezachytily flexibilitu zvuků, které můžeme vydávat našimi hlasy. To musí mít vliv na to, jak zpracováváme identitu osoby za hlasem, který posloucháme. Proto nám v současné době chybí velmi velký a důležitý kousek skládačky.

Rozpoznání hlasů vyžaduje dva široké procesy, které budou fungovat společně: potřebujeme rozlišovat mezi hlasy různých lidí (oddělit lidi od sebe) a musíme být schopni přiřadit jedinou identitu všem různým zvukům (mluvení, smích, křik), které mohou pocházejí od stejné osoby („vyprávění lidí společně“). Vydali jsme se prozkoumat hranice těchto schopností u lidí.

ČTĚTE VÍCE
Proč moje pomlčka zní jako šplouchání vody při zrychlování?

Hlasový experiment

Naše nedávná studie publikovaná v Journal of Experimental Psychology: General potvrzuje, že vnímání hlasové identity může být extrémně náročné. Využili jsme toho, jak proměnlivý může být hlas jednoho člověka, a představili jsme 46 posluchačům smích a samohlásky produkované pěti lidmi. Posluchači byli požádáni, aby udělali velmi jednoduchý úsudek o dvojicích zvuků: byly vytvořeny stejnou osobou, nebo dvěma různými lidmi? Dokud dokázali srovnávat samohlásky se samohláskami nebo smích se smíchem, bylo rozlišování mezi mluvčími relativně úspěšné.

Když jsme ale požádali naše posluchače, aby tento úsudek učinili na základě smíšené dvojice zvuků, jako je přímé srovnání samohlásek se smíchem ve dvojici, nedokázali vůbec rozlišovat mezi mluvčími – zvláště pokud mluvčího neznali. Nicméně i když podskupina lidí, kteří znali řečníky, měla celkově lepší výkon, stále se výrazně potýkala s výzvou „říkat lidem společně“.

Podobné účinky byly hlášeny studiemi, které například ukázaly, že je obtížné rozpoznat bilingvního mluvčího napříč jejich dvěma jazyky. Na těchto zjištěních je překvapivé, jak špatné může být vnímání hlasu, když jsou posluchači vystaveni přirozeným změnám zvuků, které může hlas produkovat. Je tedy zajímavé uvažovat o tom, že i když máme každý jedinečný hlas, ještě nevíme, jak užitečná tato jedinečnost je.

Ale proč jsme se vyvinuli, abychom měli jedinečné hlasy, když je ani nedokážeme rozpoznat? To je zatím opravdu otevřená otázka. Vlastně nevíme, zda jsme se vyvinuli, abychom měli jedinečné hlasy – všichni máme také různé a do značné míry jedinečné otisky prstů, ale pokud můžeme říci, neexistuje žádná evoluční výhoda. Náhodou se stává, že na základě rozdílů v anatomii a pravděpodobně především toho, jak používáme svůj hlas, zníme všichni navzájem jinak.

Počítačové algoritmy jsou naštěstí stále schopny maximálně využít individualitu lidského hlasu. Pravděpodobně již v některých případech překonali lidi – a budou se neustále zlepšovat. Způsob, jakým tyto algoritmy strojového učení rozpoznávají reproduktory, je založen na matematických řešeních pro vytváření „hlasových otisků“ – jedinečných reprezentací zachycujících specifické akustické vlastnosti každého jednotlivého hlasu.

ČTĚTE VÍCE
Který pořad Netflix byl v roce 2023 zrušen?

Na rozdíl od počítačů nemusí lidé vědět, co poslouchají nebo jak tyto akustické prvky oddělit. Takže způsob, jakým jsou hlasové otisky vytvářeny pro algoritmy, není úzce modelován podle toho, co se zdá, že dělají lidští posluchači – stále na tom pracujeme. Z dlouhodobého hlediska bude zajímavé sledovat, zda se způsob, jakým lidští posluchači a algoritmy strojového učení rozpoznávají hlasy, nějak překrývá. I když je nepravděpodobné, že by lidští posluchači získali nějaké poznatky z toho, jak počítače tento problém řeší, naopak bychom mohli být schopni postavit stroje, které napodobují efektivní aspekty lidského výkonu.

Proslýchá se, že Amazon v současné době pracuje na tom, aby Alexu naučil identifikovat konkrétní uživatele podle jejich hlasu. Pokud se to povede, bude to opravdu působivý počin a může zastavit další nechtěné objednávky domečků pro panenky. Buďte však trpěliví, pokud Alexa udělá chyby – možná to sami nebudete schopni udělat lépe.

Tento článek byl původně publikován na The Conversation. Přečtěte si původní článek.

Instagram icon Facebook icon Twitter iconYouTube icon

Instagram icon Facebook icon Twitter iconYouTube icon

Některým lidem chybí schopnost rozpoznat známé hlasy, podle nedávné studie z Yale a Institutu Maxe Plancka pro lidské kognitivní a mozkové vědy, výzkumného centra v Německu.

Ve studii více než tisíce lidí, kteří vyjádřili obavy, že by mohli mít tento stav, vědci potvrdili dva případy účastníků s poruchou nazývanou fonagnózie. Vědci již dlouho vědí o podobném stavu zvaném prosopagnosie – charakterizovaném neschopností rozpoznávat tváře. S mnoha dalšími známými případy slouží prosopagnosie jako model pro výzkum fonagnózie. Výzkumníci si stále nejsou jisti, co způsobuje oba stavy.

“Je opravdu nejasné, proč se to děje, protože tento stav je tak vzácný,” Samuel Mathias, postdoktorský spolupracovník psychiatrie, který se podílel na studii. “To je výzkum budoucnosti.”

Výzkumníci oslovili tisíce potenciálních fonagnostiků, kteří se sami nahlásili, a podrobili je různým fázím testování, včetně testů na rozlišování hlasu, hudební schopnosti a vnímání výšky. Studie zjistila, že dvě potvrzené fonagnosie byly více než dvě standardní odchylky pod průměrem při identifikaci konkrétních hlasů, ale jejich srozumitelnost řeči a hudební schopnosti byly zcela normální.

ČTĚTE VÍCE
Co je paket Ford 360?

Dokument je první, který potvrdil existenci tohoto stavu s komplexním testováním a solidním výzkumným designem, řekl Mathias.

Oba fonagnozi si byli vědomi svého stavu před studií, dodal. Jedna účastnice si uvědomila, že něco není v pořádku, když se stala matkou.

“Když si její dcera hrála s jiným dítětem, nedokázala říct, který z těch dvou hlasů pochází od její dcery,” vysvětlil Mathias.

Druhý účastník si nebyl vědom žádného problému, dokud před několika lety sledoval s kamarádem anglický televizní pořad dabovaný v němčině. Když se u jedné z postav změnil hlasový herec, přítel byl v šoku, ale účastník ani nemrkl okem.

Podle Mathiase byli oba účastníci normální ve všech ostatních aspektech sluchového vnímání — selhali pouze v úlohách rozpoznávání hlasu. Pro výzkumníky to naznačuje, že rozpoznávání hlasu může být zcela samostatný proces, jak kognitivně, tak anatomicky, který může být selektivně narušen.

“Je známo, že rozpoznávací schopnosti mozku jsou součástí velmi modulárního systému,” řekl. “Takže pokud je [rozpoznávání hlasu] modulární a odlišné, můžete ho vyřadit, aniž by to ovlivnilo cokoli jiného.”

Přední část sulcus temporalis superior je zodpovědná za rozpoznávání hlasu v mozku. Přesto podle výzkumníků žádný případ fonagnózie nezahrnoval léze v této oblasti mozku, což neposkytuje žádný důkaz o fyzických determinantech stavu.

Vizuální protějšek fonagnózie – prosopagnosie – je výrazně častější, řekl profesor psychologie z Dartmouthu Brad Duchaine, který se studie nepodílel. Některé odhady uvádějí prevalenci prosopagnosie až na jednoho z 50, dodal.

Podle Duchainea jsou příčiny stavů, ať už jsou jakékoli, pravděpodobně podobné.

“Existují důkazy, že zpracování identity pro tváře probíhá v různých oblastech mozku,” řekl Duchaine. “O zpracování hlasu toho tolik nevíme, ale dokážete si představit, že existuje podobný druh dělby práce.”

„Phonagnosia“ pochází z latinských kořenů „telefon“ a „agnosia“, což znamená „hlas“ a „žádné znalosti“. Studie bude publikována v Current Biology.