Studentův sen – umělá inteligence dokáže shrnout dlouhý text až na 0,5 % původního znění

28. 11. 2020

Studentův sen – umělá inteligence dokáže shrnout dlouhý text až na 0,5 % původního znění

Studijní text zkrácen na větu? Proč ne. Vždyť již Shakespearův Polonius před 420 lety řekl králi a královně v Hamletovi: „Stručnost je duší vtipu.“

Allenův institut pro umělou inteligenci v Seattlu si vzal slavnou větu k srdci a tento týden představil systém, který nabízí nad míru stručný „výcuc“ zdlouhavých zpráv, aby se zkrátil čas potřebný k přezkoumání třeba takové literatury.

Jak uvádí server techxplore.com, Semantic Scholar je výzkumný nástroj využívající umělou inteligenci. Díky nové funkci sumarizace mapuje obrovské množství výzkumných prací a redukuje je na souhrny s jednou větou.

Konec skenování?

A i díky tomu přibývá více než sedm milionů uživatelů měsíčně. V současné době je v databázi Semantic Scholar 10 milionů IT vědeckých prací. Podle Dana Welda, který na databázi dohlíží, budou postupně přidávány příspěvky z jiných oborů.

Systém nabízí velkou výhodu výzkumným pracovníkům, kteří se dosud museli spoléhat na skenování mnoha titulů a často zdlouhavých abstraktů, což je na mobilních zařízeních obzvláště obtížný úkol. Po prvních testech jsou reakce pozitivní.

V průběhu let byla vyvinuta řada programů pro zpracování přirozeného jazyka, které shrnují dokumenty. Obvykle používají jeden ze dvou přístupů: extraktivní metoda se zaměřuje na výběr reprezentativního textu a jeho doslovné použití v souhrnu. Například se zdá, že Paper Digest, vyvinutý v roce 2018, extrahuje klíčové věty namísto přepisování nálezů vlastními slovy.

Druhý přístup je abstraktní: používá algoritmy generování přirozeného jazyka k vytváření souhrnů s původním zněním. Vylepšení generování přirozeného jazyka umělé inteligence (AI) v posledních letech učinily tento přístup oblíbeným mezi programátory.

Z pěti tisíc slov je 21 slov…

Semantic Scholar je pozoruhodný v dosažení nejvyšší rychlosti komprese ze všech souhrnných nástrojů. Z vědeckých příspěvků o průměrné délce 5 000 slov jsou souhrny dlouhé přibližně 21 slov. To odpovídá průměrům souhrnů 1/238 velikosti zpráv. Nejbližší konkurent komprimuje dokumenty pouze na 1/36 velikosti sestavy.

„Předpokládám, že se tento druh nástroje v blízké budoucnosti stane standardním rysem vědeckého hledání. Ve skutečnosti, vzhledem k jeho potřebě, jsem žasl, že to trvalo tak dlouho, než jsem to viděl v praxi,“ komentuje Jevin West, IT vědec na Washingtonské univerzitě v Seattlu, který nový program testoval. V současné době jsou přijímány pouze práce napsané v angličtině. Autoři programu však doufají, že nakonec zahrnou i dokumenty v jiných jazycích.

Další články