Analýza prezidentských projevů

27. 12 201412. 08 2017Jiří Materna

Český rozhlas včera na svém webu zveřejnil přepisy vánočních a novoročních projevů všech československých a českých prezidentů od roku 1934 do současnosti. Bezesporu se jedná o velmi zajímavá data, která si zaslouží analýzu. První vlaštovkou byl Michal Dvořák, který si všiml, že náš současný prezident ve svém projevu lehce nadužívá první osobu singuláru, což demonstroval jednoduchou statistikou. Frekvenční analýza, kterou použil, je jistě mocný nástroj, ale nedokáže odhalit složitější zákonitosti. Proto jsem se nad korpusem projevů rozhodl provést Latentní Sémantickou Analýzu.

Nejprve jsem dal dohromady všechny texty jednotlivých prezidentů, ty rozdělil na slova a zlemmatizoval je pomocí nástroje MorphoDiTa. Tím vzniklo 11 dokumentů, každý reprezentující texty jednoho prezidenta. Zájemci si je můžou stáhnout zde. Na každý dokument jsem dále aplikovat frekvenční normalizaci TF-IDF a výsledek transformoval do dvoudimenzionálního prostoru pomocí latentní sémantické analýzy (LSA).

Výsledek je znázorněn na následujícím obrázku.

Je těžké smysluplně interpretovat jednotlivé osy grafu, můžeme se však dívat na vzdálenosti prezidentů ve vzniklém sémantickém prostoru. Z grafu je vidět, že algoritmus bezpečně oddělil demokratické prezidenty od nedemokratických, kteří vytvořili shluk v pravé horní části grafu. Mezi demokratickými prezidenty stojí trochu stranou T. G. Masaryk. To může být dáno tím, že byl u něho k dispozici pouze jeden velmi krátký projev z roku 1934 a data jsou tak ovlivněna šumem. Velmi zajímavé je postavení M. Zemana a E. Háchy, kteří spolu tvoří samostatný shluk. Stojíme tedy před otázkou, co mají tito dva prezidenti společného. Na LSA je pěkné to, že dokáže zachytit i vztahy, které v textech vůbec nejsou explicitně zmíněné, a dává tak prostor pro zamyšlení. Co je tedy spojuje?

9 komentářů k “Analýza prezidentských projevů”

Petr Jirásek
28. 12 2014 at 02 : 12

Zajimavy clanek.

Mohl bych se prosim zeptat, proc jste pouzil zrovna nastroj MorphoDiTa? Jaka byla vase motivace oproti pouziti kuprikladu majky. Rozhoduju se zrovna, co pouzit pro jeden nekomrecni projekt a tak proto se ptam.

A druhy dotaz, tu LSA jste provadel asi prostrednictvim nejakeho LSA balicku? Odhaduju podle stylu grafu, vypada typicky Rkovsky:o)

Diky
Odpovědět
Jiří MaternaAutor článku
28. 12 2014 at 11 : 12

Podle experimentů, které jsme prováděli společně s ÚFAL MFF UK a NLP FI MU dosahuje Morphodita o trochu lepších výsledků než Majka (resp. Desamb, Majka je pouze morfologický analyzátor, který neprovádí disambiguaci). Měřeno to však bylo na uživatelských dotazech fulltextového vyhledávání Seznam.cz, takže na běžných textech jako jsou prezidentské projevy to nutně platit nemusí. Hlavním důvodem použití Morphodity bylo to, že Majku znám dobře a chtěl jsem si tak vyzkoušet práci s Morphoditou:)

Pro výpočet LSA jsem použil knihovnu Gensim (https://radimrehurek.com/gensim/). Graf byl potom vygenerován v nástroji Veusz.
Odpovědět
- Petr Jirásek
  28. 12 2014 at 12 : 12
  
  Diky za odpoved:)
  Odpovědět
Petr Šimeček
29. 12 2014 at 19 : 12

Moc hezké. Nedaly by se zakreslit do grafu zvlášť i jednotlivé projevy? Tak by se dalo ukázat, nakolik je skutečně spojuje osoba prezidenta a kolik tvoří náhoda a šum (a do jaké míry je tedy Masaryk stranou).
Odpovědět
- Jiří MaternaAutor článku
  31. 12 2014 at 11 : 12
  
  To jsem zkoušel. Nedá se říci, že by vznikly shluky odpovídající jednotlivým prezidentům. Je to opravdu zatížené šumem, zvlášť u hodně krátkých projevů. I tak ale vzniknou dva bezpečně oddělené mraky demokratických a nedemokratických projevů.
  Odpovědět
  - Petr Šimeček
    31. 12 2014 at 18 : 12
    
    Díky za odpověď. Tipnul bych si, že rozdíl mezi "mraky" bude v komunistických buzzwords (proletariát, dělnická třída, pracující inteligence, ...), která nekomunističtí prezidenti neměli důvod používat.
    Odpovědět
    - Jiří MaternaAutor článku
      31. 12 2014 at 19 : 12
      
      Přesně tak, slovník komunistických prezidentů je úplně jiný. Proto jsou od nekomunistických tak krásně oddělení.
      Odpovědět
voho
12. 08 2015 at 02 : 08

Tohle je hrozne zajimave tema. Obecne politika. Treba by se dala nejaka neuronovka natrenovat pro psani projevu nejakeho poslance nebo by mohla pomoci pri rozhodovani koho volit (ne podle strany, ale treba podle projevu :).
Odpovědět
Vladimir Janis
28. 01 2018 at 19 : 01

Pred casom som robil nieco podobne, ale ovela jednoduchsie, zistoval som priemernu dlzku vety. Aj tam je vidiet, ze vseobecny trend pouzivania stale kratsich viet sa prejavuje aj u prezidentov (Havel bol vynimkou). Plus jeden vedlajsi produkt "vyskumu" - pocty viet som zistoval pomocou poctu bodiek, vykricnikov a otaznikov (ano, ano, veci ako 15. zjazd KSC som odfiltroval). Ukazalo sa, ze s prichodom Gottwalda otazniky zmizli.
Odpovědět

Machine Learning Guru

Analýza prezidentských projevů

9 komentářů k “Analýza prezidentských projevů”

Napsat komentář Zrušit odpověď na komentář