Analysis of presidential speeches

Český rozhlas včera na svém webu zveřejnil přepisy vánočních a novoročních projevů všech československých a českých prezidentů od roku 1934 do současnosti. Bezesporu se jedná o velmi zajímavá data, která si zaslouží analýzu. První vlaštovkou byl Michal Dvořák, který si všiml, že náš současný prezident ve svém projevu lehce nadužívá první osobu singuláru, což demonstroval jednoduchou statistikou. Frekvenční analýza, kterou použil, je jistě mocný nástroj, ale nedokáže odhalit složitější zákonitosti. Proto jsem se nad korpusem projevů rozhodl provést Latentní Sémantickou Analýzu.

Nejprve jsem dal dohromady všechny texty jednotlivých prezidentů, ty rozdělil na slova a zlemmatizoval je pomocí nástroje MorphoDiTa. Tím vzniklo 11 dokumentů, každý reprezentující texty jednoho prezidenta. Zájemci si je můžou stáhnout zde. Na každý dokument jsem dále aplikovat frekvenční normalizaci TF-IDF a výsledek transformoval do dvoudimenzionálního prostoru pomocí latentní sémantické analýzy (LSA).

Výsledek je znázorněn na následujícím obrázku.

lsa

Je těžké smysluplně interpretovat jednotlivé osy grafu, můžeme se však dívat na vzdálenosti prezidentů ve vzniklém sémantickém prostoru. Z grafu je vidět, že algoritmus bezpečně oddělil demokratické prezidenty od nedemokratických, kteří vytvořili shluk v pravé horní části grafu. Mezi demokratickými prezidenty stojí trochu stranou T. G. Masaryk. To může být dáno tím, že byl u něho k dispozici pouze jeden velmi krátký projev z roku 1934 a data jsou tak ovlivněna šumem. Velmi zajímavé je postavení M. Zemana a E. Háchy, kteří spolu tvoří samostatný shluk. Stojíme tedy před otázkou, co mají tito dva prezidenti společného. Na LSA je pěkné to, že dokáže zachytit i vztahy, které v textech vůbec nejsou explicitně zmíněné, a dává tak prostor pro zamyšlení. Co je tedy spojuje?


Share on FacebookTweet about this on TwitterShare on Google+

9 komentářů k “Analysis of presidential speeches

  • Sunday December 28th, 2014 at 02:22 AM

    Zajimavy clanek.

    Mohl bych se prosim zeptat, proc jste pouzil zrovna nastroj MorphoDiTa? Jaka byla vase motivace oproti pouziti kuprikladu majky. Rozhoduju se zrovna, co pouzit pro jeden nekomrecni projekt a tak proto se ptam.

    A druhy dotaz, tu LSA jste provadel asi prostrednictvim nejakeho LSA balicku? Odhaduju podle stylu grafu, vypada typicky Rkovsky:o)

    Diky

    Reply
  • Sunday December 28th, 2014 at 11:55 AM

    Podle experimentů, které jsme prováděli společně s ÚFAL MFF UK a NLP FI MU dosahuje Morphodita o trochu lepších výsledků než Majka (resp. Desamb, Majka je pouze morfologický analyzátor, který neprovádí disambiguaci). Měřeno to však bylo na uživatelských dotazech fulltextového vyhledávání Seznam.cz, takže na běžných textech jako jsou prezidentské projevy to nutně platit nemusí. Hlavním důvodem použití Morphodity bylo to, že Majku znám dobře a chtěl jsem si tak vyzkoušet práci s Morphoditou:)

    Pro výpočet LSA jsem použil knihovnu Gensim (https://radimrehurek.com/gensim/). Graf byl potom vygenerován v nástroji Veusz.

    Reply
  • Monday December 29th, 2014 at 07:55 PM

    Moc hezké. Nedaly by se zakreslit do grafu zvlášť i jednotlivé projevy? Tak by se dalo ukázat, nakolik je skutečně spojuje osoba prezidenta a kolik tvoří náhoda a šum (a do jaké míry je tedy Masaryk stranou).

    Reply
    • Wednesday December 31st, 2014 at 11:01 AM

      To jsem zkoušel. Nedá se říci, že by vznikly shluky odpovídající jednotlivým prezidentům. Je to opravdu zatížené šumem, zvlášť u hodně krátkých projevů. I tak ale vzniknou dva bezpečně oddělené mraky demokratických a nedemokratických projevů.

      Reply
      • Wednesday December 31st, 2014 at 06:45 PM

        Díky za odpověď. Tipnul bych si, že rozdíl mezi "mraky" bude v komunistických buzzwords (proletariát, dělnická třída, pracující inteligence, ...), která nekomunističtí prezidenti neměli důvod používat.

        Reply
        • Wednesday December 31st, 2014 at 07:14 PM

          Přesně tak, slovník komunistických prezidentů je úplně jiný. Proto jsou od nekomunistických tak krásně oddělení.

          Reply
  • Wednesday August 12th, 2015 at 02:04 AM

    Tohle je hrozne zajimave tema. Obecne politika. Treba by se dala nejaka neuronovka natrenovat pro psani projevu nejakeho poslance nebo by mohla pomoci pri rozhodovani koho volit (ne podle strany, ale treba podle projevu :).

    Reply
  • Sunday January 28th, 2018 at 07:53 PM

    Pred casom som robil nieco podobne, ale ovela jednoduchsie, zistoval som priemernu dlzku vety. Aj tam je vidiet, ze vseobecny trend pouzivania stale kratsich viet sa prejavuje aj u prezidentov (Havel bol vynimkou). Plus jeden vedlajsi produkt "vyskumu" - pocty viet som zistoval pomocou poctu bodiek, vykricnikov a otaznikov (ano, ano, veci ako 15. zjazd KSC som odfiltroval). Ukazalo sa, ze s prichodom Gottwalda otazniky zmizli.

    Reply

Leave a Reply to Jiří Materna Cancel reply

Your email address will not be published.