Vizualizace dat: typy grafů

Přejít ke cvičením na toto téma »

Pojem „graf“ má bohužel v češtině několik odlišných významů. Mimo jiné máme grafy funkcí, grafy modelující vztahy mezi objekty a grafy znázorňující data. Zde se zabýváme posledním zmíněným významem.

  • Sloupcové grafy typicky používáme pro znázornění hodnot pro několik kategorií (např. počet obyvatel pro jednotlivé státy). Data jsou vyjádřena jako sloupečky.
  • Koláčové grafy využíváme především pro vyjádření „části z celku“ (např. jaká část lidí žije na jednotlivých kontinentech), mají blízký vztah k procentům. Data jsou vyjádřena jako výseče kruhu.
  • Spojnicové grafy využíváme pro data, která jsou přirozeně uspořádána do posloupností, především pro data měnící se v čase (např. průměrná teplota v měsících). Data jsou vyjádřena pomocí lomených čar.
  • Plošné grafy jsou podobné jako spojnicové, ale znázorňují hodnoty pomocí plochy.
  • Bodové grafy využíváme pro vyjádření vztahu mezi dvěma veličinami (např. vztah mezi výškou a hmotností žáků ve třídě). Data jsou vyjádřena pomocí bodů.

Výše uvedené typy grafů je dobré umět rozlišovat. Též se hodí znát jednotlivé součásti grafů a jejich použití.

Rozlišování typů grafů

Přejít ke cvičením na toto téma »

Pro různá data se hodí využít různé typy grafů. Tato kapitola se věnuje základnímu přehledu v těchto typech.

Sloupcový graf znázorňuje data pomocí obdélníků (sloupců), ty mohou být uspořádány svisle nebo vodorovně.

Bodový graf popisuje vztah dvou proměnných, jedna je vyznačena na svislé, druhá na vodorovné ose.

Spojnicový graf do určité míry připomíná bodový graf, body jsou navzájem spojeny křivkami. Na vodorovné ose spojnicového grafu jsou obvykle údaje o čase.

Plošný graf podobně jako spojnicový obvykle popisuje vývoj dat v čase. Oblast mezi vyznačenou hodnotou a osou je vyplněna.

Koláčový (výsečový) graf vyznačuje část celku pomocí úhlu. Čím větší je určitá výseč, tím větší část celku znázorňuje.

Pokročilé typy grafů

Histogram zobrazuje rozložení dat pomocí sloupců, jejichž výška odpovídá četnosti dat v daném intervalu. Narozdíl od sloupcového grafu nejsou na vodorvné ose kategorie, ale spojitá proměnná (např. věk).

Krabicový graf (boxplot) umožňuje rychle porovnat vícero rozložení dat. Obdélník zobrazuje interval, ve kterém leží polovina dat, čára uvnitř obdélníku značí medián. Význam čar výcházejících z obdélníku se různí, můžou například zobrazovat maximální rozsah dat.

Sloupcový graf (bar chart) znázorňuje data pomocí obdélníků (sloupců), jejichž délka odpovídá hodnotě, kterou představují. Sloupce mohou být uspořádány svisle nebo vodorovně. Vodorovně uspořádané sloupcové grafy se také někdy označují jako řádkové či pruhové.

Typ zobrazených dat

Sloupcový graf se používá především pro vyjádření hodnot příslušných ke kategorickým datům.

kategorická proměnná (jednotlivé sloupce) příslušná hodnota (délka obdélníku)
nemoci počty úmrtí
státy rozlohy
města počty obyvatel
sociální sítě počty uživatelů

Sloupcový graf většinou není vhodný pro zobrazení změn v čase, k tomu lépe slouží spojnicové grafy.

Varianty grafu

Skupinový sloupcový graf (grouped bar chart, clustered bar chart) pro každou skupinu zobrazuje několik hodnot formou sloupců vedle sebe. Následující příklad pro každou zemi zobrazuje spotřebu zvlášť piva a vína.

Skládaný sloupcový graf (stacked bar chart) zobrazuje také pro každou skupinu několik hodnot, ale ty jsou nyní poskládány nad sebe, díky čemuž můžeme snadno porovnávat jejich součet. Následující graf zobrazuje zisky medailí z olympiád. Medaile jsou dělené podle své hodnoty (zlato, stříbro, bronz), současně však snadno vidíme i celkové zisky.

Nevhodná zobrazení sloupcového grafu

Sloupcové grafy se někdy zobrazují pomocí 3D znázornění (kvádry místo obdélníků). Tento způsob zpracování většinou není vhodný, protože je náročnější z něj přesně odhadnout zobrazené hodnoty.

Sloupce někdy nebývají přesně úměrné příslušné hodnoty („graf nezačíná od nuly“), což může být zavádějící a uměle vytvářet dojem, že rozdíly mezi kategoriemi jsou větší než ve skutečnosti.

Koláčový graf je kruhový graf s různě barevnými výsečemi. Někdy se též označuje jako výsečový.

Velikosti jednotlivých výsečí (přesně řečeno jejich délky oblouků, středové úhly a obsahy) odpovídají tomu, jakou část z celku tvoří zobrazovaná hodnota. Někdy jsou výseče popsané počty procent z celku, jindy přímo hodnotami.

Co například vidíme z grafů na obrázku:

  • Perníčků je ve spíži 23 % z celkového množství cukroví. To je jen o trochu méně než 25 % – neboli necelá čtvrtina.
  • Lineckého a pracen je dohromady 50 %, tedy polovina celkového množství.
  • Do zázvorek se dává 20 gramů sušeného zázvoru. To je mnohem méně, než kolik se dává cukru. Cukru se dává 280 gramů.
  • Světle modrá výseč odpovídající cukru je čtrnáctkrát větší než šedivá výseč odpovídající sušenému zázvoru.

Koláčové grafy můžeme použít ke znázornění relativních četností hodnot znaku.

Pro čtenáře není úplně jednoduché přesně v koláčovém grafu porovnávat velikosti jednotlivých výsečí, proto bývá doporučováno:

  • Nijak koláčové grafy nenaklápět, aby perspektiva příliš nezkreslila skutečnost.
  • Pokud by výsečí měl být větší počet (než 7) nebo by byly některé výseče hodně malé, je lepší použít pro větší názornost raději jiný typ grafu (například sloupcový).

Spojnicový graf znázorňuje data pomocí bodů spojených do lomených čar nebo křivek. Dává nejvíce smysl pro data, která jsou přirozeně uspořádána do posloupností, třeba podle času.

Ukázka:

Jak je vidět na grafu v ukázce, hodnoty na osách (například délka vlasů v centimetrech) nemusí vůbec začinat nulou. V našem grafu začínají hodnoty na svislé ose číslem 60.

V ukázce jsou zobrazované hodnoty délky vlasů dvou princezen v závislosti na čase. Tmavě modrá lomená čára ukazuje délku vlasů princezny Lociky od ledna do prosince. Vidíme, že princezně postupně rostou vlasy. Od ledna do února se délka vlasů Lociky zvětšila z 80 cm na zhruba 81 cm.

Oranžová lomená čára znázorňuje délku vlasů princezny Elsy od ledna do prosince. Na spojnicovém grafu můžeme jednoduše porovnat hodnoty na svislé ose (délka vlasů) u bodů se stejnou hodnotou na vodorovné ose (stejný měsíc). Například v dubnu měla Elsa vlasy dlouhé zhruba 72 cm a Locika zhruba 83 cm.

Na první pohled si všimneme, že oranžová lomená čára se nachází pod tmavě modrou lomenou čárou a nikde se nekříží. Takže Locika má vžycky delší vlasy než Elsa. Kdyby se v některém časovém bodě lomené čáry překřížily nebo překrývaly, znamenalo by to čas, kdy měly obě princezny stejně dlouhé vlasy.

Bodový graf (scatter plot) znázorňuje hodnoty dvou proměnných vztahujících se ke stejnému objektu. Například následující graf zobrazuje průměrnou teplotu v lednu a červnu pro různá evropská města.

Bodový graf může zobrazovat informace i o další proměnných pomocí různých ztvárnění bodů. Například v následujícím graf ukazuje pro státy světa dvě hlavní proměnné: střední délku života mužů a střední délku života žen. Tyto proměnné určují polohu bodů. Krom toho graf ještě zobrazuje velikost populace jednotlivých států (velikost bodů) a jejich příslušnost ke kontinentům (barva bodů).

Varianta bodového grafu s různě velkými body se někdy nazývá bublinový graf (bubble chart).

Histogram znázorňuje počet výskytů různých hodnot sledované veličiny a často se používá, pokud měříme stejnou veličinu pro různé subjekty nebo v různých časech. Například následující histogram ukazuje hmotnost 200 různých lidí:

Měřená veličina (hmotnost) je rozdělena do několika intervalů, přičemž každý interval je reprezentován sloupcem. Výška sloupce ukazuje, kolikrát změřená hodnota padla do daného intervalu. Graf ukazuje, že hmotnost mezi 65 a 70 kg má právě 30 lidí.

Volba šířky intervalů

Důležitou volbou při tvorbě histogramů je velikost intervalů. Příliš široké intervaly mohou skrýt důležité rozdíly, protože odlišná pozorování shromáždí do stejného intervalu. Použití příliš úzkých intervalů naopak znamená, že v každém bude příliš málo pozorování, a vynikne statistický šum.

Histogramy s více třídami

Pokud je v datové sadě zastoupeno několik různých tříd (např. muži a ženy), je možné histogramy pro obě třídy překrýt, aby lépe vynikly rozdíly mezi těmito třídami. Následující histogram ukazuje, že ženy jsou zpravidla menší než muži, ale existuje i značný překryv – nejvyšší ženy jsou větší než nejmenší muži.

Použití histogramů

Histogramy umožňují rychle identifikovat nejčastější nebo naopak neobvyklé hodnoty. Používají se také jako odhad rozložení pravděpodobnosti. V takovém případě jsou místo počtů výskytů na ose y relativní četnosti v procentech.

Věkové pyramidy

Speciálním typem histogramu je věková pyramida, která ukazuje věkové rozložení populace. Měřená veličina (věk) bývá vynesena na svislé ose a šířka sloupců nalevo, resp. napravo od svislé osy ukazuje počet mužů/žen daného věku.

Histogramy vs. sloupcové grafy

Histogramy se podobají sloupcovým grafům, jen místo kategorických tříd sledují spojitou veličinu (např. hmotnost, výška, teplota, rychlost). Použitím intervalů uměle rozdělíme data do oddělených tříd, ty jsou ale stále seřaditelné. Občas se můžete setkat i s různě širokými intervaly v rámci jednoho grafu.

NAPIŠTE NÁM

Děkujeme za vaši zprávu, byla úspěšně odeslána.

Napište nám

Nevíte si rady?

Nejprve se prosím podívejte na časté dotazy:

Čeho se zpráva týká?

Vzkaz Obsah Ovládání Přihlášení Licence