Zde uvádíme přehled pojmů, se kterými se můžete často potkat v textech o strojovém učení. Mnoho z nich zatím nemá ustálené české překlady, proto se i v českých textech často používají anglické výrazy (níže uvedené kurzivou v závorce). Podrobnější vysvětlení jednotlivých pojmů najdete v dílčích tématech strojového učení.
pojem | popis |
---|---|
strojové učení | učení programů na základě dat |
model | mapování vstupů na výstupy (řešení úlohy strojového učení) |
datová sada (dataset) | data pro trénování modelu |
příklad (example) | jeden kompletní vstup pro model (řádek datasetu) |
atribut (feature) | informace o příkladech použitá modelem (sloupec datasetu) |
štítek (label) | správný výstup pro daný příklad |
anotování dat | přiřazování správných výstupů (štítků) |
označkovaná data | data s požadovaným výstupem (štítkem) |
predikce | předpověď, odhad (výstup modelu) |
inference | vytvoření odhadů natrénovaným modelem |
učení s učitelem (supervised learning) | přístup ke strojovému učení využívající označkovaná data |
učení bez učitele (unsupervised learning) | přístup ke strojovému učení využívající neoznačkovaná data |
učení s částečným dohledem (semi-supervised learning) | přístup ke strojovému učení využívající označkovaná i neoznačkovaná data |
posilované učení, zpětnovazební učení (reinforcement learning) | učení skrze interakci s prostředím zahrnující zpětnou vazbu na provedené akce |
klasifikace | úloha určit příslušnost příkladu k jedné z několika předem daných kategorií (např. žánr knížky) |
regrese | úloha určit číselnou hodnotu pro daný příklad (např. hodnocení knížky) |
řazení (ranking) | úkol uspořádat příklady (např. doporučení knížek) |
detekce anomálií | úkol odhalit příklady, které se výrazně liší od zbytku dat |
shlukování (clustering) | úloha rozdělit příklady do skupin (shluků, clusters) s podobnými vlastnostmi |
generativní umělá inteligence (generative AI) | modely generující komplexní výstupy, např. odpovědi nebo obrázky |
lineární model | model určující výstup na základě váženého součtu atributů |
rozhodovací strom (decision tree) | model určující výstup na základě posloupnosti podmínek |
náhodný les (random forest) | model složený z mnoha rozhodovacích stromů |
neuronová síť | model volně inspirovaný strukturou mozku, složený z mnoha propojených „neuronů“ počítajících jednoduchou funkci, typicky organizovaných do vrstev |
hluboké učení (deep learning) | učení neuronových sítí s mnoha vrstvami |
velký jazykový model (Large Language Model, LLM) | rozsáhlá neuronová síť predikující pravděpodobnost dalšího slova (např. GPT) |
transformátor (transformer) | typ neuronové sítě umožňující efektivní učení na rozsáhlých datech (T v GPT znamená právě transformátor) |
parametry, váhy | hodnoty modelu, které lze měnit během učení |
gradientní sestup (gradient descent) | učící algoritmus, který opakovaně mění parametry modelu ve směru největší změny (gradientu) chybové funkce |
stochastický gradientní sestup (SGD) | efektivní varianta gradientního sestupu využívají prvek náhodnosti |
trénovací data | data použitá k učení modelu |
testovací data | data použitá k vyhodnocení modelu |
generalizace | schopnost predikovat správné výstupy i pro nová data (tedy zobecňovat) |
memorizace | pouhé zapamatování správných výstupů trénovací data |
podučení (underfitting) | model má vysokou chybovost, protože je příliš jednoduchý na danou úlohu |
přeučení (overfitting) | přesné zapamatování trénovacích dat na úkor schopnosti generalizovat |
regularizace | metody zabraňující přeučení, např. penalizace komplexity modelu |
zkreslení, předpojatost, (bias) | systematická chyba, která vede k neférovým důsledkům |
výběrové zkreslení (selection bias) | typ zkreslení, kdy data nereprezentují adekvátně všechny typy případů |
základní model (baseline) | jednoduché řešení úlohy použité pro srovnání se složitějšími metodami |
metrika | hodnota vyjadřující kvalitu modelu |
střední kvadratická chyba (mean squared error) | metrika pro regresní úlohy, průměrná druhá mocnina odchylky mezi predikovanou a skutečnou hodnotou |
správnost (accuracy) | metrika pro klasifikační úlohy, podíl správných odpovědí |
přesnost (precision) | metrika pro klasifikační úlohy, kolik ze všech označených příkladů je pozitivních |
pokrytí (recall) | metrika pro klasifikační úlohy, kolik ze všech pozitivních příkladů model detekoval |
matice záměn (confusion matrix) | tabulka zobrazující, kolik kterých kategorií bylo jak klasifikováno |
tenzorové procesy, TPU (Tensor Processing Unit) | procesory specializované na strojové učení |