Přednášky : 1. Proces dobývání znalostí - historie, vymezení cílů, přehled metodologií 2. Dělení dataminingových úloh, představení typických úloh - CRM péče o zákazníka, získávání nových zákazníků, predikce odchodů zákazníků ke konkurenci (churn), marketingová úspěšnost obchodních kampaní apod. 3. Odhalování podvodů - fraud úlohy, kreditní riziko, behaviorální skórování pro hodnocení rizikovosti splácených úvěrů. 4. Příprava dat, porozumění datům, popis datové množiny, příprava datové matice, výběr dat a jejich čištění, konstrukce a slučování datových zdrojů, typová homogenita, formátování dat. 5. Klasifikační algoritmy jako nástroje predikce vycházející z historických dat. Rozhodovací stromy, algoritmy C&RT, C5.0, CHAID&QUEST. Převod stromu na pravidla, prořezávání stromů. 6. Diskriminační analýza - klasifikace případů do tříd, skórování. 7. Segmentační algoritmy - odhalení neobvyklých struktur v datech nasazením algoritmů seskupování K-Means, Two Step, Anomaly. 8. Asociační algoritmy - hledání asociačních pravidel, model Apriori, Carma, statistiky implikací, predikční model. 9. Využití neuronových sítí pro zpracování kategorizovaných i číselných proměnných, použití v případech, kdy klasické lineární metody neposkytují očekávané výsledky. 10. Analýza a predikce časových řad pomocí modelů DM, příprava dat, doplnění chybějících hodnot, diference, sezónní diference, klouzavé průměry a mediány, vyhlazování časových řad. 11. Modelování a evaluace řešení, zavádění DM řešení do praxe, zařazení skórovacích procesů do rozhodovacího firemního workflow. 12. Webmining, Textmining. 13.- 14. Rozbor typických úloh data miningu. Cvičení: 1.- 2. Zpracování a vizualizace dat v SPSS Modeleru a další jeho ovládací prvky, případně srovnání s jiným Open source SW. 3.- 9. Příprava modelů pro případové studie, jejich analýza a interpretace výsledků - na vzorové studie bude navazovat jejich modifikace v několika samostatných zadáních. Aplikace DM algoritmů bude diskutována a studovaná na širokém spektru úloh. Například: -doporučení léčebné metody na základě biomedicínckých dat, -klasifikace v biologických a fyzikálních datech, -marketingové úlohy pro predikci chování zákazníka - odhad jeho migrace ke konkurenci, citlivost na marketingové nabídky, -model prevence kriminality doporučený na základě zpracování dat z policejních databází, - -monitorování zkušebního provozu a predikce selhání stroje, -úlohy spojené s bankovním sektorem, hledání podezřelých úvěrů, praní špinavých peněz a další. 10.- 12. Samostatná individuální práce. 13.- 14. Obhajoby individuálních prací.
|
Předmět se soustřeďuje na typické úlohy a postupy dataminingu (DM). Učí základy DM technik, jako jsou klasifikační, segmentační, asociační a další algoritmy, které pomáhají v praxi k využití rozsáhlých dat. Těmito postupy se studenti učí predikovat významné veličiny za účelem optimalizace rozhodování v praxi, hledat anomálie, hledat vztahy a vzory či jiné skryté informace. DM úlohy budou řešeny metodologií CRISP-DM ve vhodném softwarovém nástroji. Studenti se naučí všechny kroky DM od formulace problému, přes získání dat, přípravy a zpracování dat pro modelování, návrh a ověření modelu, až po nasazení řešení do praxe. Důraz bude kladen na porozumění a interpretaci výsledků.
Student získá znalost řešení dataminingových úloh. Na praktických úlohách se naučí používat typické dataminingové algoritmy a analytické postupy vývoje a nasazení dataminingového řešení do praxe.
|
-
Berka Petr. Dobývání znalostí z databází. Academia, Oraha, 2006.
-
Hendl Jan. Přehled statistických metod zpracování dat. Praha, 2009.
-
Olivia Parr Rud. Datamining. Computer Press a.s., 2006.
-
Yong Yin, Ikou Kaku, Jiafu Tang. Data Mining. Springer London Ltd. , 2011.
|