Předmět: Data mining

» Seznam fakult » FM » MTI
Název předmětu Data mining
Kód předmětu MTI/DM
Organizační forma výuky Nevyplněno + Cvičení
Úroveň předmětu Magisterský
Rok studia nespecifikován
Semestr Letní
Počet ECTS kreditů 5
Vyučovací jazyk Čeština
Statut předmětu Povinně-volitelný
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Vyučující
  • Tyl Pavel, Ing.
  • Lamr Marián, Ing. Ph.D.
Obsah předmětu
Přednášky : 1. Proces dobývání znalostí - historie, vymezení cílů, přehled metodologií 2. Dělení dataminingových úloh, představení typických úloh - CRM péče o zákazníka, získávání nových zákazníků, predikce odchodů zákazníků ke konkurenci (churn), marketingová úspěšnost obchodních kampaní apod. 3. Odhalování podvodů - fraud úlohy, kreditní riziko, behaviorální skórování pro hodnocení rizikovosti splácených úvěrů. 4. Příprava dat, porozumění datům, popis datové množiny, příprava datové matice, výběr dat a jejich čištění, konstrukce a slučování datových zdrojů, typová homogenita, formátování dat. 5. Klasifikační algoritmy jako nástroje predikce vycházející z historických dat. Rozhodovací stromy, algoritmy C&RT, C5.0, CHAID&QUEST. Převod stromu na pravidla, prořezávání stromů. 6. Diskriminační analýza - klasifikace případů do tříd, skórování. 7. Segmentační algoritmy - odhalení neobvyklých struktur v datech nasazením algoritmů seskupování K-Means, Two Step, Anomaly. 8. Asociační algoritmy - hledání asociačních pravidel, model Apriori, Carma, statistiky implikací, predikční model. 9. Základy neuronových sítí pro zpracování kategorizovaných i číselných proměnných, použití v případech, kdy klasické lineární metody neposkytují očekávané výsledky. 10. Analýza a predikce časových řad pomocí modelů DM, příprava dat, doplnění chybějících hodnot, diference, sezónní diference, klouzavé průměry a mediány, vyhlazování časových řad. 11. Modelování a evaluace řešení, zavádění DM řešení do praxe, zařazení skórovacích procesů do rozhodovacího firemního workflow. 12. Webmining, Textmining. 13.- 14. Rozbor typických úloh data miningu. Cvičení: 1.- 2. Zpracování a vizualizace dat v SPSS Modeleru a další jeho ovládací prvky, případně srovnání s jiným Open source SW. 3.- 9. Příprava modelů pro případové studie, jejich analýza a interpretace výsledků - na vzorové studie bude navazovat jejich modifikace v několika samostatných zadáních. Aplikace DM algoritmů bude diskutována a studovaná na širokém spektru úloh. Například: -doporučení léčebné metody na základě biomedicínckých dat, -klasifikace v biologických a fyzikálních datech, -marketingové úlohy pro predikci chování zákazníka - odhad jeho migrace ke konkurenci, citlivost na marketingové nabídky, -model prevence kriminality doporučený na základě zpracování dat z policejních databází, - -monitorování zkušebního provozu a predikce selhání stroje, -úlohy spojené s bankovním sektorem ? hledání podezřelých úvěrů, praní špinavých peněz a další. 10.- 12. Samostatná individuální práce. 13.- 14. Obhajoby individuálních prací.

Studijní aktivity a metody výuky
Dialogické metody (diskuze, rozhovor, brainstorming)
  • Účast na výuce - 56 hodin za semestr
Výstupy z učení
Předmět se soustřeďuje na typické úlohy a postupy dataminingu (DM). Učí základy DM technik, jako jsou klasifikační, segmentační, asociační a další algoritmy, které pomáhají v praxi k využití rozsáhlých dat. Těmito postupy se studenti učí predikovat významné veličiny za účelem optimalizace rozhodování v praxi, hledat anomálie, hledat vztahy a vzory či jiné skryté informace. DM úlohy budou řešeny metodologií CRISP-DM ve vhodném softwarovém nástroji. Studenti se naučí všechny kroky DM od formulace problému, přes získání dat, přípravy a zpracování dat pro modelování, návrh a ověření modelu, až po nasazení řešení do praxe. Důraz bude kladen na porozumění a interpretaci výsledků.
Student získá znalost řešení dataminingových úloh. Na praktických úlohách se naučí používat typické dataminingové algoritmy a analytické postupy vývoje a nasazení dataminingového řešení do praxe.
Předpoklady
Znalost základů statistiky, znalost datových struktur používaných pro elektronické ukládání informací, zejména databázových

Hodnoticí metody a kritéria
Kombinovaná zkouška

Absolvování předepsaných úloh, odevzdání a obhájení individuální semestrální práce, znalost odpřednášené látky a uspokojivé výsledky průběžné kontroly.
Doporučená literatura
  • Berka Petr. Dobývání znalostí z databází. Academia, Oraha, 2006.
  • Hendl Jan. Přehled statistických metod zpracování dat. Praha, 2009.
  • Olivia Parr Rud. Datamining. Computer Press a.s., 2006.
  • Yong Yin, Ikou Kaku, Jiafu Tang. Data Mining. Springer London Ltd. , 2011.


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr
Fakulta: Fakulta mechatroniky, informatiky a mezioborových studií Studijní plán (Verze): Informační technologie (2013) Kategorie: Informatické obory 1 Doporučený ročník:1, Doporučený semestr: Letní