Informacie k projektom pre predmet "Analyza zhlukov a klasifikacia dat" ======================================================================= Pisomny zaznam o vypracovani a vysledkoch projektu je potrebne poslat vo formate pdf na moju e-mailovu adresu harman@fmph.uniba.sk najneskor do 8:00 v den Vasej skusky. Projekt moze byt napisany v slovenskom aj anglickom jazyku. Hodnotenie skusky sa bude zakladat na Vasej prezentacii projektu a na dvoch otazkach z teorie. Tento text sa venuje projektu. V pisomnom zazname o projekte sa snazte uviest vsetky dolezite informacie, najma: 1) Vase meno a datum; 2) Informativny nazov projektu (v rozsahu 5 až 12 slov, napriklad "Particna a hierarchicka analyza zhlukov europskych jazykov"); 3) Zdroj dat a opis objektov aj premenných (crt) pozorovanych (meranych) na danych objektoch a to slovne, ciselne, alebo pomocou grafov; 4) Ciel analyzy zvoleneho datoveho suboru; 5) Opis aplikacie aspon dvoch roznych metod preberanych na prednaske na analyzu zvolenych dat. Za rozne metody povazujeme: a) k-means alebo k-medoids, b) DBSCAN alebo OPTICS, c) zhlukovanie založene na normalnom modeli, d) spektralnu analyzu zhlukov e) hierarchicku analyzu zhlukov, f) linearnu alebo kvadraticku diskriminacnu analyzu, g) k najblizsich susedov, h) klasifikacne stromy alebo lesy, i) metody oporneho bodu, j) neuronovu siet, h) inu metodu schvalenu vyucujucim. Nie je potrebne podrobne pisat vseobecnu teoriu pre zvolene metody (staci par vetami opisat zakladne myslienky metod). 6) Opis vysledkov vo forme ciselnych udajov, grafov a plnovyznamovych viet; 7) Moznu interpretaciu vysledkov pre potreby aplikacnej oblasti, z ktorej pochadzaju data; 8) Zhodnotenie ziskanych vysledkov, s explicitnym poukazanim na problematicke aspekty zvoleneho pristupu a interpetacie. Na projekt nekladiem ziadne formalne poziadavky, ale snazte sa pisat stylom, ktory zodpoveda pravidlam a odporucaniam uvedenym v http://www.iam.fmph.uniba.sk/ospm/Harman/DIP.pdf. Rozsah projektu by mal byt 6-12 stran. Ak pouzivate ine zdroje ako prednasky, nezabudnite uviest citacie na tieto zdroje! Pri priprave projektu je pripustne pouzivat nastroje umelej inteligencie, avsak len na vypomoc s formalnou/jazykovou strankou projektu a s pisanim/odladovanim pocitacoveho kodu. (Dokonca kreativne pouzitie tychto nastrojov na ulahcenie si mechanickych ukonov, pripadne na esteticke vylepsenie prezentacie, hodnotim kladne.) Samozrejme, vystupy ziskane tymito nastrojmi musite vyzdy aspon rudimentarne overit. Nie je vsak dovolene pouzivat nastroje umelej inteligencie na generovanie projektu po obsahovej/"myslienkovej" stranke (cize na nahradenie tych vedomosti a cinnosti, ktore Vas ma tento predmet naucit). Projekt budete prezentovat osobne, bud na vlastnom notebooku, alebo na mojom pocitaci. Pri hodnoteni projektu budem brat do uvahy jeho pisomnu podobu, ale aj kvalitu samotnej prezentácie (napriklad spravnost, zrozumitelnost a plynulost vyjadrovania). Data ==== Narocnou sucastou prace na projekte je ziskanie vhodnych dat. Data by mali mat rozsah minimalne 20 objektov, na ktorych meriame aspon tri premenne/crty, najlepsie viac. (Ak analyzujeme maticu nepodobnosti, tak samozrejme nemusime mat k dispozicii ziadne explicitne premenne/crty.) Nemozete pouzivat data, ktore sme analyzovali na prednaske ci cviceniach, avsak na Internete je dostupne mnozstvo zaujimavych datovych suborov, resp. celych datovych repozitarov, ktore si mozete vyhladat pomocou vyhladavacov. Vyhladanie vhodneho datoveho suboru sa Vam moze javit ako otrava, ale aj to plni svoj pedagogicky ucel, pretoze pri tom uvazujete nad roznymi typmi dat a datovych suborov a tiez si urobite prehlad na webe dostupnymi datami. Datovy subor si mozete vyrobit aj samostatne, napriklad online dotaznikom s vhodne zvolenymi premennymi, ktory Vam vyplnia kamarati (kedze nejde o seriozny vedecky vyskum, nebudem prilis brat do uvahy kvalitu/design ziskanych dat, potencialnych nedostatkov by ste si ale mali byt vedomi.) Zaujimave data sa daju tiez vygenerovat nastrojmi umelej inteligencie, ale ak chcete pouzivat taketo (alebo ine synteticke) data, napiste mi prosim s predstihom mail, aby sme to prediskutovali. Nebojte sa byt kreativni! Ak by ste si neboli isti, ci Vase data, alebo Vas napad na data je akceptovatelny, napiste mi mail. Upozornujem tiez, ze niekedy studenti prestrelia narocnost problematiky a komplexnost dat vzhladom na cas, ktory maju k dispozicii na ich analýzu a vzhladom na ich vedomosti. Napriklad, student si vyberie velmi komplexne data tykajuce sa genovej expresie, no pritom nevie co je to gen a ako prebieha expresia genov, ale ani to co sa vlastne meralo. V takejto situacii je analyza skoro nemozna. Svojim datam musite rozumiet! Vhodne je napriklad to, ked data pochadzaju z oblasti Vasho uzsieho zaujmu (tema diplomovej prace, oblubeny sport, oblubena vedecka disciplina a podobne).