Informacie k projektom pre predmet "Analyza zhlukov a klasifikacia dat" ======================================================================= Pisomny zaznam o vypracovani a vysledkoch projektu je potrebne poslat vo formate pdf na moju e-mailovu adresu harman@fmph.uniba.sk najneskor do 8:00 v den Vasej skusky. Projekt moze byt napisany v slovenskom aj anglickom jazyku. Hodnotenie skusky sa bude zakladat na Vasej prezentacii projektu a na dvoch otazkach z teorie. Tento text sa venuje projektu. V pisomnom zazname o projekte sa snazte uviest vsetky dolezite informacie, najma: 1) Vase meno a datum; 2) Informativny nazov projektu (v rozsahu 5 až 12 slov, napriklad "Particna a hierarchicka analyza zhlukov europskych jazykov"); 3) Zdroj dat a opis objektov aj premenných (priznakov, pozorovani) a to slovne, ciselne, pripadne pomocou grafov; 4) Ciel analyzy zvoleneho datoveho suboru; 5) Opis aplikacie aspon dvoch roznych metod preberanych na prednaske na analyzu zvolenych dat. Za rozne metody povazujeme: a) k-means alebo k-medoids, b) DBSCAN (alebo pribuzny OPTICS), c) zhlukovanie založene na normalnom modeli, d) hierarchicku analyzu zhlukov, e) linearnu alebo kvadraticku diskriminacnu analyzu, f) k najblizsich susedov, g) klasifikacne stromy alebo lesy, h) kombinacia klasifikatorov pomocou boostingu, i) metody oporneho bodu, j) inu metodu schvalenu vyucujucim. Nie je potrebne podrobne pisat vseobecnu teoriu pre zvolene metody (staci par vetami opisat zakladne myslienky metod). 6) Opis vysledkov vo forme ciselnych udajov, grafov a plnovyznamovych viet; 7) Moznu interpretaciu vysledkov pre potreby aplikacnej oblasti, z ktorej pochadzaju data; 8) Zhodnotenie ziskanych vysledkov, s explicitnym poukazanim na problematicke aspekty zvoleneho pristupu a interpetacie. Na projekt nekladiem ziadne formalne poziadavky, ale snazte sa pisat stylom, ktory zodpoveda pravidlam a odporucaniam uvedenym v http://www.iam.fmph.uniba.sk/ospm/Harman/DIP.pdf. Rozsah projektu by mal byt 6-12 stran. Ak pouzivate ine zdroje ako prednasky AZKD, nezabudnite uviest citacie na tieto zdroje! Pri priprave projektu je pripustne pouzivat nastroje umelej inteligencie, avsak len na vypomoc s jazykovou a vizualnou strankou projektu a s pisanim/odladovanim/formatovanim pocitacoveho kodu. (Dokonca kreativne pouzitie tychto nastrojov na ulahcenie si mechanickych ukonov, pripadne na esteticke vylepsenie prezentacie, hodnotim kladne.) Samozrejme, vystupy ziskane tymito nastrojmi musite vzdy overit. Nie je dovolene pouzivat nastroje umelej inteligencie na generovanie projektu po obsahovej/myslienkovej stranke (cize na nahradenie tych vedomosti a cinnosti, ktore Vas ma tento predmet naucit). Projekt budete prezentovat osobne, bud na vlastnom notebooku, alebo na mojom pocitaci (budete si moct vybrat). Pri hodnoteni projektu budem brat do uvahy aj jeho pisomnu podobu, ako aj kvalitu ustnej prezentácie (napriklad spravnost, zrozumitelnost a plynulost vyjadrovania). Data ==== Narocnou sucastou prace na projekte je ziskanie vhodnych dat. Data by mali mat rozsah minimalne 20 objektov, na ktorych meriame aspon tri premenne/priznaky, najlepsie viac. (Ak analyzujeme maticu nepodobnosti, tak samozrejme nemusime mat k dispozicii ziadne explicitne premenne/crty.) Nemozete pouzivat data, ktore sme analyzovali na prednaske ci cviceniach, avsak na Internete je dostupne mnozstvo zaujimavych datovych suborov, resp. celych datovych repozitarov, ktore si mozete vyhladat pomocou vyhladavacov. Vyhladanie vhodneho datoveho suboru sa Vam moze javit ako otrava, ale aj to plni svoj pedagogicky ucel, pretoze pri tom uvazujete nad roznymi typmi dat a datovych suborov a tiez si urobite prehlad na webe dostupnymi datami. Datovy subor si mozete vyrobit aj samostatne, napriklad online dotaznikom s vhodne zvolenymi premennymi, ktory Vam vyplnia kamarati (kedze nejde o seriozny vedecky vyskum, nebudem prilis brat do uvahy kvalitu/design ziskanych dat, potencialnych nedostatkov by ste si ale mali byt vedomi.) Zaujimave data sa daju tiez vygenerovat nastrojmi umelej inteligencie, ale ak chcete pouzivat taketo (alebo ine synteticke) data, napiste mi prosim s predstihom mail, aby sme to prediskutovali. Nebojte sa byt kreativni! Ak by ste si neboli isti, ci Vase data, alebo Vas napad na data je akceptovatelny, napiste mi mail. Upozornujem tiez, ze niekedy studenti prestrelia narocnost problematiky a komplexnost dat vzhladom na cas, ktory maju k dispozicii na ich analýzu a vzhladom na ich vedomosti. Napriklad, student si vyberie velmi komplexne data tykajuce sa genovej expresie, no pritom nevie co je to gen a ako prebieha expresia genov, ale ani to co sa vlastne meralo. V takejto situacii je analyza skoro nemozna. Svojim datam musite rozumiet! Vhodne je napriklad to, ked data pochadzaju z oblasti Vasho uzsieho zaujmu (tema diplomovej prace, oblubeny sport, oblubena vedecka disciplina a podobne). RH