Prof. Bachelor ELO-ICT - Academiejaar 2024 - 2025
Overzicht
data science
Data science of datawetenschap is een vakgebied dat gericht is op het verkrijgen van inzichten uit data. Data scientists gebruiken programmeervaardigheden, statistische kennis, en domeinspecifieke of sector- en organisatiekennis om verbanden te leggen en waardevolle inzichten te bekomen.
Het data science proces
Data science is een overkoepelende term die het proces aanduidt om structuur te brengen in (big) data , patronen erin te ontdekken en na grondige data-analyse (strategische) beslissingen te ondersteunen en inzichten helpen te verwerken.
Data Mining
Data Mining is het process waarbij data gecollecteerd wordt en patronen in die data gezocht wordt. Hierbij worden Machine learning algoritmen toegepast op (big) data. Binnen het volledige data science process is dit de eerste fase.
Data analyse
Data Analyse duidt op die fase in het proces waarbij de resultaten van de data mining geanalyzeerd worden. Dankzij deze analyse kan de data scientist ondersteuning bieden naar het nemen van strategische beslissingen en het geven van inzichten in deze beslissingen.

Big Data is niet hetzelfde als data science
Big Data zijn enorme hoeveelheden aan niet gestructureerde data afkomstig van verschillende bronnen, die typisch niet verwerkt kunnen worden gebruik makend van traditionele applicaties. Typisch spreekt men over 3 (of 4, of 5) V’s: namelijk het volume van de data (meer dan één computer), de velocity of snelheid waarmee deze geproduceerd wordt (meestal door IoT-sensoren) en de varïeteit (afbeeldingen, tekst, video etcetera). Big data storage tools (Hadoop, Greenplum, MapReduce, etc.)






Netflix investeert in het herkennen en creëeren van rond de 2000 clusters, dit zijn groepen van kijkers met vergelijkbare interesses. Dit gebeurt op basis van kijk-gedrag maar ook andere data die beschikbaar is van de kijkers, leeftijd, abonnementstype, gemiddelde duur van kijken etc. Slechts 40 tot 50 titels worden gesuggereerd aan een gebruiker zodat deze op het platform blijft. Bovendien geeft het ook inzicht in welke series ze zelf moeten maken.
Onderzoeksproject van UCE & CenSE @ Odisee met de steun van VLaio



Onderzoekers van de universiteit van Houston bestudeerden Google Flu Trends. Deze dienst monitort de griep aan de hand van zoekopdrachten. Wanneer mensen bijvoorbeeld zoeken op symptomen van het griepvirus mag men ervan uitgaan dat de griep in die omgeving heerste. Op basis van die zoekopdrachten kan Google Flu Trends inzicht geven in waar de griep toe heeft geslagen en of de epidemie toeneemt of afneemt. Maar de dienst overschatte de griep herhaaldelijk, hij bleek gewoon winterseizoenen te voorspellen en miste de enorme piek van griep in 2013 helemaal. Google’s algoritme was oa. vatbaar voor overfitting door seizoensgebonden termen die niet gerelateerd werden door griep zoals high school basketball.
deep learning zie OPO AI


Arthur Samuel 1959
Machine Learning is a computer’s ability to learn without being explicitly programmed
Tom Mitchell 1997
Wanneer een computerprogramma door ervaring E, steeds beter wordt in een bepaalde taak T volgens een gemeten performantiewaarde M, dan zegt men dat dit programma leert uit zijn ervaring E.
Voor mensen is het eenvoudig om:

Het leersysteem is een Black Box die we zullen gaan benaderen.

Leren gebeurt hier aan de hand van vele voorbeelden.

Welke eigenschappen (attributen of features) zijn van belang om een voorbeeld weer te geven of te beschrijven? De verschillen in deze attributen zullen aanleiding geven tot verschillende patronen en klassificaties.
Ook de ouput moet beschreven worden. Van elke ervaring (trainingsvoorbeeld) moeten we kennis hebben over de classificatie. De data moet gelabeld zijn.
Probeer je blackbox te vervangen door een hypothese. Door een geparametrizeerd leeralgoritme te kiezen kan je de parameter zo tunen dat de classificatie beter wordt.

Laat het algoritme leren. Gebruik de error om je parameter W aan te passen zodat algoritme beter zal presteren bij een volgende poging.

Hoe goed doet je systeem het op je trainingsdata? Hoe goed presteert je systeem op ongeziene testdata?

Als de kwaliteit hoog genoeg is, kan je het systeem in gebruik nemen.

Hoe goed werkt je geleerd beslissingsmodel? Dat kan je niet afleiden aan de hand van de data die je gebruikt hebt om het model te leren (dat is hetzelfde als spieken!). Je test het model op data die het model tot dan toe nog niet gezien heeft. Daarom mag je niet al je data gebruiken tijdens de trainingsfase, je houdt een deel opzij om te testen.
Een typische opdeling van de data is:
\(\frac{2}{3}\) de als trainingsset
\(\frac{1}{3}\) de als testset


Supergeviseerd leren: leren aan de hand van een trainer / leraar. De trainingsdata is voorzien van de juiste categorie
Niet gesuperviseerd leren: er is geen kennis over de trainingsdata. De data kan gegroepeerd of geclusterd worden volgens de gelijkenissen van de input features.
Reinforcement leren: leren om acties te nemen in een ongekende omgeving aan de hand van een signaal uit de omgeving
Semi-supergeviseerd leren: combineert zowel gelabelde als niet-gelabelde data


Data Science Introduction