Data Science Introduction

Prof. Bachelor ELO-ICT - Academiejaar 2024 - 2025

Katja Verbeeck

Overzicht

Overzicht

  1. Wat is data science?
    • definitie
    • voorbeelden
  2. Hoe kan software leren?
  3. Welke vormen van machinaal leren zijn er?
  4. Planning

1. Wat is data science?

Definitie

data science

Data science of datawetenschap is een vakgebied dat gericht is op het verkrijgen van inzichten uit data. Data scientists gebruiken programmeervaardigheden, statistische kennis, en domeinspecifieke of sector- en organisatiekennis om verbanden te leggen en waardevolle inzichten te bekomen.

titel

Definitie

Het data science proces

Data science is een overkoepelende term die het proces aanduidt om structuur te brengen in (big) data , patronen erin te ontdekken en na grondige data-analyse (strategische) beslissingen te ondersteunen en inzichten helpen te verwerken.

Definitie

Data Mining

Data Mining is het process waarbij data gecollecteerd wordt en patronen in die data gezocht wordt. Hierbij worden Machine learning algoritmen toegepast op (big) data. Binnen het volledige data science process is dit de eerste fase.

Data analyse

Data Analyse duidt op die fase in het proces waarbij de resultaten van de data mining geanalyzeerd worden. Dankzij deze analyse kan de data scientist ondersteuning bieden naar het nemen van strategische beslissingen en het geven van inzichten in deze beslissingen.

Definitie

Definitie

Big Data is niet hetzelfde als data science

Big Data zijn enorme hoeveelheden aan niet gestructureerde data afkomstig van verschillende bronnen, die typisch niet verwerkt kunnen worden gebruik makend van traditionele applicaties. Typisch spreekt men over 3 (of 4, of 5) V’s: namelijk het volume van de data (meer dan één computer), de velocity of snelheid waarmee deze geproduceerd wordt (meestal door IoT-sensoren) en de varïeteit (afbeeldingen, tekst, video etcetera). Big data storage tools (Hadoop, Greenplum, MapReduce, etc.)

Voorbeelden: Sport + data science

Voorbeelden: Sport + data science

Voorbeelden: social media + data science

Voorbeelden: netflix

Netflix investeert in het herkennen en creëeren van rond de 2000 clusters, dit zijn groepen van kijkers met vergelijkbare interesses. Dit gebeurt op basis van kijk-gedrag maar ook andere data die beschikbaar is van de kijkers, leeftijd, abonnementstype, gemiddelde duur van kijken etc. Slechts 40 tot 50 titels worden gesuggereerd aan een gebruiker zodat deze op het platform blijft. Bovendien geeft het ook inzicht in welke series ze zelf moeten maken.

Voorbeelden: start2AIM: AI in marketing

Onderzoeksproject van UCE & CenSE @ Odisee met de steun van VLaio

Voorbeelden: Het gevaar van data: bias

Gender shades project

Voorbeelden: Het gevaar van data: overfitting

Onderzoekers van de universiteit van Houston bestudeerden Google Flu Trends. Deze dienst monitort de griep aan de hand van zoekopdrachten. Wanneer mensen bijvoorbeeld zoeken op symptomen van het griepvirus mag men ervan uitgaan dat de griep in die omgeving heerste. Op basis van die zoekopdrachten kan Google Flu Trends inzicht geven in waar de griep toe heeft geslagen en of de epidemie toeneemt of afneemt. Maar de dienst overschatte de griep herhaaldelijk, hij bleek gewoon winterseizoenen te voorspellen en miste de enorme piek van griep in 2013 helemaal. Google’s algoritme was oa. vatbaar voor overfitting door seizoensgebonden termen die niet gerelateerd werden door griep zoals high school basketball.

Deep Learning

deep learning zie OPO AI

Generatieve AI en LLM’s

Generatieve AI zie OPO AI

2. Hoe kan software leren?

Definitie van machine learning

Arthur Samuel 1959

Machine Learning is a computer’s ability to learn without being explicitly programmed

Tom Mitchell 1997

Wanneer een computerprogramma door ervaring E, steeds beter wordt in een bepaalde taak T volgens een gemeten performantiewaarde M, dan zegt men dat dit programma leert uit zijn ervaring E.

Leren is bv. patronen herkennen zoals mensen

Voor mensen is het eenvoudig om:

  • gezichten te herkennen
  • concepten te herkennen (welke voertuigen zijn bussen?)
  • een handschrift/ geschreven letters te herkennen
  • emoties te herkennen
  • een spam mail te herkennen
  • enz

Voorbeeld: herkennen van handgeschreven karakters

  • Taak T: herken een handgeschreven karakter (dit is een classificatietaak)
  • Metriek M: wat is het percentage van alle handgeschreven karakters die correct herkend / geclassificeerd werden?
  • Training data E: een databank van handgeschreven karakters waarvan geweten is welk karakter ze voorstellen.

Stap 0

Het leersysteem is een Black Box die we zullen gaan benaderen.

Stap 1: verzamelen van trainingsdata

Leren gebeurt hier aan de hand van vele voorbeelden.

Stap 2: Kies een gepaste representatie

Welke eigenschappen (attributen of features) zijn van belang om een voorbeeld weer te geven of te beschrijven? De verschillen in deze attributen zullen aanleiding geven tot verschillende patronen en klassificaties.

Stap 2: Kies een gepaste representatie

Ook de ouput moet beschreven worden. Van elke ervaring (trainingsvoorbeeld) moeten we kennis hebben over de classificatie. De data moet gelabeld zijn.

Stap 3: Kies een leeralgoritme

Probeer je blackbox te vervangen door een hypothese. Door een geparametrizeerd leeralgoritme te kiezen kan je de parameter zo tunen dat de classificatie beter wordt.

Stap 3: Kies een leeralgoritme

Laat het algoritme leren. Gebruik de error om je parameter W aan te passen zodat algoritme beter zal presteren bij een volgende poging.

Stap 4: Test je systeem

Hoe goed doet je systeem het op je trainingsdata? Hoe goed presteert je systeem op ongeziene testdata?

Stap 5: Gebruik je systeem

Als de kwaliteit hoog genoeg is, kan je het systeem in gebruik nemen.

Testen en Valideren

Hoe goed werkt je geleerd beslissingsmodel? Dat kan je niet afleiden aan de hand van de data die je gebruikt hebt om het model te leren (dat is hetzelfde als spieken!). Je test het model op data die het model tot dan toe nog niet gezien heeft. Daarom mag je niet al je data gebruiken tijdens de trainingsfase, je houdt een deel opzij om te testen.

Een typische opdeling van de data is:

  • \(\frac{2}{3}\) de als trainingsset

  • \(\frac{1}{3}\) de als testset

Overfitting en underfitting

Dus leren is eenvoudig?

3. Welke vormen van machinaal leren zijn er?

Verschillende vormen van leren

  • Supergeviseerd leren: leren aan de hand van een trainer / leraar. De trainingsdata is voorzien van de juiste categorie

  • Niet gesuperviseerd leren: er is geen kennis over de trainingsdata. De data kan gegroepeerd of geclusterd worden volgens de gelijkenissen van de input features.

  • Reinforcement leren: leren om acties te nemen in een ongekende omgeving aan de hand van een signaal uit de omgeving

  • Semi-supergeviseerd leren: combineert zowel gelabelde als niet-gelabelde data

Machine Learning

4. Planning 2025