Wiskunde voor Data Science - deel 1 : Statistiek

Prof. Bachelor ELO-ICT - Academiejaar 2024 - 2025

Katja Verbeeck

Overzicht

Overzicht

Variabelen
Centrum- en spreidingsmaten
Visualiseren van data
Samenhang tussen 2 variabelen
Verdelingen en betrouwbaarheidsintervallen

1. Variabelen

Definities

definities uit de statistiek

Populatie: de volledige verzameling van objecten of personen die men bestudeert.
Element/instantie: een enkel object of individu uit de populatie.
Steekproef: een deelverzameling uit de populatie die model staat voor de hele populatie. (en bij voorkeur representatief is)
Variabele: een eigenschap die kan waargenomen worden bij de elementen van de populatie of steekproef en die varieert binnen de populatie. In data science spreekt men eerder over features.
Data: de verzameling van waarden die men bekomt door de variabelen te gaan meten. (is meervoud)
Verdeling: beschrijft voor een variabele welke waarden aangenomen worden en hoe vaak

Eigenschappen van variabelen

Een variabele kan men aanduiden als numeriek of categoriek.

Numerieke data kan men onderverdelen in discreet of continu

Soorten variabelen

Een discrete variabele kan enkel gehele waarden (integers) aannemen (een aantal bv.).
Een continue variabele kan elke continue waarde (float) in een interval aannemen (bv. een lengte).
Een categorische variabele kan slechts een eindig aantal waarden aannemen. Deze waarden behoren tot een bepaalde categorie (bv. de categorie size met de mogelijke waarden small, medium, large)
Een binaire variabele is een speciale categorische variabele waarbij er slechts 2 mogelijke categoriewaarden zijn (bv. true of false)

Eigenschappen van variabelen

Een numerieke variabele kan verschillende betekenissen hebben afhankelijk van de context.

Soorten schalen

Een variable kan:

nominaal zijn: dwz. deze wordt enkel gebruikt voor identificatie. De toegekende waarden zijn slechts namen en hebben geen numerieke betekenis. (bv. een vluchtnummer, een studentennummer). Een categorische waarde kan geïmplmenteerd worden als een nominaal nummer. (bv. size small is 0, size medium is 1, size large is 2).
ordinaal zijn: dwz. deze wordt gebruikt voor identificatie maar duidt ook een volgnummer aan. De eigenlijke waarde van de variabele is niet van belang alleen de onderlinge rangorde tussen de elementen. (bv. de ATP ranking van een tenniser). Een categorische waarde kan geïmplmenteerd worden als een ordinaal nummer. (bv. finisher winner is 1, second is 2, size third is 3).
zich verhouden in een intervalschaal: dwz. deze zijn ordinaal en de verschillen tussen de waarden hebben een betekenis. (bv. een temperatuur)
zich verhouden in een ratioschaal: dwz. niet alleen verschillen maar ook de verhouding of ratio’s tussen de waarden hebben een betekenis. (bv. een leeftijd)

2. Centrum- en spreidingsmaten

Centrummaten

Numerieke data kan heel handig worden samengevat in verschillende maten waardoor het inzicht in de data vergroot. Centrummaten vatten de data samen in 1 getal, als maat voor het centrum van de verdeling van de data. We onderscheiden:

Centrummaten

Het gemiddelde: het rekenkundig gemiddelde bepaal je door alle waarden op te tellen en deze som te delen door het aantal waarden in je steekproef. Gegeven variabele \(X\) met gemeten waarden \(X = \{x_1, x_2, \ldots x_n \}\) dan is het rekenkundig gemiddelde \(\overline{x}\):

\[ \overline{x} = \frac{\sum_{i=1}^n x_i}{n}\]

Het gemiddelde heeft geen zin voor nominale of ordinale waarden zonder betekenis.
De mediaan: de mediaan is de middelste waarde wanneer je alle gemeten waarden opsomt van klein naar groot. Indien er twee middelste waarden zijn, neem je het gemiddelde van die waarden. Maximaal de helft van de waarden is dus groter dan de mediaan en maximaal de helft van de waarden is kleiner dan de mediaan. Een mediaan heeft dus geen betekenis voor nominale waarden.
De modus: de modus is de waarde die het meest voorkomt, oftewel de modus is de waarde met de hoogste frequentie. Ook voor nominale variabelen kan je de modus bepalen. Er kunnen ook meerdere waarden de modus zijn.

Outliers

outliers

Een outlier, uitschieter of extreme waarde is een waarde die ver verwijderd ligt van de andere waarden en eventueel niet correct is (door meetfouten bv.)
Een outlier heeft vaak een grote invloed op het gemiddelde, maar minder op de modus of de mediaan. Men zegt ook dat deze beide robuust zijn, d.i. niet gevoelig voor outliers.
Het bepalen of een waarde een outlier is, is niet altijd evident (anomalie detectie). Wanneer anomaliën worden gedetecteerd, worden ze vaak verwijderd uit de dataset.

Voorbeeld

Beschouw volgende steekproef:

Variabele \(x\) is hier de lengte van de honden. Dit is een voorbeeld van een ratiovariabele.

Voorbeeld

Het steekproefgemiddelde is dan als volgt:

\[\overline{x} = \frac{\sum^n_{i=1}x_i}{n} = \frac{118 + 90 +38 +94 +55 + 100 + 34 + 122 + 57 + 67}{10} ==\frac{775}{10} = 77.5 \]

met \(n = 10\) de steekproefgrootte.

De mediaan bekom je door eerst alle waarden van variabele \(x\) eerst te ordenen:

Het gemiddelde van de 2 middelste waarden is de mediaan:

\[md_x = \frac{67 + 90}{2} = \frac{157}{2} = 78.5\]

Voorbeeld

Vermits in dit voorbeeld elke waarde juist 1x voorkomt, is er niet echt een modus. Stel dat er een extra hond aan toegevoegd zou worden met lengte \(122\) dan zou deze waarde 2x voorkomen en de modus zijn.

Spreidingsmaten

Een centrummaat geeft een idee over het centrum van de data verdeling, maar dit zegt niet alles. Steekproeven kunnen eenzelfde gemiddelde hebben maar toch een heel andere spreiding van de data vertonen:

Daarom is het ook een goed idee om naar de spreiding van de data te kijken en het verschil van de data t.o.v. het centrum.

Spreidingsmaten

Spreidingsmaten

De variatiebreedte of range: dit is het verschil of de afstand tussen de grootste waarde en de kleinste waarde.

In het voorbeeld is de range \(= 122 -34 = 88\)

Spreidingsmaten

Spreidingsmaten

De kwartielen: de mediaan is de middelste waarde maar dit noemt men ook het tweede kwartiel (\(Q_2\)). Analoog kan je dan ook het eerste (\(Q_1\)) en derde kwartiel (\(Q_3\)) bepalen. Het eerste kwartiel heeft 25% van de datawaarden kleiner en 75% van de datawaarden groter. Voor het derde kwartiel is dit net omgekeerd: 25% van de data zal groter zijn en 75% van de data zal kleiner zijn.

De interkwartielafstand is de afstand tussen het \(Q_3\) en \(Q_1\). In het voorbeeld geeft dit: \(Q_3 - Q_1 = 100 - 55 = 45\).
Op analoge manier kan je ook met decielen en percentielen werken.

Spreidingsmaten

Spreidingsmaten

De variantie: de variantie gaat voor elk datapunt na hoever het verwijderd ligt van het gemiddelde. In de som van al deze verschillen wil je geen negatieve waarden, daarom worden deze verschillen eerst gekwadrateerd. Vervolgens deel je deze som door het aantal elementen in de steekproef -1. \[ s^2 = \frac{\sum_i (x_i - \overline{x})^2}{n-1}\]
De standaardafwijking is simpelweg de vierkantswortel van de variantie. \[ s = \sqrt{s^2}\]

Wanneer je verwijst naar een hele populatie i.p.v. een steekproef noteert met dit als volgt:

\[\sigma = \sqrt{\sigma^2}\]

De variatiecoëfficiënt is een maat voor de relatieve spreiding van data en kan gebruikt worden om de spreiding tussen verschillende populaties of steekproeven te vergelijken. Deze wordt berekend door de standaardafwijking te delen door de absolute waarde van het gemiddelde:

\[c_v = \frac{s}{\vert{\overline{x}\vert}} \]

3. Visualiseren van data

Data visualisatie

Statistische kengetallen zeggen niet altijd alles. Wanneer data gevisualiseerd wordt in grafieken wordt deze vaak beter interpreteerbaar waardoor eventuele trends maar ook outliers zichtbaar worden.

Let op

Er zijn enorm veel types visualisaties beschikbaar. Data kan alleen goed geïnterpreteerd worden als de juiste visualisatie voor de data wordt gekozen. Hierbij hou je rekening met het type van je data, een uitvoerige keuzehulp vind je op from Data to Viz.

Data visualisatie

Je kan data visualiseren van 1 variabele:

cirkeldiagram
boxplot
staafdiagram
histogram

of je kan de samenhang van 2 variabelen visualiseren:

lijnplot
scatterplot
heatmap

Data visualisatie

Cirkeldiagram

Een cirkeldiagram of Pie chart representeert de proporties van de verschillende categoriëen van je variabele. Elke categorie is een bepaald taartstuk uit de schijf en toont het aandeel van elke categorie (vaak uitgedrukt in een precentage) van het geheel.

Alhoewel het cirkeldiagram een vaak gebruikte visualisatie is, is het niet zo ’n geschikte keuze om je data te visualiseren. De rede is dat het menselijke oog heel slecht is in het lezen van hoeken, zie ook Save the Pies for dessert

Data visualisatie

Data visualisatie

Boxplot

Een boxplot representeert in 1 oogopslag de beschrijvende statische gegevens van je dataset. Het toont de spreiding van de data, de mediaan, de modus, outliers en alle quartielen. Het geeft een 5-getallen samenvatting van je data.

Data visualisatie

StaafDiagram

Een staafdiagram of bar chart wordt gebruikt om de verandering in de waarde van een bepaalde variabele ten opzichte van de andere weer te geven. De lengte van een staaf of balk geeft die verschillen aan. Dit type grafiek wordt enkel gebruikt voor discrete of categorische gegevens. Een staafdiagram kan horizontaal (balk) of verticaal (staaf) zijn. De staven of balken kunnen gestapeld of gegroepeerd worden met de data van verschillende groepen in een categorie.

Data visualisatie

Histogram

Een histogram verdeelt je data over intervallen (bins) en toont de hoeveelheid (frequency) data in elke bin. Meestal is elke bin even breed. Een bin is een half open interval, met de ondergrens inbegrepen, maar de bovengrens niet. Alleen de laatste bin is een gesloten interval. Een histogram wordt typisch gebruikt worden om continue data te observeren.

Data visualisatie

Lijnplot

Een lijnplot of x-y plot visualiseert 2 dimensionele datapunten \((x_i,y_i)\) die al dan niet verbonden zijn door een lijn. Op de horizontale as duid je de datapunten \(x_i\) aan en trek je een recht door \(x_i\) loodrecht op de horizontale as. Op de verticale as toon je de overeenkomstige datapunten \(y_i\) aan en trek je een rechte loodrecht op de verticale as door \(y_i\). Daar waar de loodrechten snijden bevinden zich de koppels \((x_i,y_i)\). De y-waarden zijn meestal, de overeenkomstige x-waarden waar een functie oplosgelaten is. Wanneer de koppels verbonden worden door een lijn, bekom je het visuele functieverloop van de functie.

Met een lijnplot kan je nagaan of 2 variabelen een lineair verband vertonen. Het is ook de eerste keuze om tijdreeksen (time series bv. beurskoersen) te visualiseren

Data visualisatie

Scatterplot

Een Scatterplot of spreidingsdiagram visualiseert datapunten in een 2 dimensionele ruimte (2 variabelen). Er kan gevarieerd worden met de grootte van het punt om een hoeveelheid aan te duiden (3de variabele) maar ook met kleur om een groep aan te duiden.

Via een scatterplot kan je visueel al dan niet een verband of relatie zien tussen de 2 variabelen (bv. een lineaire trend).

Data visualisatie

Heatmap

Een heatmap visualiseert de data uit een 2 dimensionele array via een kleurschaal. De kleur representeert een numerieke waarde. Het kan ook de dichtheid van een ruimtelijke variabele visualiseren.

Typisch wordt het gebruik om een covariantie matrix visueel voor te stellen.

bron

4. Samenhang tussen variabelen

Covariantie en correlatie

Variabelen zijn niet altijd onafhankelijk van elkaar. De covariantie en correlatie kan je gebruiken om de relatie tussen 2 variabelen te onderzoeken.

Daar waar de variantie iets zegt over de spreiding van de 1 variabele (i.e. hoe ver liggen de waarden voor een variabele van het gemiddelde), zal de covariantie de gemeenschappelijke variantie van 2 variabelen berekenen. De correlatie is een gestandaardiseerde maat afgeleid uit de covariantie om de samenhang te meten.

covariantie

Covariantie gaat na of en in welke richting 2 numerieke variabelen samen variëren.

De berekening is als volgt: \[cov(x,y) = \frac{\sum((x_i - \overline{x})(y_i - \overline{y}))}{n-1} \]

met \(n\) de steekproefgrootte.

Covariantie en correlatie

\[cov(x,y) = \frac{\sum((x_i - \overline{x})(y_i - \overline{y}))}{n-1} \]

De interpretatie is als volgt:

Een positieve covariantie geeft aan dat er een positieve relatie is tussen de twee variabelen. Hoge waarden voor de ene variabelen gaan samen met hoge waarden voor de andere variabele.
Een nul, of getal dichtbij de nul, geeft aan dat er geen verband is tussen de twee variabelen.
Een negatieve covariantie geeft aan dat er een negatieve relatie is tussen de twee variabelen. Hoge waarden voor de ene variabelen geven lage variabelen voor de andere en omgekeerd.

Covariantie en correlatie

correlatie

Correlatie is een gestandardiseerde maat voor de samenhang tussen 2 variabelen. Het is een getal tussen -1 en 1 en is onafhankelijk van de eenheden van de variabelen. Vandaar dat de correlatie kan gebruikt worden om de sterkte van de samenhang uit te te drukken en deze te vergelijken met andere correlaties.

De correlatie wordt berekend door een correlatiecoëfficient uit te rekenen. Afhankelijk van het type grootheden zijn er verschillende correlatiecoëfficiënten om de correlatie te meten. Ook hier maakt men onderscheid tussen populatie en steekproef.

Wanneer je een lineair verband vermoed tussen de 2 variabelen wordt meestal de Pearson correlatiecoëfficiënt gebruikt: \[\rho = \frac{cov(x,y)}{\sigma(x)\sigma(y)}\]

voor de populatie en als het over een steekproef gaat:

\[r = \frac{cov(x,y)}{s(x)s(y)}\]

Voorbeelden van samenhang

Perfecte positieve samenhang: Neem voor verschillende personen de schoenmaat van de linkervoet (variabele 1) en de rechtervoet (variabele2). Het is duidelijk dat er een samenhang is tussen beiden variabelen. In de grafiek (rechts) zie je de punten liggen op een rechte. Dit is een voorbeeld van een perfecte positieve samenhang. (\(r \approx 1\))
Perfecte negatieve samenhang. Noteer om de 20 kilometer de afgelegde afstand met je wagen (variabele 1) en het aantal liter benzine in de tank (variabele 2). De punten op de grafiek liggen ook hier op een rechte, alleen deze gaat nu van linksboven naar rechtsonder. Dit is een voorbeeld van een perfecte negatieve samenhang.(\(r \approx -1\))
Geen samenhang. Meet elke dag de lengte van een willekeurige persoon (variabele 1) alsook de buitentemperatuur (variabele2). Beide variabelen hebben geen samenhang: het spreidingsdiagram vertoont geen enkele samenhang, de punten zijn willekeurig verspreid.(\(r \approx 0\))

Causaliteit: Oorzaak-verband relatie

Causaliteit betekent dat een verandering in de ene variabele een verandering in de andere variabele veroorzaakt. Men noemt dit een oorzaak-gevolg relatie.

Warning

Correlatie impliceert geen causaliteit tussen twee variabelen. De correlatie geeft de samenhang van twee variabelen, maar duidt niet op een oorzakelijk verband. Er kunnen andere variabelen in het spel zijn die verantwoordelijk zijn voor de wijzigingen bij de andere 2 variabelen. Je kunt op basis van de covariantie dus niet zeggen of de ene variabele de andere veroorzaakt.

Een samenhang is niet noodzakelijk lineair

Let op

Pearson’s correlatie coëfficiënt meet specifiek de lineariteit van de relatie tussen 2 variabelen. Uiteraard kan er een andere type samenhang zijn dan een lineaire. Er bestaan ook andere correlatiecoëfficiënten (Spearman’s \(\rho\), Kendall’s \(\tau\)) die eerder gebaseerd zijn op ranking van de data eerder dan de data zelf. Deze meet bv. of er een positieve of negatieve monotone relatie is, beide veranderen wel in dezelfde of tegenovergestelde richting maar niet noodzakelijk aan dezelfde snelheid.

Coëfficiënt of determination

\(r^2\)

De coëfficiënt of determination is het kwadraat van de correlatiecoëfficiënt: \(r^2\). Deze ligt logischerwijze nu in het interval \([0,1]\) en wordt meestal als een percentage weergegeven.
In regressie-analyse waarbij je voorspellingen probeert te maken aan de hand van lineaire verbanden van meerdere variabelen wordt \(r^2\) gemeten. Een hoge \(r^2\) waarde geeft weer dat een hoge verandering in de ene variabele een goede voorspeller kan zijn voor de verandering in de andere variabele. Wanneer \(r^2\) klein is kan dit duiden op het feit dat andere variabelen betere voorspellers zullen zijn.

Exploratory Data Analyses

Dit is de eerste technische stap van elke data science project. Je gaat data verzamelen, inlezen, opkuisen en onderzoeken aan de hand van statische gegevens en visualisaties. Correlatie-analyse hoort hier ook bij:

Exploratory Data Analysis

In EDA probeer je typisch na te gaan of er een correlatie bestaat tussen de features onderling maar ook tussen een feature en de goal.

5. Verdelingen en betrouwbaarheidsintervallen

Sampling Bias

Leermodellen worden meestal opgesteld aan de hand van samples. Vandaar dat het belangrijk is dat samples, dit zijn deelverzamelingen uit de populatie, op een goede manier zijn samengesteld zodat ze de hele populatie vertegenwoordigen. Het samenstellen van random samples is niet altijd eenvoudig, hierbij moet sampling bias vermeden worden. Een voorbeeld: gender shades project

Selection Bias

“If you torture the data long enough, sooner or later it will confess.”

Is het patroon dat je terugvindt in je (big) data het resultaat van data snooping of cherry-picking?
“Roockie of the year” fenomeen: de best startende atleet in een bepaald seizoen is vaak niet de beste in het volgende. Naast skill speelt ook geluk mee als factor. Geluk neemt echter vaak af.

Dit is een voorbeeld van de zogeheten Regression tot the mean (Galton 1889). bv. Extreem grote mensen hebben niet noodzakelijk extreem grote kinderen.

Data en Sampling verdeling

De verdeling van de data gaat na hoe frequent en welke datawaarden voorkomen. Voor een bepaalde sample kan je verschillende statische waarden bereken (gemiddelde, standaardafwijking enz.)

Je kan echter ook meerdere samples van data beschouwen en nagaan hoe de statische waarden van deze samples variëren (sampling variability). In het voorbeeld worden telkens 1000 datapunten getoond.

Centrale limietstelling

Tip

Zelfs wanneer de originele dataset niet normaal verdeeld is (klok-vorm) zal de sample means verdeling evoleren naar een normale verdeling, onder voorwaarde dat de samples groot genoeg zijn

Normale of Gaussiaanse verdeling

Een verdeling geeft alle mogelijke waarden van een bepaalde variabele weer (horizontaal op de X-as), samen met de frequentie of kans waarmee deze waardes voorkomen (verticaal op de Y-as). Normaal verdeelde data hebben de volgende eigenschappen:

Observaties rond het gemiddelde zijn het waarschijnlijkst
Hoe verder waardes van het gemiddelde af liggen, hoe onwaarschijnlijker het is deze waarden te observeren
Waarden boven en onder het gemiddelde zijn even waarschijnlijk.

Normaliseren

De standnormale verdeling heeft een gemiddelde van \(\overline{x} = o\) en een standafwijking van \(s=1\). Door de z-score te berekenen kan je elke normale verdeling omzetten naar een standaardnormale verdeling: \[z_i = \frac{x_i - \overline(x)}{s}\]

Normalisatie helpt om:

variabelen te vergelijken
waarschijnlijkheid van een variabele te berekenen via betrouwbaarheidsintervallen

Andere soorten verdelingen

Een Poissonverdeling (Poisson distribution) is een discrete kansverdeling. De verdeling geeft de kans dat een gebeurtenis zich een bepaald aantal keren (k) binnen een bepaald tijds- of ruimte-interval voordoet. Deze wordt gekarakteriseerd door het een gemiddelde \(\lambda\) bv. Whatsapp berichten per uur, griepgevallen per jaar, aantal bezoekers op een website …
Een Bernoulli-verdeling, die de waarde 1 heeft met kans \(p\), en de waarde 0 met kans \(q=1−p\) bv. munstuk opwerpen geeft kop of munt, klant koopt of niet,
Een binomiale verdeling, die de kans op een bepaald aantal ‘successen’ aangeeft, bij uitvoeren van een reeks onafhankelijke ‘ja/nee’ experimenten bv. meerdere malen een muntstuk opwerken
Een exponentiële verdeling, kansen op een bepaalde tijdsduur tussen opeenvolgende toevallige gebeurtenissen, bij een proces ‘zonder geheugen’, bv tijd tussen website bezoeken van een klant, tijd tussen falen van een component, …
Een Studentverdeling of t-verdeling, gebruikt voor het schatten van een onbekende verwachting van een normale verdeling

Betrouwbaarheidsintervallen

Elke statistische waarde van een sample (zoals het gemiddelde) is slechts een schatting van de werkelijke populatieparameter. Hoe betrouwbaar is deze schatting? Dit is de rol van het betrouwbaarheidsinterval dat een idee van de foutenmarge moet geven.
De schatting bevindt zich altijd in het midden van dit interval, de foutenmarge is immers symmetrisch, zowel positief als negatief. Bv. 25 ± 10 minuten. 10 is hier de foutenmarge.
Een betrouwbaarheidsinterval wordt gewoonlijk ook vergezeld van een specifiek percentage. Bij een betrouwbaarheid van 90% geldt: gebruiken we 10 verschillende random samples, dan zullen 9 intervallen de juiste parameter bevatten, maar eentje niet.
Voor een voldoende groot sample kan je het betrouwbaarheidsinterval voor bv. gemiddelde \(\overline{x}\) als volgt berekenen:

\[[\overline{x} - z \sigma_{\overline{x}} , \overline{x} + z \sigma_{\overline{x}}]\]

Betrouwbaarheidsintervallen

\[[\overline{x} - z \sigma_{\overline{x}} , \overline{x} + z \sigma_{\overline{x}}]\]

We gebruiken de centrale limiet theorie om te veronderstellen dat ons sample min of meer normaal verdeeld is. De standaardnormale tabel geeft ons dan de juiste z-score overeenkomstig het betrouwbaarheidsniveau dat we willen instellen. Voor 95% is dit \(1,96\) voor 90% is dit \(1,65\) en voor 99% is dit \(2,58\)
de standaardfout van het gemiddelde is gegeven door: \(\sigma_{\overline{x}} = \frac{\sigma}{\sqrt{n}}\). Hierin kan de standaardafwijking van de populatie \(\sigma\) benaderd worden door de standaardafwijking van de steekproef \(s\).
Wanneer je sample te klein is worden foutenmarges berekend via de t-verdeling ipv de normale verdeling.

Vervolg: Probabiliteiten en Verwachtingswaarden

Wanneer een variabele X een event beschrijft dat herhaald wordt (bv. een muntstuk dat opgeworpen wordt) dan geeft de frequentie van de uitkomst een kanswaarde of probabiliteit : \(p(x_i\) == kop\() + p(x_i\) == munt\() = 1\)

Men kan een kans echter ook zien als de kwantificatie van onzekerheid.

In machine learning probeer je een leermodel op te stellen dat de data verklaart - je zoekt m.a.w. een parametersetting(w) die de likelihood of de data \(\mathbb{D}\) maximaal maakt. Dit wordt ook uitgedrukt in kansen en voorwaardelijke kansen: \[p(\mathbb{D} | w)\]

Verder is kansrekening ook nuttig om een verwachte gemiddelde waarde van een event op langere termijn te berekenen (voorspellingen) uitgedrukt als \(E[X]\):

\[E(X) = \sum^n_{i=1} x_i * p(x_i)\]

6. Referenties

Bruce P. & Bruce A., Practical Statistics for Data Scientist, O’ Reilly
Frost J., Making statistics intuitive, Blog online
Scribbr, Statistiek voor Beginners, Blog online