Instructor Notes
This is a placeholder file. Please add content here.
Reproducible Data Analysis
Instructor Note
We will not always get the same result, applying the same functions on the same data - some statistical techniques relies on randomness.
An example is k-means, that clusters data based on randomly selected initial centroids.
Reading data from fileCountryNamePhonenumber
Instructor Note
The most important point is that there is a very high probability that at least one package exists that is designed to read a specific weird data format.
Descriptive StatisticsCentral tendencyMeasures of variance
Instructor Note
Det kan være en udfordring hvis deltagene ikke ved hvad et gennemsnit er.
En af de overordnede pointer vi gerne vil frem til her, er percentilerne og det kumulative densitetsplot - der danner grundlag for forståelsen af normalfordelingens sammenhæng med statistiske tests.
Instructor Note
This illustrates for the learners that we can calculate more than one summary statistics in one summarise function.
Instructor Note
Hvorfor ikke bare bruge reframe generelt? Kognitivt load. Summarise angiver hvad det er vi gør. Vi summariser noget data. Reframe angiver hvordan vi omdanner et output til en dataframe. Resultatet bliver det samme, men vi taler ikke længere om hvad det egentlig er vi er ude efter i operationen.
Instructor Note
Why not just averaging the absolute values? Using the square rather than the absolute difference, weighs the deviations so larger deviations have relatively larger influence on the variance. Squaring results in a continous and differentiable function, which helps in situations where we have to do an optimisation. Also the normal distribution is defined by the variance as defined here, and we would really like to get a connection between what we observe here, and the normal distribution.
Instructor Note
Et godt spørgsmål vil være - hvorfor dividerer vi med N-1 i stedet for N?
Det kaldes for en “Bessel korrektion”. Den ene årsag til at vi gør det er, at godt nok er gennemsnittet i stikprøven et godt estimat for gennemsnittet i populationen. Men det er ikke præcis det samme. Når vi dividerer med et mindre tal, får vi en større værdi for variancen - og dermed et mere konservativt, eller forsigtigt, estimat på variansen.
Den anden årsag handler om frihedsgrader. Hvis vi har tre værdier og et gennemsnit, kan vi vælge hvad de to af værdierne er, og hvad gennemsnittet er. Helt frit. Men den tredie værdi er givet. Den kan vi ikke vælge frit.
Instructor Note
probs because if we select a random penguin, we have a 25% chance of selecting a penguin that weighs less than 3550 gram. This ties in to percentiles and qq-plots.
Table One
Instructor Note
Primarily of use if there are medical students on the course
Tidy Data
The normal distribution
Instructor Note
Inline instructor notes can help inform instructors of timing challenges associated with the lessons. They appear in the “Instructor View”
Testing for normality
Instructor Note
These tests can be difficult for learners that have not encountered hypothesis-testing before.
How is the data distributed?
Instructor Note
Det er nødvendigt at specificere at vi bruger
dplyr::select
da den maskeres af MASS-pakken
Instructor Note
Og her er det vi holder dem fast på at det faktisk er dem selv der er de bedst kvalificerede til at afgøre det. For det er dem der forstår domænet og data.
Linear regression
Instructor Note
Bremselængden er faktisk ikke en lineær funktion af hastigheden. Bilen har kinetisk (bevægelses) energi så længe den bevæger sig. Den skal vi have ned på 0. Og eftersom den kinetiske energi er givet ved \(E_{kin} = \frac{1}{2}mv^2\) hvor m er bilens masse og v er hastigheden, vil dist afhænge af speed i anden.
Multiple Linear Regression
Logistisk regressionfit modellenkoefficienter og p-værdierpredict
Central Limit Theorem
Nicer barcharts
Instructor Note
Men det er egentlig ikke vigtigt her - fokus er på hvordan man får et barchart til at se pænere ud.
Instructor Note
Ja, det er let nok ellers, men nu er det ekstremt let.