Instructor Notes

This is a placeholder file. Please add content here.

Reproducible Data Analysis


Instructor Note

We will not always get the same result, applying the same functions on the same data - some statistical techniques relies on randomness.

An example is k-means, that clusters data based on randomly selected initial centroids.



Reading data from fileCountryNamePhonenumber


Instructor Note

The most important point is that there is a very high probability that at least one package exists that is designed to read a specific weird data format.



Descriptive StatisticsCentral tendencyMeasures of variance


Instructor Note

Det kan være en udfordring hvis deltagene ikke ved hvad et gennemsnit er.

En af de overordnede pointer vi gerne vil frem til her, er percentilerne og det kumulative densitetsplot - der danner grundlag for forståelsen af normalfordelingens sammenhæng med statistiske tests.



Instructor Note

This illustrates for the learners that we can calculate more than one summary statistics in one summarise function.



Instructor Note

Hvorfor ikke bare bruge reframe generelt? Kognitivt load. Summarise angiver hvad det er vi gør. Vi summariser noget data. Reframe angiver hvordan vi omdanner et output til en dataframe. Resultatet bliver det samme, men vi taler ikke længere om hvad det egentlig er vi er ude efter i operationen.



Instructor Note

Why not just averaging the absolute values? Using the square rather than the absolute difference, weighs the deviations so larger deviations have relatively larger influence on the variance. Squaring results in a continous and differentiable function, which helps in situations where we have to do an optimisation. Also the normal distribution is defined by the variance as defined here, and we would really like to get a connection between what we observe here, and the normal distribution.



Instructor Note

Et godt spørgsmål vil være - hvorfor dividerer vi med N-1 i stedet for N?

Det kaldes for en “Bessel korrektion”. Den ene årsag til at vi gør det er, at godt nok er gennemsnittet i stikprøven et godt estimat for gennemsnittet i populationen. Men det er ikke præcis det samme. Når vi dividerer med et mindre tal, får vi en større værdi for variancen - og dermed et mere konservativt, eller forsigtigt, estimat på variansen.

Den anden årsag handler om frihedsgrader. Hvis vi har tre værdier og et gennemsnit, kan vi vælge hvad de to af værdierne er, og hvad gennemsnittet er. Helt frit. Men den tredie værdi er givet. Den kan vi ikke vælge frit.



Instructor Note

probs because if we select a random penguin, we have a 25% chance of selecting a penguin that weighs less than 3550 gram. This ties in to percentiles and qq-plots.



Table One


Instructor Note

Primarily of use if there are medical students on the course



Tidy Data


The normal distribution


Instructor Note

Inline instructor notes can help inform instructors of timing challenges associated with the lessons. They appear in the “Instructor View”



Testing for normality


Instructor Note

These tests can be difficult for learners that have not encountered hypothesis-testing before.



How is the data distributed?


Instructor Note

Det er nødvendigt at specificere at vi bruger dplyr::select da den maskeres af MASS-pakken



Instructor Note

Og her er det vi holder dem fast på at det faktisk er dem selv der er de bedst kvalificerede til at afgøre det. For det er dem der forstår domænet og data.



Linear regression


Instructor Note

Bremselængden er faktisk ikke en lineær funktion af hastigheden. Bilen har kinetisk (bevægelses) energi så længe den bevæger sig. Den skal vi have ned på 0. Og eftersom den kinetiske energi er givet ved \(E_{kin} = \frac{1}{2}mv^2\) hvor m er bilens masse og v er hastigheden, vil dist afhænge af speed i anden.



Multiple Linear Regression


Logistisk regressionfit modellenkoefficienter og p-værdierpredict


Central Limit Theorem


Nicer barcharts


Instructor Note

Men det er egentlig ikke vigtigt her - fokus er på hvordan man får et barchart til at se pænere ud.



Instructor Note

Ja, det er let nok ellers, men nu er det ekstremt let.



powerberegninger


k-means


Factor Analysis


structure-you-work


fence-test


dette er en instructor fence



design-principles