Instructor Notes

This is a placeholder file. Please add content here.

Det indhold der med fordel kan placeres her, er noter om hvorfor kurset eksisterer, hvad dets formål er og den slags.

Reproducible Data Analysis


Instructor Note

We will not always get the same result, applying the same functions on the same data - some statistical techniques relies on randomness.

An example is k-means, that clusters data based on randomly selected initial centroids.



Reading data from fileCountryNamePhonenumber


Instructor Note

The most important point is that there is a very high probability that at least one package exists that is designed to read a specific weird data format.



Descriptive Statistics


Instructor Note

Det kan være en udfordring hvis deltagene ikke ved hvad et gennemsnit er.

En af de overordnede pointer vi gerne vil frem til her, er percentilerne og det kumulative densitetsplot - der danner grundlag for forståelsen af normalfordelingens sammenhæng med statistiske tests.



Instructor Note

This illustrates for the learners that we can calculate more than one summary statistics in one summarise function.



Instructor Note

Hvorfor ikke bare bruge reframe generelt? Kognitivt load. Summarise angiver hvad det er vi gør. Vi summariser noget data. Reframe angiver hvordan vi omdanner et output til en dataframe. Resultatet bliver det samme, men vi taler ikke længere om hvad det egentlig er vi er ude efter i operationen.



Instructor Note

Why not just averaging the absolute values? Using the square rather than the absolute difference, weighs the deviations so larger deviations have relatively larger influence on the variance. Squaring results in a continous and differentiable function, which helps in situations where we have to do an optimisation. Also the normal distribution is defined by the variance as defined here, and we would really like to get a connection between what we observe here, and the normal distribution.



Instructor Note

Et godt spørgsmål vil være - hvorfor dividerer vi med N-1 i stedet for N?

Det kaldes for en “Bessel korrektion”. Den ene årsag til at vi gør det er, at godt nok er gennemsnittet i stikprøven et godt estimat for gennemsnittet i populationen. Men det er ikke præcis det samme. Når vi dividerer med et mindre tal, får vi en større værdi for variancen - og dermed et mere konservativt, eller forsigtigt, estimat på variansen.

Den anden årsag handler om frihedsgrader. Hvis vi har tre værdier og et gennemsnit, kan vi vælge hvad de to af værdierne er, og hvad gennemsnittet er. Helt frit. Men den tredie værdi er givet. Den kan vi ikke vælge frit.



Instructor Note

probs because if we select a random penguin, we have a 25% chance of selecting a penguin that weighs less than 3550 gram. This ties in to percentiles and qq-plots.



Instructor Note

den skal vi nok have beskrevet lidt mere.

Men pointen er, at vi for enhver værdi kan aflæse ting. Hvor stor en andel af pingvinerne vejer mindre end 3000 g? Vi kan finde 3000 på x-aksen, og aflæse den matchende værdi på y-aksen.

Det svarer også til - hvis vi tager en tilfældig pingvin, hvad er så sandsynligheden for at den vejer mindre end 3000 gram? Eller for at den vejer mere end 5000 gram?



Instructor Note

Nej, det er ikke på nogen måde intuitivt. Vi må nok finde ud af hvorfor konventionen er som den er.



Histograms


Table One


Instructor Note

Primarily of use if there are medical students on the course



Tidy Data


The normal distribution


Instructor Note

Inline instructor notes can help inform instructors of timing challenges associated with the lessons. They appear in the “Instructor View”



Testing for normality


Instructor Note

These tests can be difficult for learners that have not encountered hypothesis-testing before.



How is the data distributed?


Instructor Note

Det er nødvendigt at specificere at vi bruger dplyr::select da den maskeres af MASS-pakken



Instructor Note

Og her er det vi holder dem fast på at det faktisk er dem selv der er de bedst kvalificerede til at afgøre det. For det er dem der forstår domænet og data.



Instructor Note

“Real numbers”, på dansk reelle tal. Hvis du ved hvad imaginære tal er, ved du også hvad reelle tal er. Hvis ikke - så er reelle tal alle de tal du vil tænke på som tal.



Linear regression


Instructor Note

Bremselængden er faktisk ikke en lineær funktion af hastigheden. Bilen har kinetisk (bevægelses) energi så længe den bevæger sig. Den skal vi have ned på 0. Og eftersom den kinetiske energi er givet ved \(E_{kin} = \frac{1}{2}mv^2\) hvor m er bilens masse og v er hastigheden, vil dist afhænge af speed i anden.



Multiple Linear Regression


Logistic regression


Central Limit Theorem


Nicer barcharts


Instructor Note

Men det er egentlig ikke vigtigt her - fokus er på hvordan man får et barchart til at se pænere ud.



Instructor Note

Ja, det er let nok ellers, men nu er det ekstremt let.



Power Calculations


k-means


ANOVA


Cohens Kappa


R on Ucloud


Instructor Note

Det svære her er at få korrekte versioner. Og at få openssl installeret med den samme version som der kører på systemet.

Det betyder også, at hvis systemets python-version ændres - kan vi få fejlbeskeder om at ssl ikke kan findes.



A deeper dive into pipes


Setup for GIS


Setup for Git


Instructor Note

Bruges disse sider til et separat git(hub) kursus, kan setup instrukserne med fordel samles i en side.



Practice makes perfect


Statistical tests


Instructor Note

Den her side er virkelig ikke egnet til undervisningsbrug. Det er oversigten med eksempler og ret korte forklaringer. Hele siden kan nok med fordel deles ret meget op.

Der skal læses korrektur på ALT. Så brug intet i en undervisningssituation før markeringen af manglende korrektur er fjernet.

Samtlige eksempler bør omlægges til noget der bruger datasæt enten fra denne side selv, eller fra https://vincentarelbundock.github.io/Rdatasets/

skal indsættes:



When install.packages fail


Fences på vores undervisningssider


dette er en instructor fence



Make a new course