R

R (inbyggt):

Kommandon/funktioner:

  • View() visar ett dataset som ett kalkylark/matrix
  • subset(x, …) subset vectors, matrix, data frames med ett villkor. som t.ex datasetet airquality och columnen Ozone har NA-värden. för att rensa bort alla NA-värden kan man köra en subset:
    subset(airquality[”Ozone”], !is.na(airquality[”Ozone”]))

    där villkoret är !is.na(…)
  • seq( from = , to =, by = , length.out = ) skapar en sekvens enligt parameterar som kan kombineras.
    # skapa en sekvens av datum från 2024-09-24 med length.out
    seq(as.Date("2024-09-24"), by = "month", length.out = 4)

    [1] "2024-09-24" "2024-10-24" "2024-11-24" "2024-12-24"

    seq( ) kan användas för att skapa en sekvens till en for-loop som t.ex när man skickar in en vektor eller en range:

    my_func <- function(range) {
    # range är en vektor eller t.ex 1:10 eller 32:7
    first <- range[1]
    last <- range[length(range)]

    for (num in seq(from = first, to = last)){
    print(paste("Prosessing num",num))
    }
    }>

    my_func(1:10)
    [1] "Prosessing num 1"
    [1] "Prosessing num 2"
    [1] "Prosessing num 3"
    [1] "Prosessing num 4"
  • debug( FUN ) markera/flagga en funktion ( FUN ) att den ska debuggas stegvis, när funktionen anropas så kommer RStudio/R Interpreter att avbryta och gå in i stegningsläge
  • browser() när denna träffas på kommer RStudio/R Interpreter att avbryta och gå in i stegningsläge

Anteckningar om data.frame (kan användas för data-typen list också):

    movies <- data.frame(name=c("Toy Story", "Akira","The Breakfast Club"), year=c(1995,1998,1985))

  - värden kan hämtas med index för ett specifikt värde som t.ex movies[1,2] för att hämta
    värdet i rad 1, kolumn 2

    movies:

       name                 year
    1  Toy Story            1995
    2  Akira                1998
    3  The Breakfast Club   1985

    movies[1,2]
    1995

  - en kolumn kan hämtas med index eller dess namn:

    movies[1]

    movies$name

    movies["name"]

  - man kan t.ex hämta värden med en range, om man vill hämta rad 1 och 2 ifrån kolumn 1:

    movies[1:2,1]

  - lägg till en kolumn kan göras med cbind eller direkt med en vektor:

    movies["length"] <- c(81, 125, 97)

    movies <- cbind(movies, length=c(81,125,97))

  - ta bort en kolumn kan göras med att assigna den till NULL:

    movies["year"] <- NULL

OBS: för data-typen list och när man direkt ska modifera måste man använda dubbla hakparenteser:

movies[[”age”]] <- c(…

ALTERNATIVT med <- och då behövs inte dubbla hakparenteser, dvs: movies[”age”] <- c(…


Summering data-typer:

A vector is a string of numbers, characters, or logical data.  

Factors (also known as categorical variables) are variables that take on a limited
number of different values that can be nominal or ordinal. 

You can use R to perform operations on a vector, such as sorting the items, finding
the smallest or largest number, or performing arithmetic on its values. 

Lists can store different types of data, unlike vectors, which can only store data of a single type. 

An array is a single or multidimensional structure containing data of the same type
(strings, characters, or integers)  

A matrix is like an array but must be two-dimensional and can be arranged by columns or rows. 

The main difference between a data frame and other data structures, like a list, is that each
variable has a vector of elements of the same type.

Comparison and logical operators

OperatorMeaning
==Is equal to
!=Is NOT equal to
>Greater than
<Less than
>=Greater than or equal to
<=Less than or equal to
&And
|Or
!Not
%in%Is found in

Tidyverse:

Kommandon/funktioner:

  • data() visar exempel på dataset som finns. om man laddar in tidyverse med library(tidyverse) så kommer denna lista att utökas
  • glimpse() förhandsvisning av dataset’et med kolumner

Datatypen tibble:

  • tidyverse skapade en förbättrad data.frame som heter.. tibble ( data.frame och tibble är tabular data / ”excel-ark” )
  • subsetting: ”[” always returns a NEW tibble
    ”[[” and ”$” always return a VECTOR

    airline[1, ”ArrDelay”]: returns a NEW tibble for the first row and
    the column ”ArrDelay”

    airline[[1, ”ArrDelay”]]: returns a VECTOR with the value of the
    first row and the column ”ArrDelay”

Undersidor: