R (inbyggt):
Kommandon/funktioner:
- View() visar ett dataset som ett kalkylark/matrix
- subset(x, …) subset vectors, matrix, data frames med ett villkor. som t.ex datasetet airquality och columnen Ozone har NA-värden. för att rensa bort alla NA-värden kan man köra en subset:
subset(airquality[”Ozone”], !is.na(airquality[”Ozone”]))
där villkoret är !is.na(…) - seq( from = , to =, by = , length.out = ) skapar en sekvens enligt parameterar som kan kombineras.
# skapa en sekvens av datum från 2024-09-24 med length.out
seq(as.Date("2024-09-24"), by = "month", length.out = 4)
[1] "2024-09-24" "2024-10-24" "2024-11-24" "2024-12-24"
seq( ) kan användas för att skapa en sekvens till en for-loop som t.ex när man skickar in en vektor eller en range:# range är en vektor eller t.ex 1:10 eller 32:7
my_func <- function(range) {
first <- range[1]
last <- range[length(range)]
for (num in seq(from = first, to = last)){
print(paste("Prosessing num",num))
}
}>
my_func(1:10)
[1] "Prosessing num 1"
[1] "Prosessing num 2"
[1] "Prosessing num 3"
[1] "Prosessing num 4" - debug( FUN ) markera/flagga en funktion ( FUN ) att den ska debuggas stegvis, när funktionen anropas så kommer RStudio/R Interpreter att avbryta och gå in i stegningsläge
- browser() när denna träffas på kommer RStudio/R Interpreter att avbryta och gå in i stegningsläge
Anteckningar om data.frame (kan användas för data-typen list också):
movies <- data.frame(name=c("Toy Story", "Akira","The Breakfast Club"), year=c(1995,1998,1985))
- värden kan hämtas med index för ett specifikt värde som t.ex movies[1,2] för att hämta
värdet i rad 1, kolumn 2
movies:
name year
1 Toy Story 1995
2 Akira 1998
3 The Breakfast Club 1985
movies[1,2]
1995
- en kolumn kan hämtas med index eller dess namn:
movies[1]
movies$name
movies["name"]
- man kan t.ex hämta värden med en range, om man vill hämta rad 1 och 2 ifrån kolumn 1:
movies[1:2,1]
- lägg till en kolumn kan göras med cbind eller direkt med en vektor:
movies["length"] <- c(81, 125, 97)
movies <- cbind(movies, length=c(81,125,97))
- ta bort en kolumn kan göras med att assigna den till NULL:
movies["year"] <- NULLOBS: för data-typen list och när man direkt ska modifera måste man använda dubbla hakparenteser:
movies[[”age”]] <- c(…
ALTERNATIVT med <- och då behövs inte dubbla hakparenteser, dvs: movies[”age”] <- c(…
Summering data-typer:
A vector is a string of numbers, characters, or logical data.
Factors (also known as categorical variables) are variables that take on a limited
number of different values that can be nominal or ordinal.
You can use R to perform operations on a vector, such as sorting the items, finding
the smallest or largest number, or performing arithmetic on its values.
Lists can store different types of data, unlike vectors, which can only store data of a single type.
An array is a single or multidimensional structure containing data of the same type
(strings, characters, or integers)
A matrix is like an array but must be two-dimensional and can be arranged by columns or rows.
The main difference between a data frame and other data structures, like a list, is that each
variable has a vector of elements of the same type.Comparison and logical operators
| Operator | Meaning |
| == | Is equal to |
| != | Is NOT equal to |
| > | Greater than |
| < | Less than |
| >= | Greater than or equal to |
| <= | Less than or equal to |
| & | And |
| | | Or |
| ! | Not |
| %in% | Is found in |
Tidyverse:
Kommandon/funktioner:
- data() visar exempel på dataset som finns. om man laddar in tidyverse med library(tidyverse) så kommer denna lista att utökas
- glimpse() förhandsvisning av dataset’et med kolumner
Datatypen tibble:
- tidyverse skapade en förbättrad data.frame som heter.. tibble ( data.frame och tibble är tabular data / ”excel-ark” )
- subsetting: ”[” always returns a NEW tibble
”[[” and ”$” always return a VECTOR
airline[1, ”ArrDelay”]: returns a NEW tibble for the first row and
the column ”ArrDelay”
airline[[1, ”ArrDelay”]]: returns a VECTOR with the value of the
first row and the column ”ArrDelay”