Slušaj robot čitača
Rad sa DataFrame-ovima
DataFrame ima veliki broj predefinisanih funkcija i atributa koje možemo koristiti. Da bismo ih pozvali, na dataframe ćemo dodati tačku, i onda ime atributa ili funkcije koja nam treba. Funkcije iza imena funkcije imaju i (), dok ih atributi nemaju, pa ih je po tome najlakše razlikovati.
Ako ne možete da se setite neke funkcije ili atributa, ili želite da se igrate s njima da ih istražite, možete ukucati ime dataframe-a, tačka, i tab dugme na tastaturi. Ovo će u padajućem meniju otvoriti sve dostupne funkcije i atribute.
Dodatno, ako želimo pristupiti podacima samo u određenoj koloni, to takođe možemo postići tačkom, imeDF.imeKolone. Ako smo koloni dali ime koje ima više od jedne reči, onda ovo neće upaliti, ali joj i dalje možemo pristupiti pomoću imeDF['Ime Kolone sa Praznim Mestima']. U ovom drugom slučaju ne koristimo tačku.
Pregled tipova podataka u dataframe-u .dtypes
Da bismo videli koje tipove podataka imamo u dataframe-u, koristićemo atribut .dtypes:
Boja object
Bobica int64
dtype: object
Ovde je voće s malim slovom v, varijabla u kojoj je sačuvan naš dataframe, dok je Voće s velikim slovom V, ime kolone koja sadrži nazive voća.
Izlistavanje kolona DataFrame-a, .columns
Da bismo izlistali sve kolone u dataframe-u, koristićemo:
kolone
Pregled indexa dataframe-a, .index
Ovaj ispis nam govori da broj indexa staje na 9, odnosno da je maksimalni index 8.
Statistike naših podataka, .describe()
Do sada smo gledali atribute, koje smo pozivali sa voće.imeAtributa. Sada ćemo pogledati i par funkcija:
count 9.000000
mean 0.555556
std 0.527046
min 0.000000
25% 0.000000
50% 1.000000
75% 1.000000
max 1.000000
Kao što vidite, ovaj pregled statistika se dešava samo za kolonu bobica, i to je otuda što je ova kolona, kao što smo videli s voće.dtype, int64, odnosno broj, dok su ostale kolone objekti, pa za njih ne može da da statistički pregled.
Šta nam ove vrednosti govore? count nam daje ukupan broj redova u tabeli. mean nam daje prosečnu (srednju) vrednost svih redova. std je standardna devijacija, koja nam govori koliko u proseku naše vrednosti odstupaju od srednje vrednost. Pošto je srednja vrednost oko 0,5, a naše vrednosti su ili 0 ili 1, to je i std oko 0,5. min i max daju minimalnu i maksimalnu vrednost kolone bobica, dakle 0 i 1.
Detalji o dataframe-u, .info()
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Voće 9 non-null object
1 Boja 9 non-null object
2 Bobica 9 non-null int64
dtypes: int64(1), object(2)
memory usage: 344.0+ bytes
Verovatno ste primetili da je .info() dosta sličan kao .dtypes i recimo .index. Ono što nam .info(), za razliku od ova dva slična atributa govori, jeste da u našoj tabeli nema praznih podataka, što će retko biti slučaj u praksi.
Konvertovanje kolona u Serije
voćke
1 Maline
2 Banane
3 Kivi
4 Pomoradža
5 Lubenica
6 Šljiva
7 Kajsija
8 Borovnica
Name: Voće, dtype: object
Sabiranje vrednosti u koloni dataframe-a, .sum()
Boja ZelenaCrvenaŽutaZelenaNarandža...
Bobica 5
dtype: object
Kao što vidite, numeričke vrednosti će se sabrati, dok će se stringovi, konkatinirati
Broj podataka u dataframe-u, len()
Da bismo odredili dužinu dataframe-a, odnosno kiliko podataka (redova) u njemu ima, koristićemo:
Članak prvi put objavljen: 27.4.2021.
Poslednje izmene: 31.1.2022.
Autor: k.