Slušaj robot čitača
Rad sa podacima u data frame-u
voće.head(), voće(-1)
voće.tail(), voće.tail(3)
Već smo videli kako možemo konvertovati kolonu u seriju, i to će se desiti onim redosledom kojim su podaci prisutni u dataframe-u. Moguće je proslediti index pri kreiranju serije, i tako promeniti redosled podataka:
voćke
3 Kivi
5 Lubenica
7 Kajsija
9 NaN
1 Maline
2 Banane
3 Kivi
4 Pomoradža
6 Šljiva
8 Borovnica
Name: Voće, dtype: object
Kao što vidite, voćke su sada sortirane prema redosledu koji smo zadali pomoću atributa index. Pošto smo zadali jedan index više nego što je potrebno, to je indexu 9, dodeljena vrednost "NaN"
Pristup određenom podatku -loc
Pomoću komande .loc, od lokacija, možemo pristupiti bilo kom podatku, preko njegovog indexa. Za početak:
Boja Zelena
Bobica 1
Name: 3, dtype: object
Odnosno, za samo ime voća:
ili, možemo probati i sa voćke iz prethodnog primera:
Dodatno, možemo koristiti i .iloc. iloc vraća vrednost na datoj poziciji, umesto na datom indexu, tako da bi .iloc primenjen na dataframe voće dao isti rezultat kao i .loc, ali bi primenjen na seriju voćke, davao dosta drugačije rezultate:
Gde kao što smo rekli, NaN ima index 9, ali ima i poziciju 4 nakon našeg preuređenja.
.loc i .iloc možemo koristiti i za slice-ing, odnosno, možemo odseći deo podataka da bismo radili samo s njima:
0 Jabuke Zelena 0
1 Maline Crvena 0
2 Banane Žuta 1
3 Kivi Zelena 1
Filtriranje podataka
Ako recimo hoćemo da vidimo samo ono voće koje spada u bobice, pisaćemo:
2 Banane Žuta 1
3 Kivi Zelena 1
4 Pomoradža Narandžasta 1
5 Lubenica Crvena 1
8 Borovnica Plava 1
A možemo vratiti i samo nazive voća koji su bobice:
3 Kivi
4 Pomoradža
5 Lubenica
8 Borovnica
Name: Voće, dtype: object
Ovakvo filtriranje nazivamo "bulijansko indexiranje"
Poređenje dve kolone
Voće
Banane 0 1
Borovnica 0 1
Jabuke 1 0
Kajsija 1 0
Kivi 0 1
Lubenica 0 1
Maline 1 0
Pomoradža 0 1
Šljiva 1 0
više kolona u kontekstu jedne kolone
Voće
Banane 1
Borovnica 1
Jabuke 0
Kajsija 0
Kivi 1
Lubenica 1
Maline 0
Pomoradža 1
Šljiva 0
To se ne vidi iz našeg primera, jer imamo samo kolonu Bobica na koju se groupby može primeniti, ali da smo imali veći broj numeričkih kolona, ova komanda bi se primenila i na njih, dok se crosstab primenjuje samo na jednu kolonu.
Crtanje grafika
O grafičkom prikazi podataka će kasnije biti više reči. Grafik je zapravo iscrtan pomoću matplotlib modula, ali ga pandas koristi kao dependancy
Ukoliko vam crtanje grafika ne radi ovako samo od sebe, dodajte sledeći kôd pre izvršenja plot komande:
import matplotlib.pyplot as plt
Crtanje histograma
Konvertovanje cena u intiger
Cena se u dataframe-u obično čuva kao objekat, jer je obično formatirana tako da sadrži simbol valute, i potencijalno zareze na svake 3 cifre. Da bismo sa takvim podacima mogli da radimo, potrebno nam je da ih prvo konvertujemo u intidžere
Članak prvi put objavljen: 27.4.2021.
Poslednje izmene: 31.1.2022.
Autor: k.