DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom) Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya DataFrame dapat dibuat lebih dari satu Series atau dapat kita katakan bahwa DataFrame adalah kumpulan Series Contents
Membuat Pandas DataFrame
Ada beberapa cara untuk membuat DataFrame antara lain melalui List, Dict, Series, File atau DataFrame lain
~ Untuk implementasi DataFrame anda dapat gunakan Jupyter Notebook
#1 DatarFrame dari ListPertama import terlebih dahulu library Pandas
import pandas as pdSelanjutnya buat variabel data yang menyimpan beberapa List dan gunakan fungsi DataFrame() untuk membuat DataFrame baru
data = {'satu': [1,1,1,1,1], 'dua' : [2,2,2,2,2], 'tiga': [3,3,3,3,3]} df = pd.DataFrame(data) df.head()
Hasilnya adalah seperti ini
Kita juga bisa memberikan index label seperti pada Series
data = {'satu': [1,1,1,1,1], 'dua' : [2,2,2,2,2], 'tiga': [3,3,3,3,3]} df = pd.DataFrame(data, index=['a','b','c','d','e']) df.head()
Hasilnya adalah index default berupa angka menjadi bentu alfabet yang telah kita set
Kita juga bisa membuat DataFrame dari kumpulan Dictionary yang dibungkan di dalam List
data = [{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-0 {'satu': 1, 'dua': 2,'tiga': 3}, # index ke-1 {'satu': 1, 'dua': 2,'tiga': 3}] # index ke-3 df = pd.DataFrame(data) df.head()
Hasilnya adalah
Kita dapat juga membuat DataFrame dari Series
data = {'satu': pd.Series([1,1,1,1,1]), 'dua' : pd.Series([2,2,2,2,2]), 'tiga': pd.Series([3,3,3,3,3])} df = pd.DataFrame(data) df.head()
Hasilnya adalah
Sebenarnya lebih cocok disebut dengan membaca file dengan DataFrame
Kita bisa gunakan fungsi read_csv() seperti yang sudah kita coba di materi Series
Misalnya kita akan membaca file CSV maka caranya seperti ini
df = pd.read_csv('titanic.csv') df.head()
dan hasilnya seperti ini
Pandas tidak hanya bisa membaca file format CSV tetapi format-format lainnya seperti JSON, XLSX, TXT, XML dan sebagainya yang akan kita cover di artikel selanjutnya
#5 DataFrame dari DataFrame lainTerkadang kita ingin menduplikasi dataframe maka caranya adalah sebagai berikut
df = pd.read_csv('titanic.csv') #duplicate dataframe df_baru = df #show data df_baru.head()
Akses DataFrame
Kita akan menggunakan dataset titatic. Silahkan download dulu datasetnya di artikel sebelumnya
# Akses KolomUntuk mengakses data berdasarkan kolom gunakan [‘nama kolom’]
Misal memanggil 1 kolom dari data titanic
df = pd.read_csv('titanic.csv') df['Name']
Hasilnya adalah
Jika ingin memanggil lebih dari satu kolom maka menggunakan double “[ [ ] ]”
Untuk mengakses baris kita bisa gunakan fungsi loc dan iloc yang telah dibahas pada materi Pandas Series
Semisal kita ingin akses indeks ke-10
Jika ingin menampilkan data indeks ke-0 sampai ke 10 gunakan simbol ” : ” untuk mengambil range data atau dari indeks ke-10 sampai terakhir
Jika ingin mengambil data baris per kolom tertentu gunakan gabungan cara akses kolom dan baris
Misalnya ingin menampilkan kolom Name, Sex, Age, Survived dan Embarked
df[['Name', 'Sex', 'Age', 'Survived','Embarked']][10:15]
Untuk selanjutnya kita akan melakukan operasi-operasi di Pandas DataFrame.. Stay Tuned Gaes 😀