DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom) Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya DataFrame dapat dibuat lebih dari satu Series atau dapat kita katakan bahwa DataFrame adalah kumpulan Series Contents Membuat Pandas DataFrameAda beberapa cara untuk membuat DataFrame antara lain melalui List, Dict, Series, File atau DataFrame lain ~ Untuk implementasi DataFrame anda dapat gunakan Jupyter Notebook #1 DatarFrame dari ListPertama import terlebih dahulu library Pandas import pandas as pd Selanjutnya buat variabel data yang menyimpan beberapa List dan gunakan fungsi DataFrame() untuk membuat DataFrame baru data = {'satu': [1,1,1,1,1], 'dua' : [2,2,2,2,2], 'tiga': [3,3,3,3,3]} df = pd.DataFrame(data) df.head() Hasilnya adalah seperti ini Kita juga bisa memberikan index label seperti pada Series data = {'satu': [1,1,1,1,1], 'dua' : [2,2,2,2,2], 'tiga': [3,3,3,3,3]} df = pd.DataFrame(data, index=['a','b','c','d','e']) df.head() Hasilnya adalah index default berupa angka menjadi bentu alfabet yang telah kita set #2 DataFrame dari DictionaryKita juga bisa membuat DataFrame dari kumpulan Dictionary yang dibungkan di dalam List data = [{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-0 {'satu': 1, 'dua': 2,'tiga': 3}, # index ke-1 {'satu': 1, 'dua': 2,'tiga': 3}] # index ke-3 df = pd.DataFrame(data) df.head() Hasilnya adalah #3 DataFrame dari SeriesKita dapat juga membuat DataFrame dari Series data = {'satu': pd.Series([1,1,1,1,1]), 'dua' : pd.Series([2,2,2,2,2]), 'tiga': pd.Series([3,3,3,3,3])} df = pd.DataFrame(data) df.head() Hasilnya adalah #4 DataFrame dari FileSebenarnya lebih cocok disebut dengan membaca file dengan DataFrame Kita bisa gunakan fungsi read_csv() seperti yang sudah kita coba di materi Series Misalnya kita akan membaca file CSV maka caranya seperti ini df = pd.read_csv('titanic.csv') df.head() dan hasilnya seperti ini Pandas tidak hanya bisa membaca file format CSV tetapi format-format lainnya seperti JSON, XLSX, TXT, XML dan sebagainya yang akan kita cover di artikel selanjutnya #5 DataFrame dari DataFrame lainTerkadang kita ingin menduplikasi dataframe maka caranya adalah sebagai berikut df = pd.read_csv('titanic.csv') #duplicate dataframe df_baru = df #show data df_baru.head() Akses DataFrameKita akan menggunakan dataset titatic. Silahkan download dulu datasetnya di artikel sebelumnya # Akses KolomUntuk mengakses data berdasarkan kolom gunakan [‘nama kolom’] Misal memanggil 1 kolom dari data titanic df = pd.read_csv('titanic.csv') df['Name'] Hasilnya adalah Jika ingin memanggil lebih dari satu kolom maka menggunakan double “[ [ ] ]” # Akses BarisUntuk mengakses baris kita bisa gunakan fungsi loc dan iloc yang telah dibahas pada materi Pandas Series Semisal kita ingin akses indeks ke-10 Jika ingin menampilkan data indeks ke-0 sampai ke 10 gunakan simbol ” : ” untuk mengambil range data atau dari indeks ke-10 sampai terakhir Jika ingin mengambil data baris per kolom tertentu gunakan gabungan cara akses kolom dan baris Misalnya ingin menampilkan kolom Name, Sex, Age, Survived dan Embarked df[['Name', 'Sex', 'Age', 'Survived','Embarked']][10:15] Untuk selanjutnya kita akan melakukan operasi-operasi di Pandas DataFrame.. Stay Tuned Gaes 😀 Post navigation |