Panduan Praktis Penggunaan Pandas ini adalah seri tutorial bagian kedua mengenai Pandas. Pada tutorial Pandas bagian sebelumnya, telah dipelajari tentang cara membaca data, mendapatkan informasi struktur data, memfilter, dan mengurutkan data. Sebelum meneruskan tutorial ini, sangat disarankan untuk mengikuti terlebih dahulu Panduan Praktis Penggunaan Pandas Bagian 1 Pandas adalah sebuah paket library pada python yang digunakan untuk mempermudah dalam mengolah dan menganalisa data-data terstruktur. Pandas merupakan paket penting yang wajib diketahui untuk seorang data engineer, data analyst dan data scientist jika ingin mengolah dan manganalisa data menggunakan python. Yuk kita selesaikan materi ini supaya dapat segera beraksi menggunakan Pandas !
Summarising DataPandas menyediakan fungsi statistik agregasi, seperti count, sum, min, max dan lainnya. Fungsi-fungsi ini dapat diterapkan ke kolom. Misalnya fungsi count() seperti yang telah sedikit dibahas pada bagian pertama tulisan ini. Fungsi ini dapat digunakan untuk menghitung jumlah record untuk setiap kolom.
Perlu diingat, bahwa fungsi count() hanya menghitung untuk record yang tidak bernilai null. Pada contoh jumlah record untuk setiap kolom adalah sama yaitu 34 dan tidak ada yang memiliki nilai null Untuk menghitung jumlah record pada sebuah kolom dapat menggunakan perintah berikut
atau dapat juga ditulis seperti berikut
Fungsi lain seperti sum(), min(), max(), mean() dan lain-lain, hampir sama cara penggunaannya
Pada contoh diatas terlihat sesuatu yang agak berbeda, yaitu kolom province dan island. Ini terjadi karena kolom tersebut bukan bernilai numerik Penggunaan lain dari fungsi statistik dapat dilihat sebagai berikut:
GroupingPandas memiliki fungsi groupby() untuk melakukan perhitungan kelompok berdasarkan nilai unik sesuai kolom yang dipilih. Sebagai contoh, akan dilakukan perhitungan jumlah records kolom time_zone dikelompokkan berdasarkan nilai uniknya
Dari data diatas, terlihat bahwa time_zone memiliki 3 nilai unik yaitu 1, 2 dan 3 Jika ingin hanya menampilkan kolom tertentu, dapat dituliskan sepeti berikut:
Fungsi summary lain seperti sum, min, max, mean, first, last dapat digunakan pada fungsi groupby() untuk mendapatkan nilai statistik setiap kelompok. Misalkan kita ingin mendapatkan nilai yang pertama untuk setiap time_zone
Menghitung rata-rata rainfall untuk setiap time_zone
Fungsi groupby() dapat digabungkan dengan fungsi agg(). Sebagai contoh, mengihtung rata-rata rainfall untuk setiap time_zone
Untuk melakukan bebrapa perhitungan statistik yang dikelompokkan berdasarkan nilai unik sebuah kolom, dapat dilakukan sebagai berikut
Perhitungan aggregasi untuk kolom yang berbeda
Supaya kolom time_zone tidak ditampilkan sebagai index, maka parameter as_index diset False
Transformasi KolomSalah satu hal yang sering dilakukan juga adalah menambahkan kolom baru dari hasil terhitungan tertentu. Sebagai contoh kolom expenses_urban adalah hasil penjumlahan kolom expenses_food_urban dan expenses_other_urban
Untuk melakukan penghapusan kolom dapat dilakukan dengan perintah drop()
Merubah nama kolom, misalkan nama kolom dirubah ke dalam bahasa Indonesia
Join Dengan Data ReferensiPada banyak kasus, kita sering menambahkan kolom dengan data yang baru menggunakan data referensi. Penggunaan data referensi biasanya untuk mempermudah maintenance data, sehingga kita tidak perlu mengubah kode. Sebagai contoh, kita akan menambahkan nama zona, dari data referensi zona waktu.
Pada kasus nyata, tidak menggunakan data referensi yang dibuat menggunakan kode seperti diatas. Data referensi diperoleh dari database, baik dalam bentuk file ataupun koneksi langsung ke database. DataFrame diatas memiliki 2 kolom yaitu time_zone yang memiliki type int64 sesuai dengan kolom time_zone pada dataframe df. Kolom kedua adalah nama dari name_zone. Pada contoh ini akan mentransformasikan time_zone pada dataframe df dengan menambahkan kolom baru yaitu name_zone. Fungsi yang digunakan adalah merge dengan parameter how='left'. Artinya adalah kita akan melakukan left join antara df dan time_zone_df
Data VisualisasiUntuk memvisualisasikan DataFrame kedalam bentuk grafik, dapat menggunakan fungsi plot(), yang secara default menggunakan matplotlib Contoh dibawah menampilkan grafik garis untuk x adalah propinsi dan y adalah curah hujan
Fungsi plot() juga dapat digabungkan dengan fungsi-fungsi aggregasi atau summary
Data ditampilkan dalam bentuk grafik batang
PenutupMembaca data, memeriksa, memfilter, mentransformasi dan melakukan join dengan menggunakan Pandas pada python merupakan hal penting dan sering dilakukan oleh seorang data scientist, data analyts maupun data engineer. Mencoba dengan dataset yang lebih komplek merupakan latihan yang dapat membantu untuk membiasakan diri mengolah data menggunakan Pandas. Artikel ini juga diposting pada medium Untuk yang belum pernah menggunakan Python dapat membaca Berkenalan dengan Python Untuk pelajaran lebih lanjut bisa mengunjungi
Enjoy learning and have fun with data ! |