Cara menggunakan SCIPY.STATS pada Python

SciPy adalah suatu modul untuk melakukan beberapa perhitungan scientific dengan aplikasi python. Sedikit contohnya adalah integral numerik, menyelesaikan persamaan differensial secara numerik, optimisasi, interpolasi, pemrosesan sinyal, dll. Python sendiri merupakan salah satu bahasa pemrograman, sebenarnya python bukan bahasa pemrograman yang dikhususkan untuk melakukan komputasi, tapi dengan adanya beberapa modul- modul yang disediakan secara gratis, python dapat digunakan untuk keperluan komputasi. Untuk menggunakan SciPy, biasanya kita membutuhkan NumPy. NumPy adalah modul yang menyediakan objek- objek matematika yang memudahkan dalam melakukan perhitungan. Objek utama yang disediakan NumPy adalah array yang dapat berperan sebagai matrix. Array pada python adalah sekumpulan variabel yang memiliki tipe data yang sama dan dinyatakan dengan nama yang sama. Array merupakan konsep yang penting dalam pemrogaman karena array memungkinkan untuk menyimpan data maupun referensi objek dalam jumlah banyak dan terindeks. Array dikenal juga dengan list yang untuk menggunakannya cukup menggunakan tanda kurung siku [ ] pada variabel yang diinginkan.

Untuk melakan perhitungan dengan menggunakan modul scipy, hal pertama yang dilakukan yaitu dengan melakukan import modul kedalam perhitungan yang dikerjakan seperti berikut:

Syntax mencari data secara random

Karena tidak ada data yang disiapkan, maka dapat dengan membangkitkan data normal random sebanyak yang dikehendaki dengan menggunakan syntax “contoh = np.random.randn(10) dan panggil data sesuai dengan variabel data yang dibuat. Data yang dihasilkan dari hasil random yaitu seperti berikut:

Data hasil random

Apabila terdapat data yang kosong atau biasa disimbolkan dengan NAN maka cara menanganinya dengan menggunakan stats.describe dan panggil data dengan menggunakan tanda kurung. Stats.describe digunakan untuk menentukan cara menangani ketika input berisi NAN. Dari syntax tersebut akan didapatkan nilai minimal, maksimal, rata- rata, variansi, skewness serta kurtosisnya.

Untuk melakukan Ttest pada data yang ada dapat dengan menggunakan syntax seperti berikut:

TTest

Ttest sendiri digunakan untuk melakukan uji terhadap rata- rata variabel yang ada apakah sesuai dengan nilai yang telah ditentukan atau tidak. Apabila akan melakukan Ttest terhadap dua variabel maka dapat menambahkan “equal_var=False” pada tanda kurung bersamaan dengan variabel yang akan diuji tanpa menambahkan nilai rata- rata yang telah ditentukan. Pada hasil dari Ttest akan diketahui nilai statistik serta nilai p-value dari data yang diinput.

Sementara untuk melakukan uji Anova dapat dengan menggunakan syntax “stats.f_oneway(…., …(nama data).., …..)”, hasil yang didapatkan dari uji Anova sama dengan hasil Ttest (nilai statistik dan p-value) namun terdapat perbedaan antara keduanya yaitu ada pada variabel yang diinput, pada uji Anova variabel yang diinput lebih dari dua variabel.

Untuk melakukan clastering dengan menggunakan KMeans harus melakukan import packages seperti berikut:

Import KMeans

Pada kesempatan kali ini data yang akan digunakan yaitu data banjir di wilayah Indonesia berdasarkan provinsinya. Setelah data berhasil diinput maka dilakukan pengecekan terhadap data apakah terdapat data yang kosong atau tidak dengan menggunakan fungsi “banjir.info()”. Selanjutnya yaitu mengubah variabel dari data frame menjadi data array kemudian diskalakan, bukan dinormalisasi. Computing KMeans dengan menggunakan k= 3 atau 3 cluster dapat dengan menggunakan syntax seperti berikut:

Computing KMeans dengan k=3

Semetara untuk menghitung clusternya yaitu dapat dengan menggunakan syntax seperti berikut:

Syntax menghitung cluster

Setelah data berhasil dicluster selanjutnya yaitu data provinsi diinput sehingga dibuat data framenya dengan menggunakan syntax seperti berikut:

Penggabungan Cluster data dengan variabel provinsi

Selanjutnya cluster dibuat data frame diurutkan sesuai banyaknya korban, dan yang terakhir dapat melihat karakteristik dari data frame yang berhasil dibuat dengan menggunakan “(nama variabel).groupby(“cluster”)” dan dapat juga melihat nilai rata- rata dari data yang telah dilakukan cluster dengan memanggil nama data.mean(). Maka hasil akhir yang didapatkan yaitu seperti berikut:

Hasil Cluster data banjir

Dari hasil tersebut dapat disimpulkan bahwa cluster 0 merupakan provinsi dengan jumlah korban yang paling banyak, 1 untuk jumlah korban sedang serta 2 untuk jumlah korban rendah.

Referensi :

Kato, Muhammad Adhar. 2018. Pembahasan Array pada Python. Diakses pada tanggal 06 Januari 2019 (20.30 WIB). http://adharmuhammad.blogspot.com/2014/11/pembahasan-array-di-python.html.

Scipy.stat.descibe. Diakses pada tanggal 06 Januari 2019 (21.00 WIB). https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.describe.html.

Copycat’s Blog. Diakses pada tanggal 05 Januari 2019 (20.30 WIB). https://copycat91.wordpress.com/2010/06/19/python-scipy-numpy-matplotlib-nice/.