Sulit untuk menyimpulkan apa yang Anda cari dari pertanyaan tersebut, tetapi dugaan terbaik saya adalah sebagai berikut. Show
Jika kita asumsikan Anda memiliki DataFrame di mana beberapa kolomnya adalah 'Kategori' dan berisi bilangan bulat (atau pengidentifikasi unik lainnya) untuk kategori, maka kita dapat melakukan hal berikut. Panggil DataFrame Sekarang akan ada kolom indikator baru untuk setiap kategori yang bernilai Benar/Salah, tergantung pada apakah data dalam baris tersebut berada dalam kategori tersebut. untuk menghasilkan kolom-kolom dengan nama-nama tertentu, bukan hanya konversi string dari nilai-nilai kategori. Bahkan, untuk beberapa tipe, Module ini merupakan lanjutan dari module “Statistic using Python for Data Science”. Module ini akan memberikan pembelajaran lebih lanjut tentang metode statistik yang digunakan dalam mengolah data dengan menggunakan bahasa pemrograman python.Photo by Barbare Kacharava on UnsplashData VisualisasiVisualisasi data adalah tahapan yang sangat penting dalan melakukan analisa data. Hal ini karena beberapa pola yang terdapat pada data tidak dapat semata-mata digambarkan hanya dengan angka semata. Dengan melakukan visualisasi pada data, hal ini dapat membuat data menjadi lebih menyenangkan untuk dilihat dan lebih mudah untuk dipahami. Diagram Pencar (Scatter Plot)Diagram pencar adalah salah satu visualisasi data sederhana yang dapat digunakan untuk menggambarkan hubungan antara variabel numerik dengan variabel numerik lainnya. Selain itu diagram pencar dapat digunakan untuk melihat pola-pola pengelompokkan pada data, biasanya digunakan pada analisa segmentasi. https://www.learnbyexample.org/Sumber Gambar: https://nikkimarinsek.comUntuk menggambar scatter plot kita dapat menggunakan method import numpy as np Catatan: Perhatikan bahwa walaupun keduanya mengeluarkan gambar yang sama, namun dapat dilihat bahwa hasil dari import matplotlib.pyplot as plt HistogramHistogram adalah salah satu visualisasi yang digunakan untuk melihat bentuk dari distribusi data. Visualisasi ini sangat penting karena dapat menggambarkan apakah suatu data memiliki distribusi tertentu dan apakah data perlu dirubah dahulu untuk memenuhi suatu asumsi, terutama saat melakukan pemodelan liner yang akan dibahas nanti. Terdapat beberapa pola dari histogram yang biasanya sering muncul ketika menganalisa data yang dapat dilihat pada gambar berikut : https://www.dummies.com/Suatu distribusi disebut memiliki skewness positif jika ekor dari distribusi memanjang ke kiri. Kebalikannya, suatu distribusi disebut memiliki skewness negatif jika ekor dari distribusi memanjang ke kanan. Hal ini terjadi karena nilai mean, median dan modus tidak terletak di satu titik sebagaimana yang dapat diamati pada gambar berikut : https://www.statisticshowto.com/Untuk menggambar histogram kita dapat menggunakan method import matplotlib.pyplot as plt Box and Whisker PlotBox and whisker plot atau yang biasa disebut juga sebagai Box plot adalah salah satu visualisasi data yang dapat digunakan untuk melihat distribusi data, nilai maksimum dan minimum serta nilai kuantil dari data. Box plot dapat digunakan sebagai pengganti dari histogram untuk memahami distribusi dan variasi dari data walaupun bentuk distribusinya tidak terlalu terlihat jelas. Box plot terdiri box yang lebarnya adalah jarak interkuartil dan whisker yang merupakan rentang antara nilai nilai kuartil bawah/atas dengan nilai minimum dan maksimum. https://www.simplypsychology.org/ada bagian ini, kita akan membuat box plot. Ada 2 box plot yang akan dihasilkan. Menggunakan method import matplotlib.pyplot as plt Bar PlotDiagram batang atau bar plot adalah plot yang digunakan untuk menghitung frekuensi dari data. ntuk menggambar diagram batang kita dapat menggunakan method import matplotlib.pyplot as plt Pie ChartDiagram pie atau
pie chart adalah plot lainnya yang dapat digunakan untuk menampilkan frekuensi dalam bentuk proporsi, untuk menampilkan diagram pie kita dapat menggunakan import matplotlib.pyplot as plt Transformasi DataTransformasi data adalah penggunaan fungsi matematika tertentu pada setiap titik data untuk mengubahnya dari suatu nilai ke nilai yang lain. Secara matematis dapat ditulis sebagai berikut : Penjelasan : Transformasi biasanya digunakan untuk memenuhi asumsi-asumsi pada model statistika tertentu, misalnya model regresi linier. Transformasi Data dan Kaitannya dengan Distribusi Data
Perhatikan bahwa variabel Untuk menggunakan fungsi-fungsi berikut kita dapat menggunakan method from scipy import stats Transformasi Box-CoxSalah satu cara yang paling mudah untuk melakukan transformasi secara otomatis adalah dengan menggunakan transformasi Box-Cox, untuk melakukan transformasi Box-Cox, kita dapat menggunakan method from scipy import stats Transformasi Data Kategorik ke Dalam AngkaUntuk data yang bernilai kategorik agar bisa diolah oleh program harus berupa data berbentuk angka. Hal ini akan menjadi masalah tersendiri jika data yang diterima memiliki banyak sekali data yang bernilai karakter atau string. Untuk menanggulangi hal ini kita bisa menggunakan dummy encoding. Dummy encoding atau disebut juga sebagai one-hot encoding adalah suatu metode transformasi yang dapat mengubah data bertipe karakter menjadi angka bernilai 1 dan 0 yang menandakan ada atau ketiadaan nilai tersebut pada baris data. Untuk melakukan dummy encoding pada data kita cukup menggunakan method print(raw_data['Produk'])data_dummy_produk = pd.get_dummies(raw_data['Produk'])print(data_dummy_produk) Matriks KorelasiMatriks korelasi ada visualisasi data yang dapat menampilkan korelasi dari beberapa variabel numerik sekaligus. Untuk membuat korelasi matriks, kita dapat menggunakan method import seaborn as sns Grouped Box PlotMisalkan kita memiliki variabel yang digunakan untuk mengelompokkan nilai-nilai tertentu, misalnya variabel seperti gender, kelas, jenis pekerjaan dan variabel-variabel yang umumnya bertipe nominal. Maka kita dapat plot untuk masing-masing grup dengan bantuan grouped plot. import matplotlib.pyplot as plt Grouped HistogramKita dapat menggabungkan beberapa histogram dengan bantuan method import matplotlib.pyplot as plt Hex Bin PlotHex bin plot adalah variasi dari scatter plot yang biasanya digunakan ketika kita mengolah data yang memiliki banyak sekali titik data. Sangat bermanfaat jika kita ingin memvisualisasikan data berukuran sangat besar. Kali ini kita akan coba melihat perbandingan Pendapatan dan Total. import matplotlib.pyplot as plt Scatter Matrix PlotScatter matrix plot adalah plot yang digunakan untuk membuat sekumpulan scatter plot dari beberapa pasang variabel. Hal ini sangat bermanfaat terutama ketika ingin menganalisis bagaimana bentuk hubungan antar variabel. Plot ini sangat bermanfaat untuk digunakan untuk data yang ukurannya tidak terlalu besar. Untuk menggunakan scatter matrix kita harus memanggil fungsi Perhatikan bahwa diagonal dari scatter matriks adalah histogram dari masing-masing variabel sedangkan sisanya adalah scatter plot dari beberapa pasang variabel. from pandas.plotting import scatter_matrix Regresi Linier SederhanaRegresi linier sederhana atau disebut juga sebagai regresi linier bivariat adalah model statistika yang digunakan untuk melakukan estimasi nilai variabel dependen/variabel tak bebas dengan menggunakan satu variabel independen/variabel bebas. Dengan merumuskan bahwa satu variabel memiliki pengaruh terhadap variabel lain, kita dapat mengukur seberapa besar dan signifikan variabel bebas dalam menentukan nilai variabel tak bebas. Secara matematis, regresi linier sederhana dapat dirumuskan sebagai berikut : Penjelasan : Secara geometris dapat digambarkan sebagai berikut. Regresi Linier Sederhana Menggunakan StatsmodelKita dapat melakukan pemodelan regresi linier sederhana dengan menggunakan Rumus yang digunakan seperti berikut : Jika dicontohkan ke dalam bahasa pemrograman, ada beberapa tahapan yang perlu dilakukan.
Coefficient, Standard Error, t-Statistics & p-Value & ConstNilai Terakhir adalah p-value yang dapat digunakan untuk memastikan bahwa koefisien signifikan atau tidak untuk menjelaskan variasi pada model. Nilai koefisien dapat menggambarkan seberapa besar efek suatu variabel bebas dengan variabel tak bebas. Selain itu dapat menunjukkan arah dari hubungan tersebut. Jika koefisien bernilai positif maka variabel tak bebas akan naik jika nilai pada variabel bebas naik. Namun jika koefisien bernilai negatif maka variabel tak bebas akan turun jika nilai pada variabel bebas naik. Nilai Untuk memastikan bahwa koefisien suatu variabel bebas memiliki pengaruh yang signifikan, kita dapat menggunakan p-value. Jika p-value memiliki nilai kurang dari level signifikansi tertentu, maka dapat dikatakan bahwa koefisien memiliki efek yang signifikan terhadap model. Dalam hasil summary di atas, diperoleh bahwa p-value sebesar 0.006. Jika kita menggunakan angka signifikansi : Maka p-value <a=0.05 sehingga koefisien yang diperoleh signifikan untuk model ini. R-SquaredR-squared adalah salah satu ukuran yang digunakan untuk menilai seberapa baik variabel independen yang digunakan untuk menjelaskan variasi pada variabel dependen. Semakin besar nilainya atau semakin mendekati 1, semakin baik modelnya. Secara matematis, R-squared dari model dapat dihitung menggunakan rumus berikut : Penjelasan : Pada hasil summary di atas diperoleh bahwa nilai yang berarti persentase perubahan variabel tak bebas ‘Total’ yang dijelaskan oleh variabel bebas ‘Pendapatan’ sebesar 35.1%. Dan sekitar 64,9% sisanya dipengaruhi oleh faktor-faktor lainnya yang tidak termasuk di dalam model. Uji Asumsi KlasikHal yang harus diperhatikan dalam regresi linier adalah apakah residual dari model berdistribusi normal atau tidak atau apakah terdapat homoskedastisitas atau tidak dan faktor-faktor lainnya. Residual Harus Berdistribusi NormalAgar model regresi valid, maka resiudal dari model harus berdistribusi normal. Hal ini dapat kita baca dari hasil summary dari model, yaitu HomoskedastisitasSelain distribusi dari residual harus mendekati atau berdistribusi normal, homoskedastisitas adalah salah satu syarat yang harus dipenuhi agar model yang dibuat valid. Homoskedastisitas adalah kondisi dimana variansi dari error seragam. Ketika yang terjadi justru variansinya semakin membasar atau mengecil maka yang terjadi adalah heteroskedastisitas. Hal ini dapat lebih mudah digambarkan sebagai berikut : https://stats.stackexchange.com/Kita dapat mengamati ini dari nilai Durbin-Watson. Jika nilai Durbin-Watson di antara nilai 1 dan 2 maka dapat dipastikan bahwa terdapat homoskedastisitas pada model. Pada contoh sebelumnya kita memperoleh nilai Durbin-Watson sebesar 2.516 yang berarti tidak terdapat homoskedastisitas pada model sehingga model tidak valid untuk digunakan. PenutupCongratulation! Kamu sudah berhasil menyelesaikan modul Statistic using Python for Data Science Part 2. Pada modul ini yang telah kamu pahami dan praktikkan materinya adalah :
Referensi : DQLab Academy |