Halo, pembaca! Dalam artikel ini, kita akan fokus pada salah satu teknik pra-pemrosesan terpenting dalam Python – Standardisasi menggunakan fungsi StandardScaler() . Jadi, mari kita mulai!!
Perlunya StandardisasiSebelum masuk ke Standardisasi, mari kita pahami dulu konsep Scaling. penskalaan Fitur merupakan langkah penting dalam pemodelan algoritma dengan dataset. Data yang biasanya digunakan untuk tujuan pemodelan diturunkan melalui berbagai cara seperti: bagaimana menjaga bot perselisihan Anda online 24 7
Jadi, data yang diperoleh berisi fitur dari berbagai dimensi dan skala sekaligus. Skala yang berbeda dari fitur data mempengaruhi pemodelan set data secara negatif. Ini mengarah pada hasil prediksi yang bias dalam hal kesalahan klasifikasi dan tingkat akurasi. Oleh karena itu, perlu dilakukan penskalaan data sebelum pemodelan. cara menggunakan sin di python #pembelajaran mesin #python www.journaldev.comMenggunakan Fungsi StandardScaler() untuk Menstandarkan Data Python. Pada artikel ini, kita akan berfokus pada salah satu teknik pra-pemrosesan terpenting dalam Python – Standardisasi menggunakan fungsi StandardScaler(). Jawaban di atas sangat bagus, tetapi saya membutuhkan contoh sederhana untuk meringankan beberapa kekhawatiran yang saya miliki di masa lalu. Saya ingin memastikan itu memang memperlakukan masing-masing kolom secara terpisah. Saya sekarang diyakinkan dan tidak dapat menemukan contoh apa yang membuat saya prihatin. Semua kolomADALAHdiskalakan secara terpisah seperti dijelaskan oleh yang di atas. KODE
KELUARAN
Fitur SkalaJika data Anda memiliki nilai yang berbeda, dan bahkan unit pengukuran yang berbeda, akan sulit untuk membandingkannya. Berapa kilogram dibandingkan dengan meter? Atau ketinggian dibandingkan dengan waktu? Jawaban untuk masalah ini adalah menggunakan penskalaan. Kita dapat menskalakan data menjadi nilai baru yang lebih mudah untuk dibandingkan. Perhatikan tabel di bawah ini, ini adalah kumpulan data yang sama yang kami gunakan di bab regresi berganda, tetapi kali ini kolom volume berisi nilai dalam liter, bukan cm3 (1.0, bukan 1000).
Sulit untuk membandingkan volume 1.0 dengan berat 790, tetapi jika kita menskalakan keduanya menjadi nilai yang dapat dibandingkan, kita dapat dengan mudah melihat seberapa besar satu nilai dibandingkan dengan yang lain. Ada beberapa metode penskalaan data, dalam tutorial ini kita akan menggunakan metode yang disebut standardisasi. Metode standardisasi menggunakan rumus ini: z = (x – u) / s Di mana z adalah nilai baru, x adalah nilai asli, u adalah mean dan s adalah standar deviasi. Jika kita mengambil kolom berat dari kumpulan data di atas, nilai pertama adalah 790, dan nilai skala adalah: (790 – 1292,23) / 238,74 = -2,1 Jika kita mengambil kolom volume dari kumpulan data di atas, nilai pertama adalah 1.0, dan nilai skala adalah: (1,0 – 1,61) / 0,38 = -1,59 Sekarang kita dapat membandingkan -2,1 dengan -1,59 daripada membandingkan 790 dengan 1,0. Kita tidak perlu melakukannya secara manual, karena modul sklearn Python memiliki metode yang disebut StandardScaler() yang mengembalikan objek Scaler dengan metode untuk mengubah kumpulan data. Contoh: import pandas from sklearn import linear_model from sklearn.preprocessing import StandardScaler scale = StandardScaler() df = pandas.read_csv("cars2.csv") X = df[['Weight', 'Volume']] scaledX = scale.fit_transform(X) print(scaledX) Memprediksi Nilai CO2Tugas pada bab Regresi Ganda adalah memprediksi emisi CO2 dari sebuah mobil ketika kita hanya mengetahui berat dan volumenya. Saat kumpulan data diskalakan, kita harus menggunakan skala saat memprediksi nilai: Contoh: import pandas from sklearn import linear_model from sklearn.preprocessing import StandardScaler scale = StandardScaler() df = pandas.read_csv("cars2.csv") X = df[['Weight', 'Volume']] y = df['CO2'] scaledX = scale.fit_transform(X) regr = linear_model.LinearRegression() regr.fit(scaledX, y) scaled = scale.transform([[2300, 1.3]]) predictedCO2 = regr.predict([scaled[0]]) print(predictedCO2) StandardScaler untuk apa?StandardScaler adalah class dari sklearn untuk melakukan normalisasi data agar data yang digunakan tidak memiliki penyimpangan yang besar. Satu hal penting dalam Data Analysis adalah membuat DataFrame dari dataset. Lalu menampilkan 5 data teratas untuk memastikan data seperti apa yang akan di analisis.
MinMaxScaler untuk apa?Orang-orang juga biasa menggunakan MinMaxScaler yang berfungsi untuk mengubah data berada di rentang 0 sampai 1. Agar lebih mudah mengilustrasikan kesalahan ini, saya akan menggunakan MinMaxScaler.
|