Cara menggunakan bagging decision tree python

Pada artikel kali ini kami akan membahas mengenai Random Forest. Dalam machine learning sering kita mendengar tentang metode Random Forest yang digunakan untuk menyelesaikan permasalahan. Metode Random Forest merupakan salah satu metode dalam Decision Tree. Decision Tree atau pohon pengambil keputusan adalah sebuah diagram alir yang berbentuk seperti pohon yang memiliki sebuah root node yang digunakan untuk mengumpulkan data, Sebuah inner node yang berada pada root node yang berisi tentang pertanyaan tentang data dan sebuah leaf node yang digunakan untuk memecahkan masalah serta membuat keputusan. Decision tree mengklasifikasikan suatu sampel data yang belum diketahui kelasnya kedalam kelas – kelas yang ada. Penggunaan decision tree agar dapat menghindari overfitting pada sebuah set data saat mencapai akurasi yang maksimum.

Random forest adalah kombinasi dari masing – masing tree yang baik kemudian dikombinasikan ke dalam satu model. Random Forest bergantung pada sebuah nilai vector random dengan distribusi yang sama pada semua pohon yang masing masing decision tree memiliki kedalaman yang maksimal. Random forest adalah classifier yang terdiri dari classifier yang berbentuk pohon {h(x, θ k ), k = 1, . . .} dimana θk adalah random vector yang diditribusikan secara independen dan masing masing tree pada sebuah unit kan memilih class yang paling popular pada input x. Berikut ini karakteristik akurasi pada random forest.

Memusatkan random forest
Terdapart classifier h2(x), h2(x), . . . , hk (x) dan dengan training set dari distribusi random vector Y,X, Berikut fungsi yang terbentuk

Fungsi error yang digunakan

Hasil dari penggabungan fungsi
Pada hasil tersebut menjelaskan mengapa random forest tidak overfit saat tree di tambahkan, tetapi menghasilkan nilai yang terbatas pada error.
Kekuatan dan Korelasi
Fungsi yang dihasilkan adalah
Pada fungsi tersebut kekuatan tidak bergantung pada forest.

Berikut dijelaskan macam fitur – fitur yang digunakan untuk random forest.
Random Forest menggunakan seleksi input yang random
Bagging digunakan untuk pemilihan fitur secara random. Masing – masing training set diambil dengan penggantinya dari training set asli. Kemudian sebuah tree di tanam pada sebuah training set menggunakan seleksi fitur random. Ada dua alasan penggunaan bagging yaitu yang pertama penggunaan bagging untuk meningkatkan akurasi ketika fitur random digunakan. Yang kedua bagging digunakan untuk memberikan perkiraan dari kesalahan generalisasi (PE*) dari gabungan tree, untuk memperkirakan kekuatan dan korelasi. Random Forest yang paling sederhana dengan fitur random dibentuk dengan seleksi secara random, pada masing – masing node, sebuah grup kecil dari input variable yang terbagi. Membentuk tree menggunakan metodologi CART ke ukuran yang maksimum.
Random Forest menggunakan kombinasi input yang linear
Misalkan terdapat beberapa input, M, F mengambil fraksi pada M yang akan memimpin dalam meningkatkan kekuatan tetapi pada korelasi yang tinggi. Pendekatan yang lain terbentuk dengan mendefinisikan lebih banyak fitur dengan mengambil kombinasi random linear dari sejumlah variable input. Fitur tersebut variabel L yaitu jumlah dari variable yang dikombinasikan. Variabel L secara random diseleksi dan ditambahkan bersama dengan koefisien yang memiliki nomor random [-1,1]. Kombinasi linear F dihasilkan. Prosedur ini di sebut Forest-RC.

Disusun oleh: Yaqutina Marjani S.

Referensi

Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
Breiman L (2001). “Random Forests”. Machine Learning. 45 (1): 5–32. doi:1023/A:1010933404324.