Cara menggunakan bagging decision tree python

Pada artikel kali ini kami akan membahas mengenai Random Forest. Dalam machine learning sering kita mendengar  tentang metode Random Forest yang digunakan untuk menyelesaikan permasalahan. Metode Random Forest  merupakan salah satu metode dalam Decision Tree. Decision Tree atau pohon pengambil keputusan adalah sebuah diagram alir yang berbentuk seperti pohon yang memiliki sebuah root node yang digunakan untuk mengumpulkan data, Sebuah inner node yang berada pada root node yang berisi tentang pertanyaan tentang data dan  sebuah leaf node yang digunakan untuk memecahkan masalah serta membuat keputusan. Decision tree mengklasifikasikan suatu sampel data yang belum diketahui kelasnya kedalam kelas – kelas yang ada. Penggunaan decision tree agar dapat menghindari overfitting pada sebuah set data saat mencapai akurasi yang maksimum.

Random forest  adalah kombinasi dari  masing – masing tree yang baik kemudian dikombinasikan  ke dalam satu model. Random Forest bergantung pada sebuah nilai vector random dengan distribusi yang sama pada semua pohon yang masing masing decision tree memiliki kedalaman yang maksimal. Random forest adalah classifier yang terdiri dari classifier yang berbentuk pohon {h(x, θ k ), k = 1, . . .} dimana θk adalah random vector yang diditribusikan secara independen dan masing masing tree pada sebuah unit kan memilih class yang paling popular pada input x. Berikut ini karakteristik akurasi pada random forest.

  1. Memusatkan random forest

    Terdapart classifier h2(x), h2(x), . . . , hk (x) dan dengan training set dari distribusi random vector Y,X, Berikut fungsi  yang terbentuk

    Cara menggunakan bagging decision tree python

    Fungsi error yang digunakan

    Cara menggunakan bagging decision tree python

    Hasil dari penggabungan fungsi

    Cara menggunakan bagging decision tree python

    Pada hasil tersebut menjelaskan mengapa random forest tidak overfit saat tree di tambahkan, tetapi menghasilkan nilai yang terbatas pada error.

  2. Kekuatan dan Korelasi

    Fungsi yang dihasilkan adalah

    Cara menggunakan bagging decision tree python

    Pada fungsi tersebut kekuatan tidak bergantung pada forest.

    Berikut dijelaskan macam fitur – fitur yang digunakan untuk random forest.

  3. Random Forest menggunakan seleksi input yang random

    Bagging  digunakan untuk pemilihan fitur secara random. Masing – masing training set diambil dengan penggantinya dari training set asli. Kemudian sebuah tree  di tanam pada sebuah training set  menggunakan seleksi fitur random. Ada dua alasan penggunaan bagging yaitu yang pertama penggunaan bagging  untuk meningkatkan akurasi ketika fitur random digunakan. Yang kedua bagging  digunakan untuk memberikan perkiraan dari kesalahan generalisasi (PE*)  dari gabungan tree, untuk memperkirakan kekuatan dan korelasi. Random Forest yang paling sederhana dengan fitur random dibentuk dengan seleksi secara random, pada masing – masing node, sebuah grup kecil dari input variable yang terbagi. Membentuk tree menggunakan metodologi CART ke ukuran yang maksimum.

  4. Random Forest menggunakan kombinasi input yang linear

    Misalkan terdapat beberapa input, M, F mengambil fraksi pada M yang akan memimpin dalam meningkatkan  kekuatan tetapi pada korelasi yang tinggi. Pendekatan yang lain terbentuk dengan mendefinisikan lebih banyak fitur dengan mengambil kombinasi  random linear dari sejumlah variable input. Fitur tersebut variabel L yaitu jumlah dari variable yang dikombinasikan. Variabel L secara random diseleksi dan ditambahkan bersama dengan koefisien yang memiliki nomor random [-1,1]. Kombinasi linear F dihasilkan. Prosedur ini di sebut Forest-RC.

Disusun oleh: Yaqutina Marjani S.

Referensi

  • Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
  • Breiman L (2001). “Random Forests”. Machine Learning. 45 (1): 5–32. doi:1023/A:1010933404324.