PENERAPAN ALGORITMA SAFE-LEVEL-SMOTE UNTUK PENINGKATAN NILAI G-MEAN DALAM KLASIFIKASI DATA TIDAK SEIMBANG

  • Resianta Perangin-angin Universitas Methodist Indonesia
  • Eva Julia Gunawati Harianja Universitas Methodist Indonesia
  • Indra Kelana Jaya Universitas Methodist Indonesia
  • Benget Rumahorbo Universitas Methodist Indonesia

Abstract

Klasifikasi data yang tidak seimbang merupakan masalah yang krusial pada bidang machine learning dan data mining. Ketidakseimbangan data memberikan dampak yang buruk pada hasil klasifikasi dimana kelas minoritas sering disalah klasifikasikan sebagai kelas mayoritas. Dimana kelompok kelas minoritas (minority) adalah kelompok kelas yang memiliki data lebih sedikit, dan kelompok kelas mayoritas (mayority) adalah kelompok kelas yang memilik jumlah data lebih banyak. Data tidak seimbang adalah suatu kondisi dimana jumlah contoh dari salah satu kelas jauh lebih banyak dari kelas yang lain. Alasan buruknya kinerja metode klasifikasi biasa yang digunakan pada data tidak seimbang adalah bahwa tujuan metode klasifikasi dalam meminimumkan galat secara keseluruhan tidak dapat tercapai karena kelas minoritas hanya sedikit memberikan kontribusi, selain itu keputusan akhir yang dihasilkan tidak tepat karena terjadinya bias. Hal ini disebabkan oleh salah satu kelas mendominasi dalam hal jumlah. Dalam penelitian ini akan berfokus pada peningkatan nilai G-Mean dari dataset yang digunakan, dengan menerapkan algoritma Safe-Level-SMOTE. Dari hasil ujicoba yang dilakukan terhadap dua dataset yakni Abalon dan Vowel, untuk skema Smote + k-NN nilai G-Mean yang didapat yakni 0,47 untuk dataset Abalon dan 0.94 untuk dataset Vowel. Seletah dilakukan ujicoba terhadap dataset yang sama menggunakan skema Safe-Level-Smote menggunakan algoritma klasifikasi k-NN didapat hasil G-Mean 0,59  untuk dataset Abalon dan 1.00 Untuk dataset Vowel, rerata dari kenaikan nilai G-Mean terhadap algoritma SMOTE sebesar 12,68%. Hal ini membuktikan bahwasanya algoritma Safe-Level-Smote dapat meningkatkan nilai G-Mean pada klasifikasi data tidak seimbang menggunakan algoritma klasifikasi k-Nearst Neighbors.

Published
2020-04-02