Analisis Komprehensif Kinerja Model Klasifikasi Sentimen: Evaluasi Lintas Metrik pada Dataset Tweet Film Bahasa Indonesia
Data Sentimen Analitik dari Tweteer (X) Tentang Film Berbahasa Indoensia
Abstrak
Penilaian kinerja model klasifikasi teks tidak dapat hanya bergantung pada akurasi semata, terutama ketika dataset yang digunakan bersifat tidak seimbang atau tujuan evaluasi memiliki sensitivitas terhadap jenis kesalahan tertentu. Penelitian ini mengkaji performa lima algoritma klasifikasi—K-Nearest Neighbor, Support Vector Machine, Random Forest, Logistic Regression, dan Naive Bayes—pada dataset opini film berbahasa Indonesia. Setiap model dievaluasi berdasarkan empat metrik utama: akurasi, presisi, recall, dan F1-score, melalui strategi holdout sebanyak 10 iterasi untuk menangkap konsistensi kinerja. Hasil menunjukkan bahwa SVM memiliki performa tertinggi pada seluruh metrik, dengan akurasi rata-rata sebesar 85,5%, diikuti oleh Naive Bayes (83,0%) dan Logistic Regression (82,3%). Meskipun Random Forest memiliki presisi tinggi (85,6%), model ini menunjukkan kelemahan dalam recall (65,3%), yang berdampak pada ketidakseimbangan dalam klasifikasi. Pendekatan evaluasi berbasis tujuan—termasuk sensitivitas terhadap false negative dan analisis pada distribusi probabilistik—membuktikan pentingnya penggunaan metrik yang beragam. Kesimpulan menyatakan bahwa SVM menjadi pilihan utama dalam konteks klasifikasi sentimen teks dengan keseimbangan metrik terbaik, sementara Random Forest cenderung tidak stabil dalam situasi distribusi data yang kompleks.
Kata Kunci: Klasifikasi Sentimen, Evaluasi Model, Text Mining, Algoritma Supervised Learning, Bahasa Indonesia

