Javascript must be enabled to continue!
Analisis Perbandingan: SMOTE dan Undersampling pada Klasifikasi Spam Naïve Bayes
View through CrossRef
Spam email merupakan masalah serius dalam komunikasi digital, dan sebagian besar riset mengenai deteksi spam masih terfokus pada dataset berbahasa Inggris, sehingga menciptakan celah penelitian untuk bahasa lain seperti bahasa Indonesia. Penelitian ini bertujuan untuk mengisi celah tersebut dengan mengimplementasikan algoritma Naïve Bayes untuk klasifikasi spam pada dataset berbahasa Indonesia. Selain itu, penelitian ini juga membandingkan efektivitas dua teknik penyeimbangan data, yaitu Synthetic Minority Over-sampling Technique (SMOTE) dan Random Undersampling (RUS), untuk menemukan pendekatan yang paling optimal. Metode penelitian mencakup beberapa tahapan, mulai dari pra-pemrosesan data, ekstraksi fitur menggunakan TF-IDF dan N-gram, hingga pelatihan model Naïve Bayes. Hasil evaluasi menunjukkan bahwa kedua model memiliki performa yang sangat baik. Model dengan teknik RUS sedikit lebih unggul dengan akurasi 95,74%, presisi 95,92%, dan F1-score 95,73%, dibandingkan model SMOTE yang mencapai akurasi 95,63%. Kesimpulannya, teknik RUS menunjukkan hasil yang lebih stabil dan efisien untuk dataset ini, membuktikan bahwa Naïve Bayes adalah solusi yang kuat untuk deteksi spam berbahasa Indonesia.
Title: Analisis Perbandingan: SMOTE dan Undersampling pada Klasifikasi Spam Naïve Bayes
Description:
Spam email merupakan masalah serius dalam komunikasi digital, dan sebagian besar riset mengenai deteksi spam masih terfokus pada dataset berbahasa Inggris, sehingga menciptakan celah penelitian untuk bahasa lain seperti bahasa Indonesia.
Penelitian ini bertujuan untuk mengisi celah tersebut dengan mengimplementasikan algoritma Naïve Bayes untuk klasifikasi spam pada dataset berbahasa Indonesia.
Selain itu, penelitian ini juga membandingkan efektivitas dua teknik penyeimbangan data, yaitu Synthetic Minority Over-sampling Technique (SMOTE) dan Random Undersampling (RUS), untuk menemukan pendekatan yang paling optimal.
Metode penelitian mencakup beberapa tahapan, mulai dari pra-pemrosesan data, ekstraksi fitur menggunakan TF-IDF dan N-gram, hingga pelatihan model Naïve Bayes.
Hasil evaluasi menunjukkan bahwa kedua model memiliki performa yang sangat baik.
Model dengan teknik RUS sedikit lebih unggul dengan akurasi 95,74%, presisi 95,92%, dan F1-score 95,73%, dibandingkan model SMOTE yang mencapai akurasi 95,63%.
Kesimpulannya, teknik RUS menunjukkan hasil yang lebih stabil dan efisien untuk dataset ini, membuktikan bahwa Naïve Bayes adalah solusi yang kuat untuk deteksi spam berbahasa Indonesia.
Related Results
Spam Review Detection Techniques: A Systematic Literature Review
Spam Review Detection Techniques: A Systematic Literature Review
Online reviews about the purchase of products or services provided have become the main source of users’ opinions. In order to gain profit or fame, usually spam reviews are written...
Integrasi Metode Decision Tree dan SMOTE untuk Klasifikasi Data Kecelakaan Lalu Lintas
Integrasi Metode Decision Tree dan SMOTE untuk Klasifikasi Data Kecelakaan Lalu Lintas
Kecelakaan lalu lintas merupakan suatu peristiwa yang tidak dapat diprediksi dengan pasti dan dapat mengakibatkan korban jiwa, korban luka ringan, korban luka berat atau kerugian m...
Klasifikasi Sentimen Masyarakat terhadap Presiden Indonesia Menggunakan Metode Naive Bayes
Klasifikasi Sentimen Masyarakat terhadap Presiden Indonesia Menggunakan Metode Naive Bayes
Abstract. Social media platform X has become an important platform for expressing public opinion, particularly in the political context, including the 2024 Presidential Election in...
Research of Email Classification based on Deep Neural Network
Research of Email Classification based on Deep Neural Network
Abstract
The effective distinction between normal email and spam, so as to maximize the possible of filtering spam has become a research hotspot currently. Naive bay...
Ekstraksi Informasi Kesehatan Masyarakat Dari Tweet Berbahasa Indonesia Berbasis Klasifikasi Dengan Algoritma Naive Bayes
Ekstraksi Informasi Kesehatan Masyarakat Dari Tweet Berbahasa Indonesia Berbasis Klasifikasi Dengan Algoritma Naive Bayes
AbstrakKesehatan merupakan kebutuhan utama manusia. Di Indonesia terdapat permasalahan tentang kesehatan, yaitu meningkatnya penyakit menular dan penyakit tidak menular. Untuk men...
A Collaborative Reputation-Based Vector Space Model for Email Spam Filtering
A Collaborative Reputation-Based Vector Space Model for Email Spam Filtering
In this paper, we propose a novel Collaborative Reputation-based Vector Space Model (CRVSM) for detection of spam email. CRVSM uses a vector space model for representing the featur...
PERBANDINGAN ALGORITMA C4.5 DAN NAIVE BAYES DALAM MENDETEKSI HIPERTENSI DI PUSKESMAS BANYUBIRU
PERBANDINGAN ALGORITMA C4.5 DAN NAIVE BAYES DALAM MENDETEKSI HIPERTENSI DI PUSKESMAS BANYUBIRU
Hipertensi menjadi penyebab kematian nomor 1 di dunia setiap tahunnya karena merupakan pintu masuk penyakit lain, seperti : jantung, gagal ginjal, diabetes, dan stroke (Direktur ...
PENERAPAN ALGORITMA KLASIFIKASI SEBAGAI PENDUKUNG KEPUTUSAN PEMBERIAN BEASISWA MAHASISWA
PENERAPAN ALGORITMA KLASIFIKASI SEBAGAI PENDUKUNG KEPUTUSAN PEMBERIAN BEASISWA MAHASISWA
Beasiswa merupakan bantuan pemerintah maupun swasta berupa sejumlah uang yang diberikan kepada siswa yang sedang atau yang akan mengikuti pendidikan di sekolah...

