Javascript must be enabled to continue!

Klasifikasi Email Phishing Menggunakan Metode TF-IDF dan Algoritma Random Forest

Serangan phishing melalui email semakin meningkat dan menjadi ancaman serius terhadap keamanan siber. Metode deteksi tradisional seperti blacklist dan pencocokan pola terbukti tidak lagi efektif dalam menghadapi serangan yang semakin kompleks. Oleh karena itu, diperlukan pendekatan baru yang mampu menganalisis isi email secara kontekstual dan cerdas. Penelitian ini mengembangkan sistem deteksi email phishing dengan mengintegrasikan metode Term Frequency–Inverse Document Frequency (TF-IDF) dan algoritma Random Forest. Sistem ini dirancang untuk menganalisis struktur bahasa dalam isi email, serta mengenali pola umum yang sering dimanfaatkan dalam serangan phishing. Tahapan penelitian meliputi preprocessing teks, feature extraction menggunakan TF-IDF, pelatihan model dengan Random Forest, serta evaluasi performa menggunakan tiga skenario data splitting: 60:40, 70:30, dan 80:20. Dataset diperoleh dari Kaggle dan terdiri dari 82.486 email yang telah disesuaikan agar seimbang antara email phishing dan email sah. Hasil evaluasi menunjukkan bahwa sistem mampu menghasilkan akurasi tinggi pada semua skenario, dengan nilai tertinggi sebesar 98,01% pada skenario 80:20. Nilai precision, recall, dan F1-score juga menunjukkan performa yang tinggi dan stabil. Selain itu, analisis feature importance memperlihatkan bahwa model dapat mengenali kata-kata penting seperti click, money, dan attached yang sering muncul dalam email phishing. Penelitian ini diharapkan menjadi landasan bagi pengembangan sistem deteksi yang lebih adaptif, cerdas, dan tanggap terhadap ancaman phishing yang terus berkembang.

Politeknik Negeri Lampung

Ismi Rosia Dwianti Dilla regita Cahyani Titik Khawa Abd Rahman Muhammad Faisal Aedah Abd Rahman Swa Lee Lee Nasir Usman

ROUTERS: Jurnal Sistem dan Teknologi Informasi

2025

Title: Klasifikasi Email Phishing Menggunakan Metode TF-IDF dan Algoritma Random Forest

Description:

Serangan phishing melalui email semakin meningkat dan menjadi ancaman serius terhadap keamanan siber.

Metode deteksi tradisional seperti blacklist dan pencocokan pola terbukti tidak lagi efektif dalam menghadapi serangan yang semakin kompleks.

Oleh karena itu, diperlukan pendekatan baru yang mampu menganalisis isi email secara kontekstual dan cerdas.

Penelitian ini mengembangkan sistem deteksi email phishing dengan mengintegrasikan metode Term Frequency–Inverse Document Frequency (TF-IDF) dan algoritma Random Forest.

Sistem ini dirancang untuk menganalisis struktur bahasa dalam isi email, serta mengenali pola umum yang sering dimanfaatkan dalam serangan phishing.

Tahapan penelitian meliputi preprocessing teks, feature extraction menggunakan TF-IDF, pelatihan model dengan Random Forest, serta evaluasi performa menggunakan tiga skenario data splitting: 60:40, 70:30, dan 80:20.

Dataset diperoleh dari Kaggle dan terdiri dari 82.

486 email yang telah disesuaikan agar seimbang antara email phishing dan email sah.

Hasil evaluasi menunjukkan bahwa sistem mampu menghasilkan akurasi tinggi pada semua skenario, dengan nilai tertinggi sebesar 98,01% pada skenario 80:20.

Nilai precision, recall, dan F1-score juga menunjukkan performa yang tinggi dan stabil.

Selain itu, analisis feature importance memperlihatkan bahwa model dapat mengenali kata-kata penting seperti click, money, dan attached yang sering muncul dalam email phishing.

Penelitian ini diharapkan menjadi landasan bagi pengembangan sistem deteksi yang lebih adaptif, cerdas, dan tanggap terhadap ancaman phishing yang terus berkembang.

Back

Related Results

Phishing Cyber Security Threats

Phishing is a growing threat in the realm of cybersecurity, where cybercriminals use various phishing techniques to steal sensitive information from individuals and organizations. ...

Perbandingan Kinerja Algoritma Naïve Bayes Dan C.45 Dalam Klasifikasi Spam Email

Antispam dengan algoritma tertentu yang dapat memisahkan antara spam-mail dengan non spam mail. Perbandingan kinerja antara algoritma naïve bayes, dan decision tree yang memakai al...

Sistem Klasifikasi Kerusakan Jalan Metode Machine Learning dengan Algoritma K-Means dan Random Forest

Kerusakan jalan merupakan masalah yang signifikan dalam infrastruktur transportasi, yang dapat mempengaruhi kenyamanan dan kesalamatan pengguna jalan. Penelitian ini bertujuan untu...

The determinants of consumer behavior towards email advertisement

PurposeThe aim of this study was to develop a theoretical model of email advertising effectiveness and to investigate differences between permission‐based email and spamming. By ex...

ARTIKEL ALGORITMA PEMROGRAMAN SERI MINTA UBA HASIBUAN

Algoritma merupakan akar dari sebuah sistem yang terbentuk dalam dunia pemrograman.Melalui serangkaian cara yang masuk akal dan teratur, sebuah algoritma dapat menyelesaikan suatu ...

FAKTOR-FAKTOR YANG MEMPENGARUHI MORTALITAS PADA PASIEN DENGAN FRAKTUR COSTA: Literature Review

FAKTOR-FAKTOR YANG MEMPENGARUHI MORTALITAS PADA PASIEN DENGAN FRAKTUR COSTA: Literature Review Anna Tri Wahyuni1), Masfuri2), Liya Arista3)1,2,3 Fakultas Ilmu Keperawatan Univers...

AI-Based Phishing Attack Detection And Prevention Using Natural Language Processing (NLP)

Phishing attacks remain one of the most prevalent and damaging cybersecurity threats, targeting users across various communication channels such as email, social media, and SMS. Tr...

Deep Learning Based Phishing Websites Detection

Phishing is a crime that involves the theft of confidential user information. Those targeted by phishing websites include individuals, small businesses, cloud storage providers, an...

Email:
Password:

Email: