Javascript must be enabled to continue!
Penerapan Algoritma XGBoost untuk Prediksi Diabetes: Analisis Confusion Matrix dan ROC Curve
View through CrossRef
Abstrak
Diabetes melitus merupakan gangguan metabolisme kronis yang menjadi perhatian kesehatan global yang terus meningkat, ditandai dengan tingkat prevalensi yang terus meningkat. Prediksi dini dan diagnosis yang akurat sangat penting untuk manajemen penyakit yang efektif dan pencegahan komplikasi. Studi ini menyajikan kerangka metodologis untuk mengoptimalkan algoritma XGBoost guna meningkatkan akurasi prediksi diabetes sekaligus meminimalkan kesalahan klasifikasi, dengan penekanan khusus pada pengurangan negatif palsu karena implikasi klinisnya yang signifikan. Metodologi pembelajaran mesin kami menggabungkan praproses data yang komprehensif, pengoptimalan hiperparameter sistematis melalui pencarian grid, dan evaluasi model yang ketat menggunakan analisis matriks kebingungan dan metrik ROC-AUC. Basis Data Diabetes Pima Indians dipartisi menggunakan pemisahan uji-latihan 70:30 untuk memastikan generalisasi model yang kuat. Model XGBoost yang dioptimalkan menunjukkan metrik kinerja yang luar biasa: akurasi (96,33%), presisi (93,4%), perolehan kembali (97,16%), skor F1 (95,7%), dan skor ROC-AUC (0,99). Analisis terperinci dari matriks kebingungan mengungkapkan 205 positif benar dan 373 negatif benar, dengan hanya 16 positif salah dan 6 negatif salah, yang menunjukkan kemampuan diagnostik unggul.Temuan ini menunjukkan bahwa algoritme XGBoost kami yang dioptimalkan merupakan alat pendukung keputusan yang berharga bagi praktisi perawatan kesehatan dalam deteksi dini diabetes. Meskipun model tersebut menunjukkan kinerja keseluruhan yang luar biasa, pengurangan lebih lanjut dari hasil negatif palsu tetap menjadi target penting untuk meningkatkan keselamatan klinis. Studi ini memberikan kontribusi signifikan terhadap ilmu data medis dengan membangun kerangka kerja yang kuat dan dioptimalkan untuk prediksi diabetes menggunakan teknik pembelajaran mesin tingkat lanjut, dengan aplikasi potensial dalam sistem pendukung keputusan klinis dan strategi perawatan kesehatan preventif.
Kata kunci: Diabetes mellitus, XGBoost, confusion matrix, ROC-AUC, optimasi hyperparameter.
Â
Abstract
Diabetes mellitus is a chronic metabolic disorder that is a growing global health concern, characterized by an increasing prevalence rate. Early prediction and accurate diagnosis are essential for effective disease management and prevention of complications. The study presents a methodological framework for optimizing the XGBoost algorithm to improve the accuracy of diabetes predictions while minimizing misclassification, with a special emphasis on the reduction of false negatives due to its significant clinical implications. Our machine learning methodology combines comprehensive data preprocessing, systematic hyperparameter optimization through grid search, and rigorous model evaluation using confusion matrix analysis and ROC-AUC metrics. The Pima Indians Diabetes Database is partitioned using an 70:30 test-exercise split to ensure robust model generalization. The optimized XGBoost model shows outstanding performance metrics: accuracy (96.33%), precision (93.4%), regain (97.16%), F1 score (95.7%), and ROC-AUC score (0.99). A detailed analysis of the confusion matrix revealed 205 true positives and 373 true negatives, with only 16 false positives and 6 false negatives, indicating superior diagnostic capabilities. These findings suggest that our optimized XGBoost algorithm is a valuable decision support tool for healthcare practitioners in the early detection of diabetes. Although the model shows excellent overall performance, further reduction of false-negative results remains an important target for improving clinical safety. The study makes a significant contribution to medical data science by building a robust and optimized framework for diabetes prediction using advanced machine learning techniques, with potential applications in clinical decision support systems and preventive health care strategies.
Keywords: Diabetes mellitus, XGBoost, confusion matrix, ROC-AUC, hyperparameter optimization.
Universitas Darussalam Gontor
Title: Penerapan Algoritma XGBoost untuk Prediksi Diabetes: Analisis Confusion Matrix dan ROC Curve
Description:
Abstrak
Diabetes melitus merupakan gangguan metabolisme kronis yang menjadi perhatian kesehatan global yang terus meningkat, ditandai dengan tingkat prevalensi yang terus meningkat.
Prediksi dini dan diagnosis yang akurat sangat penting untuk manajemen penyakit yang efektif dan pencegahan komplikasi.
Studi ini menyajikan kerangka metodologis untuk mengoptimalkan algoritma XGBoost guna meningkatkan akurasi prediksi diabetes sekaligus meminimalkan kesalahan klasifikasi, dengan penekanan khusus pada pengurangan negatif palsu karena implikasi klinisnya yang signifikan.
Metodologi pembelajaran mesin kami menggabungkan praproses data yang komprehensif, pengoptimalan hiperparameter sistematis melalui pencarian grid, dan evaluasi model yang ketat menggunakan analisis matriks kebingungan dan metrik ROC-AUC.
Basis Data Diabetes Pima Indians dipartisi menggunakan pemisahan uji-latihan 70:30 untuk memastikan generalisasi model yang kuat.
Model XGBoost yang dioptimalkan menunjukkan metrik kinerja yang luar biasa: akurasi (96,33%), presisi (93,4%), perolehan kembali (97,16%), skor F1 (95,7%), dan skor ROC-AUC (0,99).
Analisis terperinci dari matriks kebingungan mengungkapkan 205 positif benar dan 373 negatif benar, dengan hanya 16 positif salah dan 6 negatif salah, yang menunjukkan kemampuan diagnostik unggul.
Temuan ini menunjukkan bahwa algoritme XGBoost kami yang dioptimalkan merupakan alat pendukung keputusan yang berharga bagi praktisi perawatan kesehatan dalam deteksi dini diabetes.
Meskipun model tersebut menunjukkan kinerja keseluruhan yang luar biasa, pengurangan lebih lanjut dari hasil negatif palsu tetap menjadi target penting untuk meningkatkan keselamatan klinis.
Studi ini memberikan kontribusi signifikan terhadap ilmu data medis dengan membangun kerangka kerja yang kuat dan dioptimalkan untuk prediksi diabetes menggunakan teknik pembelajaran mesin tingkat lanjut, dengan aplikasi potensial dalam sistem pendukung keputusan klinis dan strategi perawatan kesehatan preventif.
Kata kunci: Diabetes mellitus, XGBoost, confusion matrix, ROC-AUC, optimasi hyperparameter.
Â
Abstract
Diabetes mellitus is a chronic metabolic disorder that is a growing global health concern, characterized by an increasing prevalence rate.
Early prediction and accurate diagnosis are essential for effective disease management and prevention of complications.
The study presents a methodological framework for optimizing the XGBoost algorithm to improve the accuracy of diabetes predictions while minimizing misclassification, with a special emphasis on the reduction of false negatives due to its significant clinical implications.
Our machine learning methodology combines comprehensive data preprocessing, systematic hyperparameter optimization through grid search, and rigorous model evaluation using confusion matrix analysis and ROC-AUC metrics.
The Pima Indians Diabetes Database is partitioned using an 70:30 test-exercise split to ensure robust model generalization.
The optimized XGBoost model shows outstanding performance metrics: accuracy (96.
33%), precision (93.
4%), regain (97.
16%), F1 score (95.
7%), and ROC-AUC score (0.
99).
A detailed analysis of the confusion matrix revealed 205 true positives and 373 true negatives, with only 16 false positives and 6 false negatives, indicating superior diagnostic capabilities.
These findings suggest that our optimized XGBoost algorithm is a valuable decision support tool for healthcare practitioners in the early detection of diabetes.
Although the model shows excellent overall performance, further reduction of false-negative results remains an important target for improving clinical safety.
The study makes a significant contribution to medical data science by building a robust and optimized framework for diabetes prediction using advanced machine learning techniques, with potential applications in clinical decision support systems and preventive health care strategies.
Keywords: Diabetes mellitus, XGBoost, confusion matrix, ROC-AUC, hyperparameter optimization.
Related Results
DAMPAK TEKNOLOGI TERHADAP PROSES BELAJAR MENGAJAR
DAMPAK TEKNOLOGI TERHADAP PROSES BELAJAR MENGAJAR
DAFTAR PUSTAKAAditama, M. H. R., & Selfiardy, S. (2022). Kehidupan Mahasiswa Kuliah Sambil Bekerja di Masa Pandemi Covid-19. Kidspedia: Jurnal Pendidikan Anak Usia Dini, 3(...
ARTIKEL ALGORITMA PEMROGRAMAN SERI MINTA UBA HASIBUAN
ARTIKEL ALGORITMA PEMROGRAMAN SERI MINTA UBA HASIBUAN
Algoritma merupakan akar dari sebuah sistem yang terbentuk dalam dunia pemrograman.Melalui serangkaian cara yang masuk akal dan teratur, sebuah algoritma dapat menyelesaikan suatu ...
Klasifikasi Status Indeks Desa Membangun Jawa Barat Menggunakan Algoritma XGBoost
Klasifikasi Status Indeks Desa Membangun Jawa Barat Menggunakan Algoritma XGBoost
Abstract. Based on data from Statistics Indonesia 2020 shows that rural areas in West Java have an average poverty rate of 10,64%, which is higher than urban areas at 7,79%. To est...
Analisis Perbandingan Algoritma Local Binary Patterns Histogram (LBPH) Dan Algoritma Convolutional Neural Network (CNN) Pada Sistem Pengenalan Wajah
Analisis Perbandingan Algoritma Local Binary Patterns Histogram (LBPH) Dan Algoritma Convolutional Neural Network (CNN) Pada Sistem Pengenalan Wajah
Dalam sistem pengamanan dan verifikasi digital, kata sandi sering digunakan tetapi memiliki kerentanan terhadap manipulasi dan pencurian. Untuk mengatasi masalah ini, metode altern...
Model Prediksi Awal Masa Studi Mahasiswa Menggunakan Algoritma Decision Tree C4.5
Model Prediksi Awal Masa Studi Mahasiswa Menggunakan Algoritma Decision Tree C4.5
Masa studi mahasiswa merupakan tolak ukur penilaian keberhasilan Program Studi, karena masa studi merupakan salah satu indikator keberhasilan proses belajar mahasiswa. Permasalahan...
Penerapan Algoritma C4.5 Untuk Prediksi Anak Stunting Di Kota Pagar Alam
Penerapan Algoritma C4.5 Untuk Prediksi Anak Stunting Di Kota Pagar Alam
Di Pagar Alam, Prediksi dan pengukuran tingkat Stunting masih mengandalkan analisis sekunder. Kader Posyandu melibatkan diri dalam mengukur kondisi balita, dan hasilnya diserahkan ...
Diabetes Prediction Using Machine Learning
Diabetes Prediction Using Machine Learning
The research analyzes machine learning methods for predicting diabetes through Pima Indians Diabetes Dataset analysis. The optimization of XGBoost and Logistic Regression (LR), Sup...
Penerapan Data Mining Untuk Prediksi Penyakit Diabetes Menggunakan Algoritma C4.5 Zudyanti Dwi Rahma Sari1, Ja
Penerapan Data Mining Untuk Prediksi Penyakit Diabetes Menggunakan Algoritma C4.5 Zudyanti Dwi Rahma Sari1, Ja
Kesehatan merupakan peranan terpenting dalam kehidupan. Salah satu penyakit yang dapat menyebabkan komplikasi dan kematian adalah diabetes. Diabetes merupakan penyakit yang disebab...

