Javascript must be enabled to continue!

Optimasi Data Tidak Seimbang pada Interaksi Drug Target dengan Sampling dan Ensemble Support Vector Machine

Data tidak seimbang menjadi salah satu masalah yang muncul pada masalah prediksi atau klasifikasi. Penelitian ini memfokuskan untuk mengatasi masalah data tidak seimbang pada prediksi drug-target interaction (interaksi senyawa-protein). Ada banyak protein target dan senyawa obat yang terdapat pada basis data interaksi senyawa-protein yang belum divalidasi interaksinya secara eksperimen. Belum diketahuinya interaksi antar senyawa dan target tersebut membuat proporsi antara data yang diketahui interaksinya dan yang belum dikethui menjadi tidak seimbang. Data interaksi yang sangat tidak seimbang dapat menyebabkan hasil prediksi menjadi bias. Terdapat banyak cara untuk mengatasi data tidak seimbang ini, namun pada penelitian ini diimplementasikan metode yang menggabungkan Biased Support Vector Machine (BSVM), oversampling, dan undersampling dengan Ensemble Support Vector Machine (SVM). Penelitian ini mengeksplorasi efek sampling yang digabungkan dalam metode tersebut pada data interaksi senyawa-protein. Metode ini sudah diuji pada dataset Nuclear Receptor, G-Protein Coupled Receptor dan Ion Channel dengan rasio ketidakseimbangannya sebesar 14.6%, 32.36%, dan 28.2%. Hasil pengujian dengan menggunakan ketiga dataset tersebut menunjukkan nilai area under curve (AUC) secara berturut-turut sebesar 63.4%, 71.4%, 61.3% dan F-measure sebesar 54%, 60.7% dan 39%. Nilai akurasi dari metode yang digunakan masih terbilang cukup baik, walaupun nilai tersebut lebih kecil dari metode SVM tanpa perlakuan apapun. Nilai tersebut bias karena nilai AUC dan F-measure ternyata lebih kecil. Hal ini membuktikan bahwa metode yang diusulkan dapat menurunkan tingkat bias pada data tidak seimbang yang diuji dan meningkatkan nilai AUC dan f-measure sekitar 5%-20%. AbstractImbalanced data has been one of the problems that arise in processing data. This research is focusing on handling imbalanced data problem for drug-target (compound-protein) interaction data. There are many target protein and drug compound existed in compound-protein interaction databases, which many interactions are not validated yet by experiment. This unknown interaction led drug target interaction to become imbalanced data. A really imbalanced data may cause bias to prediction result. There are many ways of handling imbalanced data, but this research implemented some methods such as BSVM, oversampling, undersampling with SVM ensemble. These method already solve the imbalanced data problem on other kind of data like image data. This research is focusing on exploration of effect on the sampling that used in these method for compound-protein interaction data. This method had been tested on compound-protein interaction Nuclear Receptor, GPCR and Ion Channel with 14.6%, 32.36% and 28.2% of imbalance ratio. The evaluation result using these three dataset show the value of AUC respectively 63.4%, 71.4%, 61.3% and F-measure of 54%, 60.7% and 39%. The score from this method is quite good, even though the score of accuracy and precision is smaller than the SVM. The value is bias because the AUC and F-measure score is smaller. This proves that the proposed method could reduce the bias rate in the evaluated imbalanced data and increase AUC and f-measure score from 5% to 20%.

Fakultas Ilmu Komputer Universitas Brawijaya

Nabila Sekar Ramadhanti Wisnu Ananta Kusuma Annisa Annisa

Jurnal Teknologi Informasi dan Ilmu Komputer

2020

Title: Optimasi Data Tidak Seimbang pada Interaksi Drug Target dengan Sampling dan Ensemble Support Vector Machine

Description:

Data tidak seimbang menjadi salah satu masalah yang muncul pada masalah prediksi atau klasifikasi.

Penelitian ini memfokuskan untuk mengatasi masalah data tidak seimbang pada prediksi drug-target interaction (interaksi senyawa-protein).

Ada banyak protein target dan senyawa obat yang terdapat pada basis data interaksi senyawa-protein yang belum divalidasi interaksinya secara eksperimen.

Belum diketahuinya interaksi antar senyawa dan target tersebut membuat proporsi antara data yang diketahui interaksinya dan yang belum dikethui menjadi tidak seimbang.

Data interaksi yang sangat tidak seimbang dapat menyebabkan hasil prediksi menjadi bias.

Terdapat banyak cara untuk mengatasi data tidak seimbang ini, namun pada penelitian ini diimplementasikan metode yang menggabungkan Biased Support Vector Machine (BSVM), oversampling, dan undersampling dengan Ensemble Support Vector Machine (SVM).

Penelitian ini mengeksplorasi efek sampling yang digabungkan dalam metode tersebut pada data interaksi senyawa-protein.

Metode ini sudah diuji pada dataset Nuclear Receptor, G-Protein Coupled Receptor dan Ion Channel dengan rasio ketidakseimbangannya sebesar 14.

6%, 32.

36%, dan 28.

2%.

Hasil pengujian dengan menggunakan ketiga dataset tersebut menunjukkan nilai area under curve (AUC) secara berturut-turut sebesar 63.

4%, 71.

4%, 61.

3% dan F-measure sebesar 54%, 60.

7% dan 39%.

Nilai akurasi dari metode yang digunakan masih terbilang cukup baik, walaupun nilai tersebut lebih kecil dari metode SVM tanpa perlakuan apapun.

Nilai tersebut bias karena nilai AUC dan F-measure ternyata lebih kecil.

Hal ini membuktikan bahwa metode yang diusulkan dapat menurunkan tingkat bias pada data tidak seimbang yang diuji dan meningkatkan nilai AUC dan f-measure sekitar 5%-20%.

AbstractImbalanced data has been one of the problems that arise in processing data.

This research is focusing on handling imbalanced data problem for drug-target (compound-protein) interaction data.

There are many target protein and drug compound existed in compound-protein interaction databases, which many interactions are not validated yet by experiment.

This unknown interaction led drug target interaction to become imbalanced data.

A really imbalanced data may cause bias to prediction result.

There are many ways of handling imbalanced data, but this research implemented some methods such as BSVM, oversampling, undersampling with SVM ensemble.

These method already solve the imbalanced data problem on other kind of data like image data.

This research is focusing on exploration of effect on the sampling that used in these method for compound-protein interaction data.

This method had been tested on compound-protein interaction Nuclear Receptor, GPCR and Ion Channel with 14.

6%, 32.

36% and 28.

2% of imbalance ratio.

The evaluation result using these three dataset show the value of AUC respectively 63.

4%, 71.

4%, 61.

3% and F-measure of 54%, 60.

7% and 39%.

The score from this method is quite good, even though the score of accuracy and precision is smaller than the SVM.

The value is bias because the AUC and F-measure score is smaller.

This proves that the proposed method could reduce the bias rate in the evaluated imbalanced data and increase AUC and f-measure score from 5% to 20%.

.

Back

FAKTOR-FAKTOR YANG MEMPENGARUHI MORTALITAS PADA PASIEN DENGAN FRAKTUR COSTA: Literature Review Anna Tri Wahyuni1), Masfuri2), Liya Arista3)1,2,3 Fakultas Ilmu Keperawatan Univers...

KECEMASAN SAAT PANDEMI COVID 19: LITERATUR REVIEW Hardiyati, Efri Widianti, Taty Hernawaty Departemen Keperawatan Jiwa Poltekkes Kemenkes Mamuju Sulbar, Universitas Pad...

Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)

BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...

Study Of Drug Interaction in Diabetes Mellitus Therapy at the Inpatient Installation of Al Islam Hospital Bandung

The patient's clinical outcome can be influenced by drug related problems, one of which is drug interactions, because the more complex the therapy carried out, it will be in line ...

DAMPAK TEKNOLOGI TERHADAP PROSES BELAJAR MENGAJAR

DAFTAR PUSTAKAAditama, M. H. R., & Selfiardy, S. (2022). Kehidupan Mahasiswa Kuliah Sambil Bekerja di Masa Pandemi Covid-19. Kidspedia: Jurnal Pendidikan Anak Usia Dini, 3(...

SOSIALISASI PEDOMAN GIZI SEIMBANG 2014 BAGI GURU SD N 05 JOHAR BARU

Pedoman Gizi Seimbang telah dikenalkan dan disosialisasikan kepada masyarakat lebih dari 15 tahun lalu akan tetapi masih banyak masyarakat di Indonesia yang tidak mengetahui Pedoma...

PENINGKATAN PENGETAHUAN GIZI SEIMBANG SEBAGAI PEDOMAN HIDUP SEHAT PADA MASYARAKAT DI KELURAHAN JATIBENING

Pendahuluan: Sehat jasmani merupakan impian semua orang. Untuk mendapatkan jasmani yang sehat diperlukan asupan makanan yang sehat dan gizi seimbang. Gizi seimbang adalah dimana su...

Optimasi Linear Support Vector Machine untuk Deteksi Smishing Multi-Kelas pada Dataset Tidak Seimbang

Serangan smishing (SMS phishing) menghadapi tantangan mendasar dalam deteksi berbasis machine learning akibat ketidakseimbangan distribusi kelas pada dataset dunia nyata, di mana i...

Email:
Password:

Email:

Optimasi Data Tidak Seimbang pada Interaksi Drug Target dengan Sampling dan Ensemble Support Vector Machine

Related Results