Javascript must be enabled to continue!

Pengenalan Ekspresi Wajah Peserta Didik di Ruang Kelas Menggunakan Vision Transformer (ViT)

Abstrak Ekspresi wajah merupakan bentuk komunikasi non-verbal yang penting dalam memahami kondisi emosional peserta didik di ruang kelas. Pemahaman ini dapat membantu pendidik menyesuaikan metode pengajaran sesuai dengan keadaan emosional siswa, sehingga proses belajar mengajar menjadi lebih efektif. Penelitian ini bertujuan untuk mengembangkan dan menerapkan sistem pengenalan ekspresi wajah secara real-time di ruang kelas dengan memanfaatkan arsitektur Vision Transformer (ViT). Dua pendekatan sistem dikembangkan dalam penelitian ini: sistem dual-stage yang memanfaatkan kombinasi model deteksi wajah YOLOv11s dan model pengenalan ekspresi wajah HybridViT (ResNet-50), serta sistem single-stage yang menggunakan model YOLOv11s untuk langsung mendeteksi emosi dari citra wajah. Dataset yang digunakan meliputi Real-world Affective Face Database (RAF-DB), Face Detection Dataset, dan Facial Expression in Classroom, yang masing-masing digunakan untuk pelatihan awal dan fine-tuning model. Hasil pengujian menunjukkan bahwa sistem dual-stage memiliki performa klasifikasi yang lebih baik dengan nilai mean Average Precision (mAP) sebesar 0,2846, dibandingkan sistem single-stage dengan mAP sebesar 0,1603. Sebaliknya, dari segi efisiensi inferensi, sistem single-stage lebih unggul dengan latensi rata-rata per wajah sebesar 0,290 ms (6.539 FPS) di GPU dan 1,862 ms (545 FPS) di CPU, dibandingkan sistem dual-stage yang memiliki latensi lebih tinggi. Selain itu, evaluasi menunjukkan ketidakseimbangan performa antar kelas emosi akibat distribusi data yang tidak merata. Secara keseluruhan, kedua pendekatan menunjukkan potensi yang menjanjikan untuk implementasi sistem pengenalan ekspresi wajah di ruang kelas. Keduanya masih dapat ditingkatkan dari segi akurasi, generalisasi antar emosi, serta efisiensi waktu inferensi melalui peningkatan kualitas dataset dan eksplorasi teknik pelatihan lanjutan. Kata Kunci: Pengenalan Ekspresi Wajah, Vision Transformer, YOLOv11s, Real-Time, Ruang Kelas, Dual-Stage, Single-Stage Abstract Facial expressions serve as an essential form of non-verbal communication in understanding students' emotional states in the classroom. This understanding enables educators to adjust their teaching methods according to students' emotions, thus improving the effectiveness of the learning process. This study aims to develop and implement a real-time facial expression recognition system in classroom settings by utilizing the Vision Transformer (ViT) architecture. Two system approaches were developed: a dual-stage system combining a YOLOv11s face detection model with a HybridViT (ResNet-50) facial expression recognition model, and a single-stage system using a YOLOv11s model to directly detect emotions from facial images. The datasets used include the Real-world Affective Faces Database (RAF-DB) and the Facial Expression in Classroom Dataset, which were employed for model training and fine-tuning, respectively. Evaluation results demonstrate that the dual-stage system achieves superior classification performance with a mean Average Precision (mAP) of 0.2846, compared to the single-stage system's mAP of 0.1603. However, in terms of inference efficiency, the single-stage system outperforms the dual-stage system, achieving a lower average latency per face of 0.290 ms (6.539 FPS) on GPU and 1.862 ms (545 FPS) on CPU. The evaluation also highlights an imbalance in classification performance across emotion classes, primarily due to the uneven distribution of training and fine-tuning data. Overall, both approaches exhibit promising potential for facial expression recognition applications in classroom environments. Further improvements in accuracy, emotional generalization, and computational efficiency can be achieved through enhanced dataset quality, balanced emotion representation, and exploration of advanced training techniques. Keywords: Facial Expression Recognition, Vision Transformer, YOLOv11s, Real-Time, Classroom, Dual-Stage, Single-Stage

LKP Karya Prima

Muhammad Fakhri Fadhlurrahman Munir Yaya Wihardi

Jurnal Komputer Teknologi Informasi Sistem Informasi (JUKTISI)

2025

Title: Pengenalan Ekspresi Wajah Peserta Didik di Ruang Kelas Menggunakan Vision Transformer (ViT)

Description:

Abstrak Ekspresi wajah merupakan bentuk komunikasi non-verbal yang penting dalam memahami kondisi emosional peserta didik di ruang kelas.

Pemahaman ini dapat membantu pendidik menyesuaikan metode pengajaran sesuai dengan keadaan emosional siswa, sehingga proses belajar mengajar menjadi lebih efektif.

Penelitian ini bertujuan untuk mengembangkan dan menerapkan sistem pengenalan ekspresi wajah secara real-time di ruang kelas dengan memanfaatkan arsitektur Vision Transformer (ViT).

Dua pendekatan sistem dikembangkan dalam penelitian ini: sistem dual-stage yang memanfaatkan kombinasi model deteksi wajah YOLOv11s dan model pengenalan ekspresi wajah HybridViT (ResNet-50), serta sistem single-stage yang menggunakan model YOLOv11s untuk langsung mendeteksi emosi dari citra wajah.

Dataset yang digunakan meliputi Real-world Affective Face Database (RAF-DB), Face Detection Dataset, dan Facial Expression in Classroom, yang masing-masing digunakan untuk pelatihan awal dan fine-tuning model.

Hasil pengujian menunjukkan bahwa sistem dual-stage memiliki performa klasifikasi yang lebih baik dengan nilai mean Average Precision (mAP) sebesar 0,2846, dibandingkan sistem single-stage dengan mAP sebesar 0,1603.

Sebaliknya, dari segi efisiensi inferensi, sistem single-stage lebih unggul dengan latensi rata-rata per wajah sebesar 0,290 ms (6.

539 FPS) di GPU dan 1,862 ms (545 FPS) di CPU, dibandingkan sistem dual-stage yang memiliki latensi lebih tinggi.

Selain itu, evaluasi menunjukkan ketidakseimbangan performa antar kelas emosi akibat distribusi data yang tidak merata.

Secara keseluruhan, kedua pendekatan menunjukkan potensi yang menjanjikan untuk implementasi sistem pengenalan ekspresi wajah di ruang kelas.

Keduanya masih dapat ditingkatkan dari segi akurasi, generalisasi antar emosi, serta efisiensi waktu inferensi melalui peningkatan kualitas dataset dan eksplorasi teknik pelatihan lanjutan.

Kata Kunci: Pengenalan Ekspresi Wajah, Vision Transformer, YOLOv11s, Real-Time, Ruang Kelas, Dual-Stage, Single-Stage Abstract Facial expressions serve as an essential form of non-verbal communication in understanding students' emotional states in the classroom.

This understanding enables educators to adjust their teaching methods according to students' emotions, thus improving the effectiveness of the learning process.

This study aims to develop and implement a real-time facial expression recognition system in classroom settings by utilizing the Vision Transformer (ViT) architecture.

Two system approaches were developed: a dual-stage system combining a YOLOv11s face detection model with a HybridViT (ResNet-50) facial expression recognition model, and a single-stage system using a YOLOv11s model to directly detect emotions from facial images.

The datasets used include the Real-world Affective Faces Database (RAF-DB) and the Facial Expression in Classroom Dataset, which were employed for model training and fine-tuning, respectively.

Evaluation results demonstrate that the dual-stage system achieves superior classification performance with a mean Average Precision (mAP) of 0.

2846, compared to the single-stage system's mAP of 0.

1603.

However, in terms of inference efficiency, the single-stage system outperforms the dual-stage system, achieving a lower average latency per face of 0.

290 ms (6.

539 FPS) on GPU and 1.

862 ms (545 FPS) on CPU.

The evaluation also highlights an imbalance in classification performance across emotion classes, primarily due to the uneven distribution of training and fine-tuning data.

Overall, both approaches exhibit promising potential for facial expression recognition applications in classroom environments.

Further improvements in accuracy, emotional generalization, and computational efficiency can be achieved through enhanced dataset quality, balanced emotion representation, and exploration of advanced training techniques.

Keywords: Facial Expression Recognition, Vision Transformer, YOLOv11s, Real-Time, Classroom, Dual-Stage, Single-Stage.

Back

ABSTRAK Wajah menjadi sumber teknologi biometrik yang menjadi ciri khas bagian tubuh yang melekat pada seseorang, dimana seringkali menjadi objek penelitian dibidang pengolah...

Sistem Pengenalan Wajah Menggunakan Neuro-Wavelet

Sistem pengenalan wajah dapat diaplikasikan dalam berbagai bidang, misalnya bidang kedokteran, sistem keamanan, perkantoran, pertokoan, absensi dan lain sebagainya. Sistem pengenal...

Survei Minat dan Motivasi dalam Mengikti Belajar Renang pada Peserta Didik Club Silimang Kabupaten Rokan Hulu

Penelitian ini bertujuan untuk mengetahui gambaran minat dan motivasi peserta didik dalam mengikuti pembelajaran renang di Club Silimang Kabupaten Rokan Hulu. Penelitian ini menggu...

Pengenalan Ekspresi Wajah Menggunakan Convolutional Neural Network

Abstrak. Wajah adalah bagian tubuh manusia yang berfungsi sebagai pusat ekspresi, pengenalan dan juga komunikasi. Dalam bersosialisasi juga wajah merupakan alat utama yang digunaka...

EFEKTIVITAS MODEL PEMBELAJARAN EXAMPLE NON EXAMPLE BERBANTUAN MEDIA PAPAN CACAH GORI TERHADAP PRESTASIBELAJAR MATEMATIKA DITINJAU DARI AKTIVITAS BELAJAR PESERTA DIDIK

Prestasi belajar matematika peserta didik kelas VII SMP Negeri 7 Pemalang sebagian masih ada yang belum mencapai nilai KKM. Berkaitan hal ini perlu adanya variasi dalam pembelajara...

PENGARUH KELEKATAN GURU DAN PESERTA DIDIK TERHADAP MOTIVASI MENGHAFAL AL-QUR’AN PESERTA DIDIK KELAS VIII PADA MATA PELAJARAN BTQ DI MTS MADANI ALAUDDIN PAOPAO

Artikel ini bertujuan: 1) Mendeskripsikan pengaruh kelekatan guru dan peserta didik terhadap motivasi menghafal al-Qur’an peserta didik pada mata pelajaran BTQ di MTs Madani Alaudd...

Karakteristik Peserta Didik Home Schooling Di Lembaga Bumi Baca Ceria

Pendidikan non-formal adalah pendidikan yang dilakukan di luar sistem pendidikan formal. Pendidikan non-formal dapat dilakukan secara berjenjang ataupun tidak berjenjang. Dan peser...

PERAN GURU PAI DALAM MENINGKATKAN KEDISIPLINAN PESERTA DIDIK DI KELAS VII SMP PERSIAPAN TOMI – TOMI KECAMATAN WAESALA KABUPATEN SERAM BAGIAN BARAT

Abstract: The purpose of this study was to determine the role of PAI teachers in improving the discipline of students in the classroom VII SMP Preparation Tomi-Tomi District Waesa...

Email:
Password:

Email:

Pengenalan Ekspresi Wajah Peserta Didik di Ruang Kelas Menggunakan Vision Transformer (ViT)

Related Results