Search engine for discovering works of Art, research articles, and books related to Art and Culture
ShareThis
Javascript must be enabled to continue!

Adaptive deep learning system for writer identification in historical arabic documents

View through CrossRef
Identification des auteurs des documents arabes historiques en utilisant des techniques de l'apprentissage profond Cette thèse présente un système adaptatif basé sur l'apprentissage profond pour l'identification des documents historiques Arabes non identifiés. Ce problème a toujours été une limitation pour l'étude des textes historiques, dont beaucoup de documents manquent d'informations sur leur origine, leur date, leurs auteurs et leurs caractéristiques paléographiques. Durant la dernière décennie, plusieurs travaux ont été publiés pour résoudre ce problème. Cependant, beaucoup d'ambiguïtés et de défis subsistent dans ce domaine. D'un autre côté, le manque des bases de données en Arabe a limité les progrès des algorithmes de test. Dans le cadre de notre travail au Centre des Humanités Numériques de l'Université de Balamand, nous avons constaté le besoin d'un système automatisé qui fonctionne sur la récupération des auteurs et copistes de documents historiques non identifiés. Ce centre possédait une large base de données unique qui contient un grand registre de manuscrits et de documents arabes historiques numérisés et transcrits. Il s'agit de plus de 567 manuscrits appartenant au centre et des centaines importés de différentes régions du Moyen-Orient. Cet immense corpus est défini par les caractéristiques importantes suivantes: un grand volume de patrimoine textuel conservé, une grande variété de formats de texte, une large période couverte (du XIIIe au XIXe siècle), une vaste étendue géographique (du Moyen-Orient et d'Afrique du Nord) et une grande variété de Vorlagen (traductions). Dans le cadre de cette thèse, une étude bibliographique a été réalisée pour étudier la performance de différents systèmes d'identification et de vérification existant. Par conséquent, nous avons étudié et proposé un système basé sur "Scale-Invariant Feature Transform" comme méthode d'extraction de caractéristiques couplé à un réseau de neurones convolutifs. Le système a été testé sur quatre grands ensembles de données différents : deux bases de données historiques latins, une base de données arabe moderne et la base de données de documents arabes historiques du centre de Balamand. Ce système a décroché la première position au concours ICFHR20. Notre système basé sur le réseau de neurones convolutifs a démontré son efficacité et précision dans la prédiction des auteurs pour les deux catégories : documents Latin et Arabes. De plus, l'intégration de ResNet dans e modèle a donné des résultats bien meilleurs pour la classification que les autres méthodes existantes traditionnelles.D'un autre côté, pour améliorer la précision de notre méthode nous avons étudié un système système end-to-end basé sur l'Apprentissage profond comme une solution unique, au lieu des systèmes multi-pipelines traditionnels. Les résultats obtenus montre que notre système assure une meilleure précision (96.4 % mAP et 99.2 % accuracy) en comparant avec les différentes autres méthodes multi pypeline et end-to-end existante.
Agence Bibliographique de l'Enseignement Supérieur
Title: Adaptive deep learning system for writer identification in historical arabic documents
Description:
Identification des auteurs des documents arabes historiques en utilisant des techniques de l'apprentissage profond Cette thèse présente un système adaptatif basé sur l'apprentissage profond pour l'identification des documents historiques Arabes non identifiés.
Ce problème a toujours été une limitation pour l'étude des textes historiques, dont beaucoup de documents manquent d'informations sur leur origine, leur date, leurs auteurs et leurs caractéristiques paléographiques.
Durant la dernière décennie, plusieurs travaux ont été publiés pour résoudre ce problème.
Cependant, beaucoup d'ambiguïtés et de défis subsistent dans ce domaine.
D'un autre côté, le manque des bases de données en Arabe a limité les progrès des algorithmes de test.
Dans le cadre de notre travail au Centre des Humanités Numériques de l'Université de Balamand, nous avons constaté le besoin d'un système automatisé qui fonctionne sur la récupération des auteurs et copistes de documents historiques non identifiés.
Ce centre possédait une large base de données unique qui contient un grand registre de manuscrits et de documents arabes historiques numérisés et transcrits.
Il s'agit de plus de 567 manuscrits appartenant au centre et des centaines importés de différentes régions du Moyen-Orient.
Cet immense corpus est défini par les caractéristiques importantes suivantes: un grand volume de patrimoine textuel conservé, une grande variété de formats de texte, une large période couverte (du XIIIe au XIXe siècle), une vaste étendue géographique (du Moyen-Orient et d'Afrique du Nord) et une grande variété de Vorlagen (traductions).
Dans le cadre de cette thèse, une étude bibliographique a été réalisée pour étudier la performance de différents systèmes d'identification et de vérification existant.
Par conséquent, nous avons étudié et proposé un système basé sur "Scale-Invariant Feature Transform" comme méthode d'extraction de caractéristiques couplé à un réseau de neurones convolutifs.
Le système a été testé sur quatre grands ensembles de données différents : deux bases de données historiques latins, une base de données arabe moderne et la base de données de documents arabes historiques du centre de Balamand.
Ce système a décroché la première position au concours ICFHR20.
Notre système basé sur le réseau de neurones convolutifs a démontré son efficacité et précision dans la prédiction des auteurs pour les deux catégories : documents Latin et Arabes.
De plus, l'intégration de ResNet dans e modèle a donné des résultats bien meilleurs pour la classification que les autres méthodes existantes traditionnelles.
D'un autre côté, pour améliorer la précision de notre méthode nous avons étudié un système système end-to-end basé sur l'Apprentissage profond comme une solution unique, au lieu des systèmes multi-pipelines traditionnels.
Les résultats obtenus montre que notre système assure une meilleure précision (96.
4 % mAP et 99.
2 % accuracy) en comparant avec les différentes autres méthodes multi pypeline et end-to-end existante.

Related Results

Arabic Language Teaching in Arabic Preparatory Schools
Arabic Language Teaching in Arabic Preparatory Schools
This study aims to highlight, describe and analyse the experiment conducted at the Arabic Preparatory School for Girls in Bandar Seri Begawan (SPABSB) and explore how it can be uti...
Teaching Media in the Teaching of Arabic Language/ Media Pembelajaran dalam Pembelajaran Bahasa Arab
Teaching Media in the Teaching of Arabic Language/ Media Pembelajaran dalam Pembelajaran Bahasa Arab
This article discusses the media of learning Arabic language, through library studies that focus on distributing material effectively to students without making them boring. The li...
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
CREATING LEARNING MEDIA IN TEACHING ENGLISH AT SMP MUHAMMADIYAH 2 PAGELARAN ACADEMIC YEAR 2020/2021
The pandemic Covid-19 currently demands teachers to be able to use technology in teaching and learning process. But in reality there are still many teachers who have not been able ...
Difficulties of Non-Arabic Study Program Students in Arabic Teaching and Learning Process at ITB AAS Indonesia
Difficulties of Non-Arabic Study Program Students in Arabic Teaching and Learning Process at ITB AAS Indonesia
This study investigates the difficulties of Non-Arabic study program students in Arabic learning at ITB AAS Indonesia. This research uses descriptive qualitative. This study involv...
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
Selection of Injectable Drug Product Composition using Machine Learning Models (Preprint)
BACKGROUND As of July 2020, a Web of Science search of “machine learning (ML)” nested within the search of “pharmacokinetics or pharmacodynamics” yielded over 100...
Concept of Arabic Language Learning Management Strategy in Madrasah
Concept of Arabic Language Learning Management Strategy in Madrasah
Arabic language learning management strategy will be explained in this study. The purpose of this study is to examine and discuss the actual concept of Arabic language learning str...
Arabic Learning for Academic Purposes
Arabic Learning for Academic Purposes
This study aimed to determine the goal of teaching Arabic for Academic purposes. Teaching Arabic for non-Arabic speakers is generally divided into two types: Arabic language for li...

Back to Top