| Titre : | Integration and Quality Management of Data from Heterogeneous Sources |
| Auteurs : | BEKKOUCHE Yasser, Auteur ; CHAREF Hicham, Auteur ; Benyahia Miloud, Directeur de thèse |
| Type de document : | texte manuscrit |
| Editeur : | University of Saida - Dr Moulay Tahar. Faculty: Mathematics, Computer Science and Telecommunications Department: Mathematics, 20235/2026 |
| Format : | 74ص |
| Accompagnement : | CD |
| Langues: | Anglais |
| Index. décimale : | BUC-M 008533 |
| Catégories : |
Master en informatique Speciality: Computer Networks and Distributed Systems |
| Mots-clés: | Data Quality, Record Linkage, Deduplication, Blocking, Blocking Key Selection, Artificial Bee Colony (ABC), Woodpecker Optimization Algorithm (WPO), Swarm Intelligence, Pair Completeness (PC), Data Integration, Optimization Qualité des données, Couplage d'enregistrements, Déduplication, Blocage, Sélection des clés de blocage, Artificial Bee Colony (ABC), Algorithme d'optimisation du pic-bois (WPO), Intelligence en essaim, Pair Completeness (PC), Intégration des données, Optimisation جودة البيانات، ربط السجالت، إزالة التكرار، التجميع االنتقائي، اختيار مفاتيح التجميع، خوارزمية مستعمرة النحل االصطناعية، خوارزمية تحسين نقار الخشب، ذكاء األسراب، اكتمال األزواج، تكامل البيانات، التحسين |
| Résumé : |
Abstract
Data quality has become a fundamental issue in modern information systems, due to the continuous growth of data generated from multiple heterogeneous sources. One of the most important tasks in this field is Record Linkage (RL), which aims to identify records referring to the same real-world entity across one or several datasets. However, this process involves a high computational cost when applied to large volumes of data, as it requires performing comparisons between a very large number of records. To address this challenge, blocking techniques are commonly employed to reduce the search space by grouping potentially matching records into common blocks. The success of this operation depends largely on the appropriate selection of blocking keys, which has led to automatic blocking key selection being considered an important optimization problem. This dissertation proposes an integrated Record Linkage framework based on three complementary optimization techniques. First, the Artificial Bee Colony (ABC) algorithm, inspired by the foraging behavior of honeybee colonies, is used to automatically select the optimal subset of blocking keys that maximizes the Pair Completeness (PC) metric, using transformation functions such as Soundex, NYSIIS, First_N_Chars, and Last_N_Chars. Second, K-Modes clustering is applied to improve the balance of the generated blocks. Third, the Woodpecker Optimization Algorithm (WPO) is employed during the matching phase to optimize similarity weights and decision thresholds, thereby enhancing duplicate detection accuracy. The system was developed in Python and integrated into a user-friendly web application. The obtained results demonstrate the ability of this framework to identify effective blocking key subsets, reduce the search space, and improve the overall efficiency of the Record Linkage process while maintaining a high level of matching quality. These findings confirm the potential of swarm intelligence techniques and metaheuristic algorithms as promising solutions for data quality improvement in large-scale Record Linkage applications. La qualité des données représente aujourd’hui un défi majeur dans les systèmes d’information modernes, en raison de l’augmentation rapide des données issues de sources multiples et hétérogènes. Parmi les principales techniques utilisées pour améliorer cette qualité, le couplage d'enregistrements (Record Linkage) permet d’identifier les enregistrements faisant référence à une même entité réelle. Cependant, ce processus devient coûteux en termes de calcul lorsqu’il est appliqué sur de grands volumes de données, car il nécessite un nombre important de comparaisons. Afin de résoudre cette problématique, les techniques de Blocking sont utilisées pour réduire l’espace de recherche en regroupant les enregistrements susceptibles de correspondre dans des blocs. La performance de cette étape dépend principalement du choix des Blocking Keys, ce qui transforme leur sélection en un problème d’optimisation. Dans ce mémoire, nous proposons un cadre intégré basé sur trois techniques d’optimisation. Premièrement, l’algorithme Artificial Bee Colony (ABC) est utilisé pour sélectionner automatiquement le meilleur sous-ensemble de clés de blocage en maximisant la métrique Pair Completeness (PC), à travers des fonctions de transformation telles que Soundex, NYSIIS, First_N_Chars et Last_N_Chars. Deuxièmement, le clustering K-Modes est intégré afin d’améliorer l’équilibre des blocs générés et de réduire les comparaisons inutiles. Troisièmement, l’algorithme Woodpecker Optimization Algorithm (WPO) est appliqué dans la phase de Matching afin d’optimiser les poids des mesures de similarité et les seuils de décision, améliorant ainsi la précision de détection des doublons. Le système proposé a été développé en Python et intégré dans une application web facilitant son utilisation. Les résultats obtenus montrent que cette approche permet de réduire efficacement l’espace de recherche, d’améliorer les performances du processus de couplage d’enregistrements et de maintenir une bonne qualité de correspondance. Cette étude confirme ainsi le potentiel des techniques d’intelligence en essaim et des algorithmes métaheuristiques pour améliorer les systèmes de Record Linkage à grande échelle. أصبحت جودة البيانات من المسائل الجوهرية في أنظمة المعلومات الحديثة، نظرا ً للتزايد المستمر في حجم البيانات المُنتَجة من مصادر متعددة ومتباينة. ومن أبرز المهام في هذا اإلطار عمليةربط السجالت(Record Linkage)، التي تهدف إلى تحديد السجالت المتعلقة بالكيان الحقيقي ذاته عبر مجموعة بيانات واحدة أو أكثر. غير أن هذه العملية تنطوي على تكلفة حسابية مرتفعة حين تُطبَّق على مجموعات بيانات ضخمة، إذ يستلزم األمر إجراء مقارنات بين أعداد كبيرة جدا ً من السجالت. للتغلب على هذا التحدي، يُلجأ عادة ً إلى تقنياتالتجميع االنتقائي(Blocking)، التي تُسهم في تقليص فضاء البحث عن طريق تجميع السجالت المحتمل تطابقها ضمن كتل مشتركة. ويتوقف نجاح هذه العملية إلى حد بعيد على حسن اختيارمفاتيح التجميع (Blocking Keys)، وهو ما دفع إلى اعتبار االختيار التلقائي لهذه المفاتيح مسألة ً تحسينية ً بالغة األهمية. تقترح هذه المذكرة إطارا ً متكامال ً لربط السجالت يعتمد على ثالث تقنيات تحسينية مترابطة. أوالً، تُوظَّفخوارزمية مستعمرة النحل االصطناعية(Artificial Bee Colony - ABC)، المستوحاة من سلوك النحل في البحث عن الغذاء، الختيار المجموعة الفرعية المثلى من مفاتيح التجميع التي تُعظّم مقياساكتمال األزواج(Pair Completeness - PC)، وذلك باستخدام دوال تحويل من قبيل: SoundexوNYSIISوFirst_N_CharsوLast_N_Chars.ثانياً، يُطبَّقتجميعK-Modesلتحسين توازن الكتل المُولَّدة. وثالثاً، يُستخدمخوارزمية تحسين نقار الخشب(Woodpecker Optimization Algorithm - WPO) في مرحلة المطابقة لضبط أوزان التشابه وعتبات القرار، مما يُعزز دقة اكتشاف التكرارات. تم تطوير النظام بلغةPythonوإدماجه ضمن تطبيق ويب سهل االستخدام. وقد أثبتت النتائج المتحصَّل عليها قدرة هذا اإلطار على تحديد مجموعات فعّالة من مفاتيح التجميع، وتقليص فضاء البحث، وتحسين كفاءة عملية ربط السجالت مع الحفاظ على مستوى عال ٍ من جودة المطابقة. تُكرّس هذه النتائج إمكانية تقنياتذكاء األسراب(Swarm Intelligence)والخوارزميات الميتاهيوريستية بوصفها حلوال ً واعدة لتحسين جودة البيانات في تطبيقات ربط السجالت على النطاق الواسع. |
Exemplaires
| Code-barres | Cote | Support | Localisation | Section | Disponibilité |
|---|---|---|---|---|---|
| aucun exemplaire |
Documents numériques (1)
BUC-M 008533 Adobe Acrobat PDF |

