خوارزمية SoundX لمقارنة الكلمات على اساس النطق



في عام 1935 قامت هيئة الإحصاء الامريكية بتصميم خوارزمية SoundX , و هي خوارزمية تقوم بتحويل الكلمات إلى ما يسمى (اكواد SoundX) ثابتة الطول
تقوم الخوارزمية على تقسيم الكلمات المتشابهة صوتيا في مجموعات مبنية على صفات صوتية مميزة اي ان كلمات بينها اختلافات فى طريقة الكتابة لها نفس كود soundX ونفس النطق
وهذه الخوارزمية مستخدمة بكثرة ومدعومة من قواعد بيانات ك  PostgreSQL , MySQL
قواعد الخوارزمية
b, f, p, v → 1
c, g, j, k, q, s, x, z → 2
d, t → 3
l → 4
m, n → 5
r → 6
لتشفر اسما ما فإن الخوارزمية تحفظ الحرف الأول من الاسم ثم تستبتدل الأحرف الصامتة التي تليه بالقيم الرقمية المعروضة في الجدول السابق , اما الاحرف الصوتية و كذلك الأحرف ( h, w , y ) يتم تجاهلها لأن المعلومات الصوتية التي تقدمها هذه الحروف تسبب غاليا لبسا او غموضا عندما ترفق مع حروف أخرى.
اذا ما جاء حرف صامت متكررا وراء نفسه فإنه يمثل لمرة واحدة في الكود .
هذه هي خوارزمية SoundX بأبسط صيغها حيث تم تطوير اصدارات من الخوارزمية تتمتع بدقة تمييز صوتية أعلى لكنها اكثر تعقيدا ففي احدى الاصدارات يتم تبديل المحرف x بالمحرف ecs قبل عملية إنشاء كود SoundX مثلا او تم تقسيم الاحرف إلى مجموعات اكثر تفصيلا.
اذا سيتقسم عملنا إلى ما يلي :
– إبقاء الحرف الاول من الاسم .
– استبدال الاحرف (a, e, i, o, u, h, w,y) بالرقم 0
– استبدال الاحرف (b, f, p, v) بالرقم 1
– استبدال الاحرف (c, g, j, k, q, s, x, z) بالرقم 2
– استبدال الاحرف (d, t) بالرقم 3
– استبدال الحرف (l) بالرقم 4
– استبدال الاحرف (m, n) بالرقم 5
– استبدال الحرف r بالرقم 6
بعدها نخزن الكود الناتج عن كلمة و عندما يدخل المستخدم كلمة نقوم بالبحث عن الكلمات التي لها نفس الكود الصوتي

شارك الموضوع

مواضيع ذات صلة