الرئيسية | ملتقى الدوحة الأول.. تعدد لهجات اللغة العربية عائق أمام الذكاء الاصطناعي
  • Print
  • Email
ملتقى الدوحة الأول.. تعدد لهجات اللغة العربية عائق أمام الذكاء الاصطناعي

09 آيار 2019

سلط الملتقى السنوي الأول لمعهد قطر لبحوث الحوسبة، التابع لجامعة حمد بن خليفة، الضوء على التطور الحاصل في مجال تعامل الذكاء الاصطناعي مع اللغة العربية في مجال الصوتيات، وذلك بهدف تعزيز الآفاق ومواجهة التحديات عبر تدريب النظام على الآليات العارضة في اللغة العربية.

المجموعة البحثية التي شاركت في الملتقى، وضمت شركات وجامعات عالمية، ركزت على ثلاثة محاور أولها التعرف إلى الصوت وتحويل النص المنطوق إلى مكتوب، والثاني تحويل النص المكتوب إلى منطوق، والثالث يتعلق بالتعرف إلى لهجات اللغة العربية المختلفة.

وأجمع المشاركون على أن تعامل الذكاء الاصطناعي مع اللغة العربية يواجه تحديات كبيرة، مقارنة مع اللغة الإنجليزية، حيث إن اللغة العربية صعبة في ظل عدم توافر معلومات كافية، فضلا عن تعدد لهجات اللغة العربية من بلد لآخر ومن مدينة لأخرى في البلد نفسه.

وأكد المختص في قسم تقنيات اللغة العربية بمعهد قطر لبحوث الحوسبة أحمد علي، أن الذكاء الاصطناعي يعتمد معلومات مسبقة يتم تعليم النظام بها وتدريبه عليها، وذلك من أجل الاستفادة من التطور الهائل في الذكاء الاصطناعي وتعلم الآلة، واكتساب الخبرة في هذا المجال.

وأوضح أن تدريب النظام على ألف ساعة من الصوت في اللغة العربية وألف ساعة من الكتابة، يجعلنا نصل إلى نسبة دقة 10%، وهي التقنية التي يستخدمها موقع الجزيرة نت خلال السنوات الخمس الماضية، والتي تقوم بتحويل النص المكتوب إلى مقروء في كل التقارير الإخبارية.

وأضاف علي، في تصريح للجزيرة نت، إن المعهد يعمل الآن على تقنيات تعامل الذكاء الاصطناعي مع لهجات اللغة العربية المختلفة، مثل المصرية، والمغربية، والخليجية والشامية، لافتا إلى أن اللغة العربية صعبة، ففي اللغة الإنجليزية إذا كان لديك في النظام 5%، من الكلمات غير موجودة أو لم يسمعها من قبل، فإن البحث يكون في حوالي ثلاثين إلى ستين ألف كلمة، في حين أن العدد في اللغة العربية قد يصل لمليون كلمة.

وتابع أن التحدي يكون أكبر في حالة لهجات اللغة العربية المختلفة، في ظل عدم وجود قواميس لها أو اتفاق على معلومات أو آلية حول طريقة كتابتها، كما أن معظم لهجات اللغة العربية منطوقة وغير مكتوبة، فلا نجد كتابة خاصة باللهجة المصرية أو الخليجية وغيرها، وإن كان الوضع بدأ يتغير في وجود آليات جديدة مثل تويتر وفيسبوك وغيرهما.

واشتمل الملتقى على محاضرات متعددة تمحورت حول تقنيات تعامل الذكاء الاصطناعي، منها محاضرة التعرف على العاطفة وتحليل المشاعر على أساس الكلام ، التي تهم الشركات الخدمية في معرفة رضا العملاء، وكذلك التطبيق الخاص بالحالات الصحية التي تتعرف من خلال الصوت إلى الحالة النفسية للمريض، جنسه وعمره، ومدى سعادته وحزنه.

بدوره، اعتبر الباحث في جامعة كولومبيا الأميركية رامي إسكندر، أن تقنيات الذكاء الاصطناعي في معالجة اللغة العربية صعبة للغاية، في ظل وجود معلومات محدودة وغير كافية بدأ العمل عليها منذ 15 عاما تقريبا، بعكس المعلومات في اللغة الإنجليزية أو الفرنسية المنتشرة والمتاحة للجميع منذ ستين عاما.

وأوضح إسكندر، أن التحدي الأكبر يتمثل في اللغة العربية العامية، لأنها ليست لها طريقة موحدة في الكتابة، حيث تجد كلمة واحدة تكتب بأكثر من طريقة، مما يؤدي إلى حدوث تداخل ومشاكل في الكتابة لا يستوعبها النظام.

وتابع أن تعدد لهجات اللغة العربية واختلافها على مستوى البلدان والمدن يزيد التحديات، الأمر الذي يحتاج إلى نظام ذي كفاءة عالية حتى يتعامل مع كل لهجة مختلفة، وذلك عكس اللغة الإنحليزية التي ليست لديها لهجات كثيرة، سوى اللهجة الإنجليزية، والأميركية، والأسترالية، والهندية، ولكن ليس بالشكل الموجود في اللغة العربية، غير أن طريقة كتابة الإنجليزية موحدة تقريبا بعكس العربية.

المصدر