في هذه المقابلة، نتحدث إلى الدكتور حسن سجاد، أحد كبار العلماء في معهد قطر لبحوث الحوسبة بجامعة حمد بن خليفة، وأحد مؤسسي نظام شاهين للترجمة الآلية، الذي حقق مؤخرًا إنجازًا مهمًا ببلوغهِ هدف ترجمة مليار كلمة.
هل بإمكانك إعطاؤنا لمحة عامة عن "شاهين"؟ كيف بدأ المشروع وما هي مراحل تطويره، وأين هو الآن؟
"شاهين" هو مشروع ترجمة آلية أطلقه فريق معهد قطر لبحوث الحوسبة في عام 2011، كجهد خاص باعتباره منصة رئيسية لمجموعة البحث. وبينما كانت الأساليب الإحصائية أكثر هيمنة عند الانطلاقة، إلا أن التطورات التكنولوجية تحولت خلال السنوات القليلة الماضية نحو أساليب التعلم العميق، وهو ما سعينا إلى تطبيقه عندما أنشأنا "شاهين".
ففي المرحلة الأولى، طوَّرنا أحدث نظام ترجمة آلية لتحويل اللغة العربية الفصحى الحديثة من وإلى الإنجليزية. ومع ظهور وسائل التواصل الاجتماعي، أصبحت اللهجات العربية لغات فعلية للتواصل وخاصة في المحادثات غير الرسمية، مثل تلك التي نراها على تويتر وفيسبوك. ولكن لا يمكن لأنظمة الترجمة المعدة للغة العربية الفصحى الحديثة أن تعمل بشكل جيد مع اللهجات. وفي المرحلة الحالية من المشروع، حققنا إنجازًا كبيرًا من خلال تطوير نظام ترجمة عربي يمكنه ترجمة معظم اللهجات، بالإضافة إلى اللغة العربية المعيارية، إلى اللغة الإنجليزية بفعالية عالية.
هل يمكنك أن تعطينا لمحة عامة عن التقنيات المستخدمة لتطوير أدوات الترجمة للهجات؟
يستخدم "شاهين" نموذج تسلسل إلى تسلسل قائم على المحولات مع ضبط هرمي دقيق لمواءمة نظامنا الحديث لترجمة اللغة العربية الفصحى إلى الإنجليزية والعكس، بهدف ترجمة اللهجات العربية. ويتيح هذا الضبط الهرمي إمكانية التكييف الناجح لنظام الترجمة العام من أجل تعلم الأشكال المختلفة للغة في النظام الواحد والتي هي أنواع مختلفة من اللهجات وأنماطها في حالتنا.
من وجهة نظرك، لماذا هناك حاجة لأنظمة ترجمة اللهجات؟
أصبح العالم مترابطًا في الوقت الحاضر، وصارت الحاجة للوصول إلى المعلومات أكثر وضوحًا من أي وقت مضى. وبات حجم المعلومات التي تُنتج وتنشرُ عبر وسائل التواصل الاجتماعي أكبر بكثير من مصادر المعلومات التقليدية مثل الصحف والتلفزيون وغيرها. ونظرًا للطبيعة غير الرسمية لمحادثات وسائل التواصل الاجتماعي، تظل اللهجات العربية هي أكثر أشكال الاتصال شيوعًا.
وتتيح الترجمة الآلية العديد من التقنيات الأخرى وتسهل مهام استخراج المعلومات وتحليلها وفهمها. بالإضافة إلى ذلك، فإنّها تسهل الاتصال عن طريق تجاوزها لحاجز اللغة. ويمكن لهذا الأمر أن يؤثر أيضًا بشكل مباشر على الاقتصاد ونظام الرعاية الصحية والمجال السياسي وغيرها. فعلى سبيل المثال، سوف تستقطب بطولة كأس العالم لكرة القدم 2022 الناس من جميع أنحاء العالم. ويمكن اعتبار أداة الترجمة التي ستترجم بشكل فعال بين اللهجات العربية والإنجليزية وسيلة أساسية للتواصل.
وفي الوقت الذي تعمل فيه العديد من الأنظمة لدعم الترجمة الآلية من اللغة العربية الفصحى الحديثة إلى الإنجليزية، بُذلت جهودٌ أقل في مجالات ترجمة اللهجات العربية إلى الإنجليزية. ولا يمكن للأنظمة المصممة للغة العربية الفصحى الحديثة أن تترجم اللهجات بشكل جيد، ومن الضروري أن نثري أنظمتنا للتعامل بشكل واضح مع ترجمة اللهجات العربية.
ما هي بعض الجوانب الفريدة للمنصة وكيف يمكن مقارنتها بالمنصات الأخرى الموجودة مسبقًا أو الموجودة الآن؟
يقدم برنامج "شاهين" حلًا واحدًا لعددٍ كبيرٍ من اللهجات العربية، وهو جانب نادرًا ما يُلاحظ مع منصات الترجمة المنافسة. ففي تقييم بشري مكثف لأربع لهجات (النيل والخليج والشام والمغرب)، تفوق شاهين على أنظمة الإنترنت الشائعة، من الترجمة من لهجات النيل والخليج والشام. ولا يزال العمل جاريًا بشأن اللهجة المغاربية، الأمر الذي يتطلب تجميعًا واسع النطاق للبيانات المتعلقة باللهجات.
ما هي بعض مجالات التسويق التجارية ومصادر الإيرادات المحتملة؟
يمكن تطبيق نظام "شاهين" في خلفية أنظمة الترجمة المتعددة المجالات واللهجات، مثل تلك الموجودة في قناة الجزيرة، حيث قد يتحدث الأشخاص الذين تجري مقابلتهم أحيانًا لهجات مختلفة أو قد تكون المقابلة حول مجالات متخصصة مثل التعليم أو الموضوعات الطبية. كما تشمل مجالات الاستخدام المحتملة الأخرى، القدرة على ترجمة المحتوى العربي على وسائل التواصل الاجتماعي إلى اللغة الإنجليزية لنشر المعلومات بشكل أفضل، ولسد الفجوة اللغوية.
هل يسهل التقدم التكنولوجي تفوق نظام شاهين على الأنظمة الأخرى في المجال، أم يصعبه؟
صحيح أن المنافسة شرسة بالنظر إلى أن عمالقة التكنولوجيا مثل جوجل لديهم كمية هائلة من البيانات وقدرات حوسبة جبَّارة. ولكن ومن ناحية أخرى، يتخصص "شاهين" في التعامل مع التعقيدات اللغوية للغة العربية على وجه التحديد، وقد صارَ الآن قادرًا على ترجمة اللهجات، وهذا بالضبط ما يعطينا ميزة تنافسية مقارنة بشركات الترجمة الأخرى. نريد بالفعل أن نضمن أفضل أداء، وقد عملنا بشكل استباقي على إنشاء بيانات لمجموعة كبيرة ومتنوعة من اللهجات العربية ونستكشف باستمرار الأساليب المستجدة حديثًا التي يمكن دمجها في نظام "شاهين" لتعزيز جودة الترجمة.
يتألف فريق الدكتور حسن سجاد من العالم نادر دوراني، وكبار مهندسي البرمجيات أحمد عبد العلي وحمدي مبارك ومهندس البرمجيات فهيم دالفي في معهد قطر لبحوث الحوسبة. للمزيد من المعلومات حول المنصة، يرجى زيارة https://mt.qcri.org/demos/dialect/