دور الذكاء الاصطناعي في فهم اللغات الطبيعية

في هذا الحوار، يناقش الدكتور ديفيد يانج، الأستاذ المشارك في كلية العلوم والهندسة، آفاق الذكاء الاصطناعي التحاوري وتطبيقاته الواسعة

الهيئة:  كلية العلوم والهندسة
أصبح الذكاء الاصطناعي التحاوري ذو أهمية متزايدة في الحياة اليومية

ما هو الذكاء الاصطناعي التحاوري؟ وما الدور الذي يؤديه في فهم اللغة البشرية والاستجابة لها؟

الذكاء الاصطناعي التحاوري هو نوع من الذكاء الاصطناعي يسمح للحاسوبات والأجهزة الذكية بفهم اللغة البشرية والاستجابة لها. ويُستخدم هذا النوع من الذكاء الاصطناعي في روبوتات الدردشة وأدوات المساعدة الرقمية والتطبيقات الأخرى التي تعتمد على معالجة اللغات الطبيعية.

تُقدِم الفقرة المكتوبة أعلاه - بالخط المائل - مثالاً للاستجابة الناتجة عن الإجابة باستخدام واجهة "الذكاء الاصطناعي المفتوح OpenAI " لبرمجة تطبيقات إكمال النص، التي يوظفها نموذج الذكاء الاصطناعي لفهم اللغات الطبيعية. ويمكن ملاحظة أن النص الناتج لم يكن موجودًا من قبل (ويمكن التحقق من ذلك باستخدام وظيفة البحث في محرك جوجل). وتفهم خوارزمية الذكاء الاصطناعي السؤال المطروح بالفعل ثم تقدم إجابة بليغة وموجزة ومباشرة عنه.

كيف تحدث عملية فهم اللغات الطبيعية؟ وما هي التقنيات أو الخوارزميات التي تدعم تلك العملية؟ 

نحن لا نعرف بالضبط كيف تحدث عملية فهم اللغات الطبيعية. لكن ما نعرفه هو كيفية بناء نظام ذكاء اصطناعي لأداء هذا الغرض. وعادةً ما يحدث ذلك باستخدام نموذج تعلم عميق واسع النطاق يتبع بنية المحول، وتدريبه باستخدام مجموعة كبيرة من النصوص التي نحصل عليها من الإنترنت.

وحتى شهر أغسطس 2022، تبدو بنية المحول مفهومة بشكلٍ جيدٍ، وهناك كمية كبيرة من النصوص المتاحة على الإنترنت التي يمكن استخدامها لتدريب هذا النموذج. ومع توافر مصادر الحوسبة الكافية، يمكن لأي شخص بناء نموذج لمعالجة اللغات الطبيعية. ورغم ذلك، ما زلنا لا نملك فهمًا نظريًا جيدًا لكيفية فهم الذكاء الاصطناعي للغات الطبيعية.

ما هي بعض الأمثلة المستخدمة مؤخرًا لمعالجة اللغات الطبيعية؟ وفي أي القطاعات يمكن تطبيقها بشكل أكبر؟

هناك القليل من الأمثلة، حيث يستخدم العديد من الناس، بمن فيهم أنا، تطبيق أبل سيري (أو أمازون إيكو/ جوجل هوم). وفي الوقت الحاضر، فإننا نكتب رسائل بريد إلكتروني في كثير من الأحيان بمساعدة خاصية الإكمال التلقائي للنص، المتاحة في رسائلOutlook  أو Gmail. وتُستخدم هذه العملية أيضًا في خدمة العملاء، حيث توظف العديد من المواقع الإلكترونية روبوتات الدردشة في الإجابة عن أسئلة المستخدمين.

هل هناك أي تطبيقات لهذه التكنولوجيا في قطر؟

من بين الأمثلة الاعتيادية للتكنولوجيا المستخدمة على نطاقٍ واسع في قطر خدمة روبوتات الدردشة، التي تتمتع بقدرات الذكاء الاصطناعي التي توفرها منصات الحوسبة السحابية الرئيسية مثل منصتي Google Cloud وIBM Watson. بالإضافة إلى ذلك، تُعدُ الترجمة الآلية بين اللغتين العربية والإنجليزية من الاستخدامات الشائعة لعملية فهم اللغات الطبيعية.

ما دور البيانات- المنظَّمة أو غير المنظَّمة – في إتاحة إمكانية فهم اللغات الطبيعية؟

البيانات ضرورية في تدريب أي نموذج للذكاء الاصطناعي. وبالنسبة لفهم اللغات الطبيعية، يمكن استخدام البيانات غير المنظَّمة لتدريب نموذج عام، وهي عملية تُعرف أحيانًا باسم "التدريب المسبق". وبعد ذلك، يمكن استخدام البيانات المنظَّمة لتدريب نموذج يقتصر على أداء مهمة محددة، وهي عملية تسمى "الضبط الدقيق". فعلى سبيل المثال، يمكننا تدريب النموذج مسبقًا لفهم اللغة العربية باستخدام بيانات غير منظَّمة نحصل عليها من الإنترنت، ومن ثَّم ضبط النموذج للتفاعل مع المستخدمين في روبوت دردشة خاص بمجال معين مثل خدمة عملاء الاتصالات، باستخدام البيانات المنظَّمة المستمدة من هذا المجال.

وتُعدُ أخلاقيات الذكاء الاصطناعي من النقاط المهمة الأخرى. فعلى سبيل المثال، يميل روبوت الدردشة الذي تلقى تدريبًا في منتديات الإنترنت غير المنظَّمة إلى الرد بلغة مسيئة مثل استخدام الألفاظ النابية والإساءات العرقية. ولتجنب ذلك، يجب "تعقيم" بيانات التدريب عبر التخلص من تلك العينات التي تستخدم لغةً مسيئةً. 

ما هي الطرق التي يمكن للغات أو اللهجات المختلفة أن تفرض من خلالها تحديات لعملية فهم اللغات الطبيعية؟ 

مع انتشار بنية نماذج الذكاء الاصطناعي الحديثة والبيانات الكافية، يتعلم نموذج الذكاء الاصطناعي اللغة في نهاية الأمر. ولا تشكل الصعوبات اللغوية التي نتصورها أو تلك المتعلقة باللهجات التحدي الرئيسي في الواقع، حيث يتمثل التحدي الرئيسي في عدم وجود كمية كبيرة من البيانات المتاحة للجمهور على الإنترنت فيما يتعلق ببعض اللغات الأقل شيوعًا. 

ما نوع البحوث التي تجريها كلية العلوم والهندسة بجامعة حمد بن خليفة في هذا المجال؟

تهدف البحوث التي نجريها إلى تصميم وتطوير أدوات عملية ذات قيمة واضحة لقطاعات الأعمال المحلية. فعلى سبيل المثال، أكملنا مؤخرًا مشروع بحث ممول من الصندوق القطري لرعاية البحث العلمي، بالتعاون مع شركة Ooredoo، لاكتشاف الرسائل النصية الاحتيالية يتميز بقدراته القوية على حماية الخصوصية.

ويركز هذا المشروع، الذي يحظى بتمويل من الصندوق القطري لرعاية البحث العلمي في إطار الدورة العاشرة لبرنامج الأولويات الوطنية للبحث العلمي، على اكتشاف الرسائل الاحتيالية وحماية العملاء وتحسين تجربة العملاء بشكل عام. وقد حصل هذا المشروع على جائزتين أكاديميتين مرموقتين، هما المركز الأول في مسابقة الورشة الرابعة حول معالجة اللغات الطبيعية لحرية الإنترنت في مؤتمر الوسائل التجريبية لمعالجة اللغات الطبيعية 2019 (وهو أحد أفضل المؤتمرات في مجال معالجة اللغات الطبيعية)، وجائزة أفضل ورقة بحثية في مؤتمر قواعد البيانات الضخمة للغاية 2021 (وهو أحد أفضل المؤتمرات في مجال إدارة البيانات الضخمة).