تقنية غوغل الذكية يمكنها سد فجوة اللغة بين الشعوب بالترجمة الفورية
في مارس الماضي ، قدمت Google Live Captions لمتصفحات Chrome ، وهي أداة تستخدم التعلم الآلي لإنشاء الترجمة الفورية لأي مقطع فيديو أو مقطع صوتي ، مما يمنح الصم وضعاف السمع وصولاً أكبر إلى محتوى الإنترنت.
في السابق ، كانت الترجمات إما مبرمجة مسبقًا لتنسيقات الفيديو ، أو كتب الكاتب ترجمات فورية تم بثها على التلفزيون ، ولكن الآن Live Captions ستغير هذا الموقف ببضع نقرات فقط على الشاشة ، ونتيجة لذلك سيتمكن أي مستخدم من تلقيها ترجمات. الاستنساخ الفوري والدقيق للصوت والفيديو.
اقرأ ايضا: ماذا تعرف عن الحوسبة السحابية؟
الترجمة الفورية
تعد Google Live Captions نوعًا من تقنيات معالجة اللغة الطبيعية أو تقنية البرمجة اللغوية العصبية ، وهي نوع من الذكاء الاصطناعي يستخدم الخوارزميات لتسهيل نوع من “التفاعل” بين البشر والآلات. تساعدنا البرمجة اللغوية العصبية على فك تشفير اللغات البشرية إلى لغات الآلة.
تاريخ الحوسبة الذكية
لفهم تاريخ البرمجة اللغوية العصبية ، يجب أن نعود إلى واحد من أكثر العلماء إبداعًا في عصرنا. آلان تورينج. في عام 1950 ، نشر تورينغ نشر آلات الحوسبة والذكاء ، والذي ناقش فكرة أجهزة الكمبيوتر الواعية والتفكير ، وجادل بأنه لا توجد حجة مقنعة ضد فكرة أن الآلات يمكن أن تفكر مثل البشر ، واقترح “لعبة التقليد” ، المعروفة الآن باعتباره “اختبار تورينج” ، قدم طريقة لقياس ما إذا كان بإمكان الذكاء الاصطناعي التفكير من تلقاء نفسه ، وإذا كان بإمكانه خداع الشخص بشكل صحيح للاعتقاد بأن لدى الشخص احتمالية معينة ، فيمكن اعتبار ذلك معقولًا.
بين عامي 1964 و 1966 ، كتب العالم الألماني جوزيف وايزنباوم خوارزمية البرمجة اللغوية العصبية المعروفة باسم ELIZA ، والتي استخدمت تقنيات مطابقة الأنماط لإنشاء محادثة. على سبيل المثال ، في سيناريو محادثة مع “طبيب” كمبيوتر ، إذا قال المريض للكمبيوتر: “رأسي يؤلمني” ، يستجيب الكمبيوتر للطبيب بعبارة مماثلة ، على سبيل المثال: “لماذا لديك صداع؟” يمنح هذا الآن إليزا واحدة من أقدم روبوتات المحادثة.
كانت الثمانينيات نقطة تحول في إنتاج البرمجة اللغوية العصبية. في الماضي ، شكلت أنظمة البرمجة اللغوية العصبية مثل ELISA محادثات تستند إلى مجموعة معقدة من القواعد ، ولم يكن بإمكان الذكاء الاصطناعي “التفكير” بمفرده ، بل كان نوعًا من روبوتات المحادثة التي تستخدم ردودًا “قياسية” وفقًا للسياق. ..
بحلول أواخر الثمانينيات ، كانت البرمجة اللغوية العصبية تركز على النماذج الإحصائية التي ساعدتها على بناء محادثات قائمة على الاحتمالات.
اقرا ايضا: ابل تضيف مميزات Safari إلى هواتف iPhone وأجهزة iPad
كيف تعمل الترجمة الذكية؟
تتضمن تقنية البرمجة اللغوية العصبية الحديثة للتعرف على الكلام بعض المبادئ العامة مثل التعرف على الكلام والتعرف على الصوت وتحديد اللغة وإدخال اليوميات التي يمكن أن تميز بين المتحدثين.
تستخدم Live Captions 3 نماذج للتعلم العميق لتشكيل التفسير: شبكتان عصبيتان متكررتان تعرفان بـ RNNs ؛ أحدهما للتعرف على الكلام ، والآخر لعلامات الترقيم والشبكة العصبية التلافيفية ، أو CNN ، لتصنيف الأحداث الصوتية. ترسل هذه النماذج الثلاثة إشارات تحدد شكل ومسار الترجمة بأكملها ، حتى في وجود الأصوات الموسيقية.
عند التعرف على الكلام في تنسيق الصوت أو الفيديو ، يتم تشغيل التعرف التلقائي على الكلام للسماح للجهاز ببدء تحويل الكلمات إلى نص. عندما تنتهي هذه المحادثة ، على سبيل المثال ، عند تشغيل الموسيقى ، يتوقف النظام عن العمل لحفظ بطارية الهاتف ، وتظهر كلمة “موسيقى” في الترجمة على الشاشة.
عند نمذجة نص الكلام ، يتم تشكيل علامات الترقيم على الجملة الكاملة السابقة ، ويتم تصحيح علامات الترقيم باستمرار حتى لا تتداخل نتائج النظام مع معنى الجملة بأكملها.
حاليًا ، يمكن لـ Live Captions إنشاء ترجمات إرشادية للنص الإنجليزي فقط ، ويتم تحسينها باستمرار وسيتم توسيعها يومًا ما لتشمل لغات أخرى. ومع ذلك ، تتوفر الآن الإصدارات القديمة من الترجمة الإسبانية والألمانية والبرتغالية على Google Meet.
تمثل اللغة فجوة كبيرة بين الناس ، وللتكنولوجيا إمكانات مذهلة لجمع الناس معًا ، ومع هذه التكنولوجيا ومعالجة اللغة الطبيعية ، يمكن سد هذه الفجوة بين الناس لبناء مستقبل أكثر إشراقًا.