يتحدث البشر أكثر من 7 آلاف لغة، ومن بين تلك اللغات يوجد أكثر من 4 آلاف لغة مكتوبة والبقية لغات متكلمة فقط، أو كما يطلق عليها “لغات منخفضة الموارد”، ولكن حتى اللغات المكتوبة لا تصلح دائما للترجمة الإلكترونية, ففي الواقع هناك ما يزيد قليلا عن 100 لغة يمكن لمحركات الترجمة التلقائية، مثل ترجمة جوجل، العمل بها.

وهذا يترك فجوة هائلة في التواصل عبر اللغات، والتي تتطلع وكالة نشاط مشاريع أبحاث المخابرات المتقدمة، وهي ذراع أبحاث الاستخبارات الأمريكية، إلى سدها من خلال تمويل فرق بحثية مختلفة لتطوير نظام يمكنه العثور على المعلومات وترجمتها وتلخيصها من أي لغة منخفضة الموارد، بحسب بي بي سي.

ما هي اللغة منخفضة الموارد؟

يجري ترجمة اللغات الشائعة مثل الإنجليزية والإسبانية والفرنسية والألمانية بكثرة من قبل المؤسسات متعددة اللغات مثل البرلمان الأوروبي، الذي أصدر في السنوات العشر الماضية 1.37 مليار كلمة بـ 23 لغة، جرى نشر الكثير منها على الإنترنت، مما يسهل الوصول إليه من قبل محركات ترجمة التي تستخدم الذكاء الاصطناعي.

وتتعلم الخوارزميات التي تشغل أنظمة الترجمة من مجموعات البيانات الضخمة التي قام البشر بترجمتها. وتظهر محدودية تلك الأنظمة عندما تطلب ترجمة اللغات التي يجري التحدث بها على نطاق واسع ولكن لا تنشر بنفس القدر بترجمات عالية الجودة.

كيف يعمل النموذج الجديد؟

يستخدم النموذج المستحدث تقنية الشبكة العصبية التي تحاكي الفكر البشري، وتسمح لنظم الذكاء الاصطناعي بفهم معنى الكلمات والجمل بدلا من حفظها فقط. ويبدو المفهوم بسيطا، لكن التحدي يكمن في تقليل كمية البيانات التي تحتاجها الشبكة لتكون قادرة على تحقيق النتائج المرجوة.

إستخدم الآلات

وتقول ريجينا بارزيلاي، الباحثة بمعهد ماساتشوستس للتكنولوجيا، “عندما تدرس لغة، لن ترى أبدا كمية البيانات التي تستخدمها أنظمة الترجمة الآلية اليوم لتعلم الترجمة من الإنجليزية إلى الفرنسية” مضيفة “ترى جزءا صغيرا يجعلك قادرا على التعميم وفهم الفرنسية.

وبنفس الطريقة، تريد أن نرى الجيل التالي من أنظمة الترجمة الآلية التي يمكنها القيام بعمل رائع حتى دون وجود هذا النوع من السلوك المتعطش للبيانات”, ويمكن تدريب الشبكات العصبية مسبقا لفهم السمات العامة وتركيبات الجمل

مما يسمح للباحثين بجمع بيانات أحادية اللغة من اللغات منخفضة الموارد عبر الإنترنت. وبمجرد التدريب المسبق على العديد من اللغات، يمكن للنماذج العصبية تعلم الترجمة بين اللغات باستخدام القليل جدا من مواد التدريب ثنائية اللغة.

المصدر : Egypt14

Humans speak more than 7 thousand languages, and among those languages ​​there are more than 4 thousand written languages ​​and the rest are only speaking languages, or as they are called “low-resource languages”, but even written languages ​​are not always suitable for electronic translation, in fact there are little more than More than 100 languages ​​automatic translation engines, such as Google Translate, can work in.

This leaves a huge gap in cross-language communication, which the Advanced Intelligence Research Projects Activity Agency, the US intelligence research arm, is looking to fill by funding various research teams to develop a system that can find, translate and summarize information from any low-resource language, according to the BBC.

What is a low-resource language?

Popular languages ​​such as English, Spanish, French and German are being widely translated by multilingual institutions such as the European Parliament, which in the past ten years has issued 1.37 billion words in 23 languages, many of which have been published on the Internet, making it easily accessible by intelligent translation engines. Artificial.

The algorithms that power translation systems learn from the huge data sets that humans have translated. The limitations of these systems arise when they require translation of languages ​​that are widely spoken but not published as much with high-quality translations.

How does the new model work?

The new model uses neural network technology that simulates human thought and allows artificial intelligence systems to understand the meaning of words and sentences instead of just memorizing them. The concept seems simple, but the challenge is to reduce the amount of data the network needs to be able to achieve the desired results.

Use machines

"When you study a language, you will never see the amount of data that machine translation systems use today to learn English-to-French translation," says Regina Barzilai, a researcher at the Massachusetts Institute of Technology, "adding" you see a small part that makes you able to generalize and understand French.

Likewise, you want to see the next generation of machine translation systems that can do a great job even without this kind of data-hungry behavior. ”Neural networks can be pre-trained to understand general features and sentence structures.

This allows researchers to collect monolingual data from under-resourced languages ​​on the Internet. Once pre-trained in several languages, neural models can learn to translate between languages ​​using very little bilingual training material.

Source: Egypt14

Post a Comment