तामाङ-नेपाली यान्त्रिक अनुवाद प्रणाली : चुनौती, प्रगति र भावी योजना

डा. बालकृष्ण बल सह-प्राध्यापक, काठमाडौं विश्वविद्यालय
काठमाडाैं

१. परिचय

यान्त्रिक अनुवाद प्रणाली याने कि Machine Translation(MT) System भन्नाले एक भाषामा भएको पाठलाई अर्को भाषामा अनुवाद गर्ने सफ्टवेयर एप्लिकेशन भन्ने बुझ्नु पर्दछ । यस्तो प्रणालीको प्रयोग विभिन्न अवस्था र क्षेत्रमा गर्न सकिने भएकाले पछिल्लो समयमा यसको विकास र शोधमा धेरैको चासो र लगानी रहने गरेको छ । जहाँसम्म तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीको कुरा छ, यो तामाङ भाषाको पाठलाई नेपाली भाषामा र नेपाली भाषाको पाठलाई तामाङ भाषामा अनुवाद गर्ने अभिप्रायले शोध र विकासको क्रममा रहेको परियोजना हो । भाषाको प्रबर्धन र अभिलेखीकरणमा यस्तो प्रणालीको अहम् भूमिका हुन्छ । अहिलेको एक्काइसौं शताब्दीमा इन्टरनेटले प्रदान गर्ने अथाह ज्ञानको भण्डारको भाषिक माध्यम भने प्रायः अङ्ग्रेजी नै हुने सन्दर्भमा पनि यस्तो प्रणालीको उपादेयता थप देखिन्छ । यो हिसाबले विभिन्न भाषिक समुदाय बिच यान्त्रिक प्रणालीले सेतुको भूमिका निर्वाह गर्दछ । आर्टिफिसियल इन्टिलिजेन्स (AI), नेचुरल ल्याङ्ग्वेज प्रोसेसिङ (NLP), मसिन लर्निङ (ML) लगायतका प्रविधिको प्रयोग र विकास गरी यन्त्रलाई पनि मानव जत्तिकै बौद्धिक र बुद्धिमान बनाउने मानव जातिकै पछिल्लो उत्कृष्ठ प्रयास हो ।

२. यान्त्रिक अनुवाद प्रणालीको उद्देश्य

यहाँनिर एउटा मूल कुरा के स्पष्ट पार्न जरूरी हुन्छ भने कुनै पनि हिसाबले यान्त्रिक प्रणाली निर्माणको उद्देश्य मानव अनुवादकहरूलाई विस्थापित गर्ने हैन । यसको प्रमुख उद्देश्य भनेको एक भाषी र अर्को भाषीबिच सञ्चार सहज गराउने मात्र हो। त्यस हिसाबले एक भाषामा लेखिएको पाठलाई अर्थगत र व्याकरणगत हिसाबले ७५/८० प्रतिशत शुद्ध अनुवाद दिन सकेमा कुनै पनि यान्त्रिक प्रणालीको सफलता मानिन्छ ।


३. शब्दकोश र यान्त्रिक प्रणालीका बिच फरक

झट्ट सुन्दा र हेर्दा हामीहरूमध्ये धेरैलाई यान्त्रिक प्रणाली र शब्दकोशको निर्माण पद्दति उही पो हो कि भन्ने किसिमको भ्रम पर्न सक्छ तर यी दुईका बिच सैद्धान्तिक, प्राविधिक र व्यवहारिक तीनै पक्षका हिसाबले हेर्दा फरकपना छन् । हुन त यान्त्रिक प्रणालीको निर्माण गर्ने पनि विभिन्न विधिहरू छन् र अवलम्बन गरिएको विधिले पनि धेर थोर फरक त पार्छ नै । यद्यपि मूलतः शब्दकोश भन्नाले एउटा शब्दहरूको सङ्ग्रह हो र सफ्टवेयरमा राखिएको त्यस्तो शब्दहरूको सङ्ग्रहमा हामीले खोजेको शब्द भए नभएको आधारमा त्यसको अर्थ खोजेर दिन्छ । यान्त्रिक प्रणालीका हकमा भने यसले शब्दमा मात्र सीमित नभई सिङ्गो वाक्य वा वाक्यांशलाई नै अनुवाद गर्ने कोसिस गर्दछ । कुनै खास शब्द यस प्रणालीमा पूर्ववत् रूपमा नराखिएको अवस्थामा पनि त्यस शब्दसँग मिल्दोजुल्दो सन्दर्भहरूलाई खोजेर यान्त्रिक अनुवाद प्रणालीले अनुवाद गर्ने कोसिस गर्छ । त्यस अर्थमा यान्त्रिक अनुवाद प्रणाली नयाँ नयाँ शब्दहरू मात्र नभई ती शब्दहरूसँग जोडिएका सन्दर्भहरूलाई हेर्दै सिक्दै अघि बढ्छ । यान्त्रिक अनुवाद प्रणाली निर्माणका लागि प्रमुख रूपमा श्रोत र लक्षित भाषा (जस्तै नेपाली-तामाङ)को समानान्तर पाठ सङ्ग्रह चाहिन्छ । समानान्तर पाठ सङ्ग्रह अथवा प्यारालल कर्पस भन्नाले वाक्यको स्तरमा प्रत्येक नेपाली वाक्यको तामाङ भाषामा अनुवादित वाक्य हुन आवश्यक हुन्छ । यान्त्रिक प्रणालीले अनुवाद गर्न प्रयोग गर्ने मूख्य ज्ञानको स्रोत यही समानान्तर पाठ सङ्ग्रह भएकाले यस पाठ सङ्ग्रह बनाउँदा विशेष सतर्कता र सावधानी अपनाई अनुवादको गुणस्तर उच्चतम रहेको सुनिश्चित गर्नु पर्दछ । अनुवादित वाक्य तयार पार्न दुवै श्रोत र लक्षित भाषामा राम्रो दखल राख्ने व्यक्तिको संलग्नता हुन जरूरी हुन्छ । शब्दकोशको ज्ञानको दायरा शब्दको सङ्ख्याले निर्धारण गर्छ भने यान्त्रिक अनुवाद प्रणालीको ज्ञानको दायराका साथै अनुवाद गर्ने क्षमता यही समानान्तर कर्पसले निर्धारण गर्दछ । तामाङ-नेपाली समानान्तर पाठ सङ्ग्रहमा अहिले कूल समानान्तर वाक्यको सङ्ख्या १२,८०० छ ।

४. तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीको प्राविधिक आधार

तामाङ नेपाली यान्त्रिक प्रणालीले यान्त्रिक प्रणाली विकासको दुनियाँमा अहिलेकै सबभन्दा बढी प्रयोगमा ल्याइएको Transform Architecture लाई आत्मसात गरेको छ । यान्त्रिक अनुवाद प्रणालीको कार्य सम्पादन र क्षमता मापन गर्ने अङ्क BLEU score मानिन्छ । यस अङ्कको दायरा 0-100 हुन्छ र जत्ति बढी अङ्क हासिल गर्न सकियो त्यत्ति नै बढी कार्यसम्पादन र क्षमता उक्त प्रणालीको हुन्छ । भाषागत स्रोत र संसाधनका आधारमा उन्नत मानिने फ्रेन्च-अङ्ग्रेजी भाषाको BLEU score सन् २०१८ को रिपोर्टअनुसार 45.60 छ । तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीको हालको BLEU score 18.28 छ ।

५. तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीका चुनौतीहरू

तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीको मुख्य चुनौती भनेको नै समानान्तर पाठ सङ्ग्रहको अभाव हो । तामाङ वा अङ्ग्रेजीमा उल्लेख्य पाठ सामग्री उपलब्ध भएता पनि समानान्तर पाठ उपलब्ध नहुँदा हामीलाई ठूलै समस्या परेको छ । यो बाहेक यस परियोजनाप्रति समग्र तामाङ समुदायबाट अपेक्षित उत्साह, प्रोत्सहान र समर्थन प्राप्त नहुँदा चाहेअनुसारको उपलब्धी हासिल गर्न सकिएको छैन । यसो हुनमा तामाङ समुदायले आफ्नो भाषाको प्रबर्धन, अभिलेखीकरण र प्रशिक्षणका अलावा शिक्षा, पर्यटन, स्वास्थ्यलगायतका क्षेत्रहरूमा यस प्रणालीले पुर्याेउन सक्ने सहयोगका बारे यथेष्ट रूपमा जागरूक नभएको कारणले नै हो भन्ने अनुमान लगाउन सकिन्छ । युवा र नयाँ पुस्तामाँझ लगभग प्रयोगका हिसाबले लोप हुँदै गइरहेको तामाङ भाषा जोगाई राख्ने उत्तम उपाय यान्त्रिक अनुवाद प्रणाली हुन सक्छ । यसका अतिरिक्त तामाङ भाषाको बाहुल्य रहेको क्षेत्रमा पठन पाठनकै सन्दर्भमा इन्टरनेटबाट अङ्ग्रेजी/नेपालीमा उपलब्ध जानकारी र ज्ञानलाई तामाङमा अनुवाद गरी प्रदान गर्न सकिने व्यवस्था पनि यस प्रणालीका माध्यमबाट गर्न सकिन्छ । देश तथा विदेशमा छरिएर रहेका तामाङ समुदायलाई यस प्रणालीको थप शोध तथा विकासका लागि समर्थन र सहयोग जुटाउन आव्हान गर्नु अत्यन्त आवश्यक भैसकेको स्थिति छ किनकि तामाङ भाषाको उन्नयन प्रविधि वा गैर प्रविधि जुनै तरिकाले गर्ने प्रमुख दायित्व पनि यसै समुदायको हुन आउँछ । त्यस्तो समर्थन र सहयोग आर्थिक रूपमा मात्र नभई भाषिक ज्ञान र प्राविधिक हिसाबले पनि गर्न सकिन्छ ।

६. तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीका भावी योजनाहरू

सुरुमा तामाङ-नेपाली-अङ्ग्रेजी तीन भाषामा पाँच पाँच लाख समानान्तर वाक्यहरू (कुल पन्ध्र लाख समानान्तर वाक्यहरू) निर्माण गर्ने महत्वकांक्षी योजना राखिएको भएता पनि व्यवहारिक हिसाबले त्यसलाई चरणबद्ध रूपमा लाने र पहिलो चरणमा तामाङ-नेपालीका लागि १५००० समानात्तर वाक्य निर्माणको लक्ष्य राखी अघि बढ्ने निर्णयका साथ अघि बढिरहेको अवस्था छ । जसअनुसार पहिलो चरणको लक्ष्यका करीव नजिक नजिक हामी पुगिसकेका छौँ । हामी यस प्रणालीमा कम्तीमा १,००,००० समानान्तर वाक्यहरू पुर्याउने लक्षका साथ अघि बढिरहेका छौँ । यस प्रणालीका थप विकासका लागि विभिन्न दातृ निकाय, राष्ट्रिय तथा अन्तर्राष्ट्रिय तामाङ समाज र समुदायसँग सहयोगका लागि अपील तथा सहकार्य गर्दै अघि बढिने छ ।

७. तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीको विकासमा सङ्लग्न संस्था तथा व्यक्तिहरू

यस परियोजनामा हाल ‘तामाङ नाङ्खोर’, ‘तामाङ डाजाङ’, ‘इन्फर्मेसन एन्ड ल्याङग्वेज प्रोसेसिङ रिसर्च ल्याब, काठमाडौं विश्वविद्यालय’ संलग्न छन् । प्रथम चरणको परियोजनाका लागि श्री दावा तामाङ, भर्जिनिया, उत्तर अमेरिकाबाट आर्थिक सहयोग प्राप्त भएको छ भने प्राविधिक सहयोग स्वयंसेवकका हैसियतमा काठमाण्डौँ विश्वविद्यालयका स्नातक तह उत्तिर्ण विद्यार्थीहरू क्रमशः विनय चौंधरी र रसिल वैदारले विगत एक वर्षदेखि निरन्तर प्रदान गरिराख्नु भएको छ ।

८. निष्कर्ष

सन् २०१८ बाट सुरु भएको यस तामाङ-नेपाली यान्त्रिक अनुवाद प्रणालीले थुप्रै आरोह अवरोह पार गर्दै यस अवस्थामा आइपुगेको छ । पहिलो चरणको परियोजनाको प्रतिफललाई तामाङ भाषाको राम्रो ज्ञान हुने तामाङ भाषी समुदायलाई परीक्षण गराउने काम भइरहेको छ । प्रारम्भिक परीक्षणको प्रतिक्रिया अत्यन्त सकरात्मक र उत्साहप्रद आएकाले सम्पूर्ण प्रणाली निर्माण टोली अत्यन्त उत्साहित भएका छौँ । हाम्रो दैनिक जनजीवनमा आर्टिफिसियल इन्टिलिजेन्सको प्रयोगले व्यापकता पाइरहेको अहिलेको वर्तमान अवस्थामा तामाङ भाषालाई पनि भाषा प्रविधिको मूल धारमा ल्याएर समग्र तामाङ भाषी तथा समुदायलाई लाभान्वित गराउने प्रयास निश्चय पनि खुसी लाग्दो विषय हो । यस महान कार्यलाई यहाँहरू सबैको साथ, सहयोग र सद्भावको आवश्यक्ता छ ।

e-mail:bal@ku.edu.np

तपाईको प्रतिक्रिया