Myanmar<>English conversational-style parallel dataset
မြန်မာ<>အင်္ဂလိပ် စကားပြောအရေးအသား ဘာသာပြန်ဒေတာစုအတွက် ပူးပေါင်းကူညီပေးဖို့ ဖိတ်ခေါ်ချင်ပါတယ်
အရင်ကဆိုရင် မြန်မာစာရေးတဲ့အခါမှာ စာဟန်စကားပြေနဲ့ပဲရေးကြပါတယ်။ ရုံးစာ၊ ကျောင်းစာ၊ စာစီစာကုံး၊ ဝတ္ထု၊ ကျမ်းစာ၊ စာတမ်း၊ သတင်းစတာတွေအပြင် သာရေး၊ နာရေး၊ ဖိတ်စာတွေအထိ စကားပြေနဲ့ပဲရေးကြပါတယ်။ လူတိုင်းလည်း ရေးတတ်၊ ဖတ်တတ်ကြပါတယ်။ ဒါပေမဲ့ ဆိုရှယ်မီဒီယာခေတ်မှာတော့ အချင်းချင်းပြောဆိုဆက်သွယ်ကြတာက အရင်ကထက် အများကြီး များလာပါတယ်။ စာရိုက်ပြီး စကားပြောကြတဲ့ခေတ်မှာ စာတိုပြီး မြန်မြန်ရိုက်လို့ရတဲ့ စကားပြောပုံစံကို ပိုပြီးရေးလာကြပါတယ်။ အဲဒါကြောင့် ကျွန်တော်တို့ အဖတ်များတဲ့ စာတွေကိုယ်တိုင်ကလဲ စကားပြောပုံစံနဲ့ ဖြစ်လာပါတယ်။
စာဟန်စကားပြေနဲ့ ရေးထားတဲ့ မြန်မာစာတွေကိုတော့ Wikipedia နဲ့ သတင်းဌာနတွေမှာ အများဆုံးတွေ့ရနိုင်ပါတယ်။ သုတေသနပညာရှင် အများစုနဲ့ ကုမ္ပဏီတွေကိုယ်တိုင်ကလဲ အဲဒီဒေတာတွေကို အသုံးများပါတယ်။ အဲဒါအပြင် UCSY က ထုတ်ထားတဲ့ မြန်မာ<>အင်္ဂလိပ် ဘာသာပြန်ဒေတာစုမှာဆိုရင်လည်း စာဟန်စကားပြေနဲ့ရေးထားတဲ့ စာကြောင်းရေ ၂ သိန်းလောက်ရှိပါတယ်။ ကွန်ပျူတာတွေကို မြန်မာစကားသင်ပေးကြတဲ့အခါမှာတော့ အဲဒီလို စကားပြေအရေးအသား အများစုနဲ့ သင်ပေးကြပါတယ်။
Google Translate လို ဘာသာပြန်တဲ့ဆော့ဖ်ဝဲတွေမှာလဲ စကားပြေအရေးအသားနဲ့ပဲ အများစုသုံးတာတွေ့ရပါလိမ့်မယ်။ အဲဒါကြောင့်လဲ စက်ကဘာသာပြန်ပေးတဲ့ စာတွေကိုဖတ်တဲ့အခါ ထောက်နေတာ၊ ဖတ်ရခက်တာ ကြုံဖူးကြပါလိိမ့်မယ်။ စကားပြော အရေးအသားနဲ့ ဘာသာပြန်ဖို့ လိုလာတဲ့အခါမှာဆိုရင် ဘာသာပြန်တဲ့ဆော့ဖ်ဝဲအများစုက စကားလုံးရောရေးမိတာ၊ သဒ္ဒါမှားသွားတာ အစရှိသဖြင့် တိုင်ပတ်သွားတတ်ကြတယ်။ အဓိကကတော့ စက်တွေကိုဘာသာပြန်တတ်အောင် သင်ပေးတဲ့ ဒေတာစုတွေက စာဟန်စကားပြေအရေးအသားနဲ့ပဲ ရေးထားကြလို့ဖြစ်ပါတယ်။
အောက်က နမူနာမှာဆိုရင် ဘာသာပြန်အဓိပ္ပါယ်အရ မမှားဘူးဆိုပေမဲ့၊ ကျွန်တော်တို့ အပြင်မှာ စကားပြောတာပဲဖြစ်ဖြစ်၊ စာရိုက်ပြီး စကားပြောရင်ပဲဖြစ်ဖြစ် အဲဒီလို ၂ ဆင့်ခွဲပြောတာနည်းပါတယ်။
ဆိုင်ထဲမှာ ပရီရာလို့ခေါ်တဲ့ အိန္ဒိယမိန်းကလေး ရှိလားဆိုတာ ပြောပြပေးပါလား - Translated with Llama 3
ဆိုင်ထဲမှာ အိန္ဒိယအမျိုးသမီးပရီရာဆိုတာရှိပါသလား - Human Contributor’s Translation
အပေါ်ကလိုမျိုး အထူးပြုစကားလုံးနဲ့ နာမည်ကိုတွဲပြီး တစ်ခါထဲပြောလိုက်တာက ပိုပြီးအသုံးများပါတယ်။ ဝတ္ထုဖတ်နေသလို ဖတ်တာဆိုရင်တော့ Google ကော Yandex ကောက ပြန်တာက အဆင်ပြေသလောက်ရှိတယ်ပေါ့။
ဒီနေရာမှာ တစ်ခါထဲဖြည့်ပြောချင်တာကတော့ နမူနာရေးပြထားသလို စက်က ဘာသာပြန်နိုင်ဖို့ဆိုတာက ဝါကျတစ်ခုကို တစ်ဖြတ်စီမဟုတ်ဘဲ ဝါကျတစ်ခုလုံးရဲ့ CONTEXT ကိုကြည့်ပြီး ဘာသာပြန်တဲ့စနစ်တွေမှာဆိုရင် ရနိုင်တာတွေ့ရပါတယ်။ LLM သုံးပြီး ဘာသာပြန်တဲ့စနစ်တွေမှာလဲ ရနိုင်တာတွေ့ရပါတယ်။ ကုန်ကျစရိတ်ကြောင့် လောလောဆယ်တော့ လူအများသုံးလို့ရတဲ့အခြေအနေမရှိသေးပါဘူး။
🐬 Echopod Parallel Dataset
ဒီပြဿနာကို တစ်စိတ်တစ်ပိုင်းဖြေရှင်းနိုင်ဖို့အတွက် အစပျိုးတဲ့အနေနဲ့ မြန်မာစကားပြော (conversational-style) သီးသန့်စုထားတဲ့ parallel dataset ကို စပြီးဖန်တီးဖြစ်ခဲ့ပါတယ်။ စကားပြောအရေးအသားတွေကို စုတဲ့အခါမှာ ရုပ်ရှင်စကားပြောတွေ၊ ဝတ္ထုစာအုပ်ထဲမှာပါတဲ့ စကားပြောတွေနဲ့ ဝီကီပီးဒီးယားက စကားပြောတွေကိုအစရှိသဖြင့် နေရာစုံကနေ စုထားတာပဲဖြစ်ပါတယ်။ စုစုပေါင်း ဝါကျ ၁ သန်းကျော်ရှိပါတယ်။ အဲဒီအထဲမှာမှ ကျွန်တော်တို့ Base Technology က ဦးဆောင်ပြီး လူ နဲ့ စက်တွဲပြီး ကနဦးဘာသာပြန်ထားတဲ့ အင်္ဂလိပ်<>မြန်မာ ဝါကျအတွဲကတော့ ၃ သိန်းလောက်ရှိပါတယ်။ 80% လောက်ကို အလိုအလျောက် စနစ်တွေ သုံးပြီးတော့ပဲ လုပ်ခဲ့တာဖြစ်လို့၊ အရည်အသွေးကောင်းဖို့တော့ လိုပါသေးတယ်။
ဒီပရောဂျက် အောင်မြင်ခဲ့ရင်တော့ 🐬 Echopod Dataset အနေနဲ့ အရည်အသွေးအကောင်းဆုံး အင်္ဂလိပ်<>မြန်မာ ဝါကျအတွဲ ၄ သိန်းလောက်ကို open source လုပ်ပေးနိုင်ဖို့ မျှော်လင့်ထားတာဖြစ်ပါတယ်။
🐬 Echopod Companion Bot
အဲဒါကြောင့် ကျွန်တော်တို့အနေနဲ့ ဒေတာစုကို open source မလုပ်ခင်မှာ၊ ကျွန်တော်တို့မှာ ရှိတဲ့ ဒေတာတွေရဲ့ အရည်အသွေးပိုကောင်းလာဖို့အတွက် စပြီးလုပ်နေပါပြီ။
ပထမအဆင့်အနေနဲ့ ဒီဒေတာစုအတွက် ကူညီချင်တဲ့သူတွေ၊ ပါဝင်ရတာ အဆင်ပြေလွယ်ကူအောင်လို့ 🐬 Echopod - Companion ဆိုတဲ့ Telegram bot တစ်ခုလုပ်ထားပါတယ်။ အဲဒီ Telegram bot ကနေတဆင့် ဘာသာပြန်ထားတာတွေကို အမှတ်ပေးလို့ရနိုင်မှာ ဖြစ်ပါတယ်။ ကိုယ်က ဘာသာပြန် ကျွမ်းတဲ့သူဆိုရင်၊ ဘာသာမပြန်ရသေးတဲ့ အင်္ဂလိပ်ဝါကျတွေကို မြန်မာစကားပြောပုံစံနဲ့ ဘာသာပြန်ပေးနိုင်ပါတယ်။
Companion Bot is Open Source
အကယ်လို့ Companion Bot အသုံးပြုရင်းနဲ့ လိုအပ်တာ၊ ထပ်ထည့်ချင်တာ တခုခုရှိခဲ့ရင်တော့ Github မှာ issue ဖွင့်တာ၊ ဒါမှမဟုတ် ကိုယ်တိုင်ဝင်ပြီး ရေးပေးတာတွေလဲ လုပ်လို့ရပါတယ်။ စစလုပ်တုန်းကတော့ polling ပုံစံနဲ့ database ကို postgres
သုံးထားခဲ့ပေမယ့်၊ လက်ရှိမှာတော့ lambda + dynamodb
ကို သုံးထားပါတယ်။
Main branch ပေါ်ကိုတော့ မရွှေ့ရသေးဘဲ README ဘာညာလဲ သေချာတော့ မရေးရသေးပါဘူး။ ဒါပေမဲ့ ရိုးရိုးရှင်းရှင်းနဲ့ လွယ်လွယ်ပဲရေးထားတာမလို့ ဖတ်ရတာတော့ မခက်လောက်ပါ။
Junior / Mid Level Developer အလုပ်ရှာနေတဲ့ ညီငယ်ညီမငယ်တွေ အနေနဲ့ဆိုရင်တော့ Github မှာ ကျွန်တော်တင်ထားတဲ့ Issue #1 ကို ဖြေရှင်းကြည့်ဖို့ အကြံပေးပါတယ်။ စနစ်တကျ လုပ်နိုင်တဲ့သူတွေအနေနဲ့ အင်တာဗျူးဘာညာမရှိဘဲ ကျွန်တော်တို့ ကုမ္ပဏီမှာတိုက်ရိုက်အလုပ်ဝင်ခွင့် ရပါမယ်ခင်ဗျာ။ (Culture / Attitude အတွက်တော့ စကားပြောကြည့်ဦးမှာပါ။)
ဒီ မြန်မာဘာသာနဲ့ပတ်သက်တဲ့ AI ဒေတာစုတည်ဆောက်ရေးစီမံကိန်းတွေမှာ ပါဝင်ကူညီနိုင်တဲ့သူတွေ အများကြီး လိုနေပါသေးတယ်။ ပါဝင်ကူညီပေးဖို့ ဖိတ်ခေါ်ပါတယ်။ 🐬 Echopod Companion Bot ကနေတဆင့် ပါဝင်ကူညီနိုင်တာကိုလဲ လူများများသိအောင်လို့ ဖြန့်ဝေပေးဖို့ အကူအညီတောင်းပါရစေ။ ကျေးဇူးတင်ပါတယ်။
ဧပြီလအစမှာပြောခဲ့တဲ့ Myanmar Software Engineers Q&A Dataset အတွက် ပြင်ဆင်နေတာတော့၊ အတိုင်းအတာတစ်ခုထိတော့ ရောက်နေပါပြီ။ သူကတော့ အခုမှစရမှာဆိုတော့ အချိန်ပိုယူရပါဦးမယ်။ အဲဒါနဲ့ ပတ်သက်ပြီးလဲ ဧပြီလကုန်လောက်ဆိုရင် ထပ်တင်ပေးပါမယ်။