၂၀၂၄ တုန်းက နည်းပညာနယ်ပယ်အတွက် ကျွန်တော် လုပ်ချင်တဲ့ စီမံကိန်းနှစ်ခုလောက်ကို စဖြစ်ခဲ့တယ်။ တစ်ခုက မြန်မာပြည်က developer အသစ်လေးတွေ၊ အတွေ့အကြုံနုတဲ့ ညီငယ်၊ ညီမငယ်တွေ တကယ့်လက်တွေ့ coding အတွေ့အကြုံတွေရအောင် ကူညီပေးဖို့ရယ်၊ နောက်တစ်ခုကတော့ AI အတွက် အရည်အသွေးမြင့်တဲ့ မြန်မာ-အင်္ဂလိပ် စကားပြော အချက်အလက် ဒေတာစုတစ်ခု တည်ဆောက်ဖို့ပါ။ နှစ်ခုစလုံးက အပြင်ကိုထုတ်ပြောခဲ့ပြီး အထိုက်အလျောက်လဲ အာရုံစိုက်ခံခဲ့ရတဲ့အတွက် ဒီနေ့တော့ ကျွန်တော့်ရဲ့ ဒီစီမံကိန်းလေးတွေအကြောင်း နည်းနည်း update လုပ်ပေးချင်ပါတယ်။
တစ်နှစ်လောက်ကြာပြီဆိုတော့ အဖြစ်အပျက်အခြေအနေတွေကတော့ အများကြီးပါပဲ။ မထင်မှတ်ထားဘဲ အဆင်ပြေသွားတာလေးတွေ ရှိသလို၊ သင်ခန်းစာရလိုက်တာတွေ၊ လမ်းကြောင်းအသစ်တွေ ပြောင်းလိုက်ရတာတွေလည်း ရှိပါတယ်။
Getting Real Coding Experience in Tough Times
Myanmar is going through a tremendously difficult period. Under the current dictatorship, many young people have had their education disrupted. Their futures are being taken away. Chances for personal and professional growth are very rare. It is also very difficult for most young people to leave the country. They are stuck. The once-vibrant tech industr…
ဒီ developer mentorship အစီအစဉ်ကို စတုန်းကတော့ ရည်ရွယ်ချက်ကရှင်းရှင်းလေးပါ။ မြန်မာပြည်က အတွေ့အကြုံနုတဲ့ developer ညီငယ်၊ ညီမငယ်တွေ တကယ့် software product တွေမှာ အတူတူလက်တွဲလုပ်ရင်း လက်တွေ့အတွေ့အကြုံရစေချင်တာ။ လူအများသုံးနိုင်မယ့် tools တွေ apps တွေ အများကြီး ထုတ်နိုင်မယ်လို့ မှန်းခဲ့တာပေါ့။ တကယ်တမ်း အဲ့ဒီလို အောင်အောင်မြင်မြင်ဖြစ်ဖို့ကတော်တော်လေး ခက်ခဲမယ်မှန်းတော့ သိခဲ့ပါတယ်။
အစီအစဉ်တစ်ဝက်လောက်မှာတော့ ကိုယ်ရေးကိုယ်တာကိစ္စတွေနဲ့ ကျွန်တော့်ဘက်က အချိန်သိပ်မပေးနိုင်တာတွေရော၊ ပါဝင်တဲ့သူတွေထဲက တော်တော်များများကလည်း ကျောင်းကိစ္စတွေ၊ တခြားအလုပ်တွေနဲ့ မအားကြတော့ဘူးပေါ့လေ။ ဆိုတော့ ကျွန်တော်မျှော်လင့်ထားသလိုမျိုး အရှိန်တစ်ခုနဲ့ ဆက်တိုက်မလုပ်နိုင်ခဲ့ဘူးပေါ့။
ဒါပေမဲ့၊ အဲ့ဒီအစီအစဉ် ထဲက စီမံကိန်းတစ်ခုကတော့ တကယ့်ကို အပြင်လောကထဲ ရောက်သွားပြီး တိတ်တိတ်လေးနဲ့ အကြီးအကျယ် အောင်မြင်ခဲ့ပါတယ်။ အသေးစိတ်တော့ ကျွန်တော် ဒီနေရာမှာ ပြောပြလို့မရပေမယ့်၊ မြန်မာပြည်တွင်းက ကြိုးစားနေတဲ့သူတွေကို ထောက်ပံ့ပေးနေတဲ့ solution တစ်ခုလို့ပဲ ဆိုပါတော့။ လစဉ် အမေရိကန်ဒေါ်လာ ငါးသိန်းလောက် ဝင်ငွေရှိနေတာ ၅ လလောက်ရှိနေပါပြီ။ ဒီလိုမျိုး အဆင်ပြေပြေ အောင်မြင်ကြီးထွားလာတာကို မြင်ရတာကတော့ တကယ်မထင်မှတ်ထားသလို၊ အရမ်းလည်း အဓိပ္ပာယ်ရှိတယ်လို့ ခံစားရပါတယ်။
အမှန်အတိုင်းပြောရရင် အစတုန်းက ဒီစီမံကိန်းကို မစခင်က နည်းနည်းတွန့်ဆုတ်နေခဲ့သေးတယ်။ လူတွေဘယ်လိုမြင်မလဲပေါ့။ တချို့က "volunteer ခေါ်ပြီး ခေါင်းပုံဖြတ်နေတာ" တို့ဘာတို့ လှောင်ကြတာမျိုးတောင်ရှိခဲ့ပါသေးတယ်။ ဒါပေမဲ့ သူတို့ ပြောတာကို ဂရုမစိုက်နေဘဲရှေ့ဆက်လုပ်ဖြစ်ခဲ့တာကိုတော့ တကယ်ဝမ်းသာမိတယ်။
နောက်ထပ်ကောင်းတဲ့ ရလာဒ်တစ်ခုကတော့ ဒီအစီအစဉ် မှာ ပါဝင်ခဲ့တဲ့ ၃၁ ယောက်ထဲကနေပြီး ၇ ယောက်ကို ကျွန်တော့်ကုမ္ပဏီမှာ ပြန်ခန့်ဖြစ်နိုင်ခဲ့ပါတယ်။ ကျွန်တော့်ကို ခေါင်းပုံဖြတ်ဖို့ ကြိုးစားနေတာလို့ ခနဲ့ခဲ့ကြတဲ့သူတွေကိုယ်တိုင်ကတော့ အချိန်တိုအတွင်းမှာ ဒီလိုမျိုး အလုပ်အကိုင်ဖန်တီးပေးဖို့ မဖြစ်နိုင်တာအသေအချာပါပဲ။
ကျွန်တော်မျှော်လင့်ခဲ့သလို product အမိုက်စားတွေ အများကြီး မထုတ်နိုင်ခဲ့ရင်တောင်၊ ကျွန်တော်နဲ့ ဒီ junior developer တွေကြားထဲမှာ ယုံကြည်မှုတွေ၊ တိုးတက်မှုတွေနဲ့ ရေရှည်ဆက်ဆံရေးတစ်ခုကို တည်ဆောက်နိုင်ခဲ့ပါတယ်။ ပြီးတော့ တကယ် impact ရှိတဲ့ product တစ်ခုလည်း ထွက်လာခဲ့တာပေါ့။
တကယ့် product တွေ ဖန်တီးရတာ ခက်တယ်ဆိုတာတော့ လက်ခံရမှာပါပဲ။ ဒါပေမဲ့ လူငယ်တွေအတွက် ဒီလိုမျိုး အခွင့်အလန်းတွေ ဖန်တီးပေးရတာကိုတော့ ကျွန်တော် ဆက်လုပ်ချင်ပါသေးတယ်။ ဒီအစီအစဉ်ရဲ့ ဒုတိယ version ကို ထပ်လုပ်ဖို့တော့စိတ်ကူးရှိပါတယ်။ ဒီတစ်ခေါက်တော့ အရင်ကရခဲ့တဲ့ သင်ခန်းစာတွေနဲ့၊ ပိုပြီး လက်တွေ့ကျကျ ချဉ်းကပ်သွားမှာပါ။ အရင်က တစ်ယောက်ထဲ စီစဉ်ခဲ့တဲ့အစား၊ ကူညီပေးနိုင်မယ့်အခြားသူတွေနဲ့ ပူးပေါင်းတာမျိုးတွေပေါ့။ ဒီအစီအစဉ်ကို ဘယ်လိုပိုကောင်းအောင်လုပ်လို့ရမလဲဆိုတဲ့ တခြား idea ကောင်းကောင်းလေးတွေ၊ feedback လေးတွေရှိရင်လည်း ကျွန်တော့်ကို ပြောပြပေးခဲ့လို့ရပါတယ်။
Myanmar<>English conversational-style parallel dataset
အရင်ကဆိုရင် မြန်မာစာရေးတဲ့အခါမှာ စာဟန်စကားပြေနဲ့ပဲရေးကြပါတယ်။ ရုံးစာ၊ ကျောင်းစာ၊ စာစီစာကုံး၊ ဝတ္ထု၊ ကျမ်းစာ၊ စာတမ်း၊ သတင်းစတာတွေအပြင် သာရေး၊ နာရေး၊ ဖိတ်စာတွေအထိ စကားပြေနဲ့ပဲရေးကြပါတယ်။ လူတိုင်းလည်း ရေးတတ်၊ ဖတ်တတ်ကြပါတယ်။ ဒါပေမဲ့ ဆိုရှယ်မီဒီယာခေတ်မှာတော့ အချင်းချင်းပြောဆိုဆက်သွယ်ကြတာက အရင်ကထက် အများကြီး များလာပါတယ်။ စာရိုက်ပြီး စကားပြောကြတဲ့ခေတ်မှာ စာတို…
ဒုတိယစီမံကိန်းဖြစ်တဲ့ အရည်အသွေးမြင့်၊ ဘာသာပြန်ဒေတာစုတည်ဆောက်ရေးကတော့ အခုထိ အသက်ဝင်နေတုန်းပါပဲ။ လွန်ခဲ့တဲ့ ၁၁ လအတွင်းမှာ လူနည်းပေမဲ့ စိတ်ရောကိုယ်ပါနှစ်ပြီး ကူညီပေးခဲ့ကြတဲ့ collaborator တွေကျေးဇူးနဲ့ တော်တော်အဆင်ပြေတဲ့ ဒေတာစုတစ်ခုအဖြစ် အကောင်အထည်ပေါ်လာနေပါတယ်။
ဒါပေမဲ့၊ ကြားထဲမှာလဲသိတဲ့အတိုင်း AI လောကက တိုးတက်တာ အရမ်းကိုမြန်လွန်းတယ်။
အခုနောက်ပိုင်း LLM တွေ၊ အထူးသဖြင့် မြန်မာစာပါတဲ့ LLM တွေရဲ့ machine-generated translation အရည်အသွေးက သာမန်စကားပြောတွေမှာတောင် တော်တော်လေး ကောင်းလာပြီ။ တချို့ proprietary system တွေဆို မြန်မာ-အင်္ဂလိပ် နှစ်မျိုးလုံးမှာ အံ့သြစရာကောင်းလောက်အောင် ကောင်းနေတာတွေ့ရတယ်။
အဲ့ဒါကြောင့် ကျွန်တော် မကြာခဏ ကိုယ့်ကိုယ်ကိုယ်ပြန်မေးဖြစ်နေတဲ့ မေးခွန်းကတော့ "ဒါဆို ကျွန်တော်တို့ရဲ့ ဒေတာစု က အသုံးဝင်ဦးမှာလား" ဆိုတာပါပဲ။
အဲဒီမေးခွန်းအတွက် လောလောဆယ် ကျွန်တော့်ရဲ့အဖြေကတော့ ကျွန်တော်တို့ရဲ့ ဒေတာစုက open source ဖြစ်မယ်၊ အလွယ်တကူရယူသုံးစွဲနိုင်တဲ့ လူတွေကိုယ်တိုင် ဘာသာပြန်ထားတာဖြစ်မယ်ဆိုတာက ထူးခြားချက်အဖြစ်နဲ့ အသုံးဝင်နိုင်ဦးမယ်လို့ ယုံကြည်ပါတယ်။ စွမ်းဆောင်ရည်မြင့်တဲ့ model အများစုက propriatary တွေဖြစ်နေတယ်၊ ဒါမှမဟုတ် open source model တွေကကြတော့လဲ ဒေတာမလုံလောက်တာကြောင့် အရည်အသွေးက ထင်သလောက်မကောင်းနေဘူးဆိုတဲ့ ပြဿနာကတော့ ရှိနေတုန်းပဲဖြစ်လို့ပါ။ ကျွန်တော်တို့အနေနဲ့ လူကိုယ်တိုင်ဘာသာပြန်ပြီး၊ လူကိုယ်တိုင် ပြန်စစ်ဆေးထားတဲ့ တကယ့် သဘာဝကျကျ မြန်မာစကားပြောတွေကို အခြေခံထားတဲ့ ဒေတာစုတစ်ခုအနေနဲ့ ထွက်လာနိုင်ဖို့ ဆက်ကြိုးစားသွားပါမယ်။ ဒါက မြန်မာ NLP လောကမှာတော့ အခုထိ ရှားပါးနေတုန်းဖြစ်ပြီး၊ အမြန်ဆုံးထွက်လာနိုင်ဖို့လဲ အရေးကြီးလို့ပါပဲ။
လတ်တလောမှာတော့ ကျွန်တော်တစ်ယောက်တည်းပဲ ဒီဒေတာစုကို နောက်ပေါ် model တွေနဲ့ ဘယ်လိုယှဉ်နိုင်မလဲ၊ ဘယ်လို ပိုအသုံးဝင်အောင် လုပ်ရမလဲဆိုတာတွေကို evaluate လုပ်နေပါတယ်။ တစ်ယောက်ထဲလုပ်နေတာမလို့ နည်းနည်းတော့ နှေးတယ်ပေါ့၊ ဒါပေမဲ့ ဒီနှစ်ထဲမှာတော့ အရှိန်ပြန်တင်နိုင်ဖို့ မျှော်လင့်ထားပါတယ်။
မြန်မာစာနဲ့ပတ်သက်တာ တစ်ခုခုလုပ်နေပြီး၊ ဒါကို စိတ်ဝင်စားတယ်ဆိုရင်တော့ ဆက်သွယ်ပေးပါ။ ကျွန်တော်တို့ အတူတူပူးပေါင်းလုပ်ဖို့အတွက်လိုအပ်ပါတယ်။
ဒီစီမံကိန်း နှစ်ခုကတော့ စစချင်းစိတ်ကူးထားသလို တစ်ထပ်တည်းတော့ ဖြစ်မလာခဲ့ပါဘူး။ ဒါပေမဲ့ ဖြစ်လာတဲ့အခြေအနေလေးတွေအတွက်၊ ရလာတဲ့ရလဒ်လေးတွေအတွက် ပူးပေါင်းပါဝင်ခဲ့ကြတဲ့သူတွေ၊ စိတ်ပိုင်းဆိုင်ရာနဲ့ အစစအရာရာ ထောက်ပံ့ပေးခဲ့ကြတဲ့သူတွေ၊ ဝေဖန်ထောက်ပြခဲ့သူတွေ အားပေးခဲ့သူတွေ အားလုံးကို ကျေးဇူးအများကြီးတင်ပါတယ်ဗျာ။
နောက်တစ်ဆင့်ကတော့ ဒီသင်ခန်းစာတွေပေါ်မူတည်ပြီး လိုတိုးပိုလျှော့ လုပ်ရမှာပေါ့၊ ဘာတွေအလုပ်ဖြစ်ခဲ့လဲ၊ ဘာတွေအလုပ်မဖြစ်ခဲ့ဘူးလဲဆိုတာတွေကို ပြန်သုံးသပ်ပြီး ရှေ့ဆက်ရမှာပါ။
အဆုံးထိဖတ်ပေးကြတဲ့အတွက် ကျေးဇူးတင်ပါတယ်ခင်ဗျာ။ ဒီထဲက အကြောင်းအရာတစ်ခုခုနဲ့ ကိုယ့်အတွေ့အကြုံနဲ့ တိုက်ဆိုင်တာ၊ စိတ်ဝင်စားတာရှိရင်လည်း အချိန်မရွေး ဆက်သွယ်နိုင်ပါတယ်။