content top

Encoding​ဆို​သည်​မှာ …?

Encoding ဆိုသည်မှာ


ကွန်ြပူတာသည် ကျွနု်ပ်တို့​လူအများ​ နား​လည်သလို ဘာသာစကား​များ​၊ စာလံုံး​များ​ကို နား​လည်သိရှိနုိင်ြခင်း​ မရှိပါ။ အ​ေြခခံအကျဆံုံး​အဆင့​်တွင် ကွန်ြပူတာများ​သည် ဂဏန်း​များ​ကို သိမ်း​နုိင်၊ တွက်ချက်နိုင်ြခင်း​ စွမ်း​ရည်သာ ရှိြကပါသည်။ ထုိ့​​ေြကာင့​် ဘာသာစကား​များ​၏ အက္ခရာများ​ကို ကွန်ြပူတာများ​တွင် သံုး​နုိင်ရန်အတွက်လည်း​ အက္ခရာတလံုး​ချင်း​စီကို ဂဏန်း​များ​အြဖစ် သတ်မှတ်ရပါသည်။ ဥပမာ အဂင်္လိပ်အက္ခရာ ​ေအ ‘A’ ကို 41 ဟု သတ်မှတ်ပါသည်။ ထိုသို့​ သတ်မှတ်မှသာ ကွန်ြပူတာက ကျွနု်ပ်တို့​သံုံး​​ေသာ စာ​ေပများ​ကို သိမ်း​ဆည်း​နိုင်ြခင်း​၊ ပရင်တာထုတ်နုိင်ြခင်း​၊ ၀က်ဘ်ဆုိက်များ​တွင် ဖတ်ရှုနုိင်ြခင်း​ စသည်တို့​ကို ​ေဆာင်ရွက်နိုင်ြခင်း​ ြဖစ်ပါသည်။ သို့​​ေသာ်လည်း​ ဘာသာအသီး​သီး​၏ အက္ခရာအသီး​သီး​ကို မည်သည့​်ဂဏန်း​အြဖစ် သိမ်း​မည်ဆို​ေသာ သတ်မှတ်ချက်သည် တနုိင်ငံနှင့​် တနုိင်ငံ၊ ကွန်ြပူတာစနစ် တခုနှင့​်တခု၊ ​ေဆာ့​ဝဲတခုနှင့​်တခု မတူညီခဲ့​ြကပါ။ ဥပမာ အဂင်္လိပ်ဘာသာစကား​တွင်ပင် အက္ခရာများ​ကုိ ANSI Encoding, ASCII Encoding, MacRoman Encoding စသည်ြဖင့​် အမျုိး​မျုိး​ သတ်မှတ်ခဲ့​ြကပါသည်။ ထို့​​ေြကာင့​် Encoding​ ဆိုသည်မှာ မည်သည့​်အက္ခရာကို မည်သည့​်ဂဏန်း​သတ်မှတ်သည်ဆို​ေသာ သတ်မှတ်ချက်တခု သက်သက်ပင် ြဖစ်ပါသည်။ ASCII Encoding​ တွင် ‘A’ သည် 41 ြဖစ်ြပီး​ ‘Z’ သည် 90 ြဖစ်ပါသည်။


Encoding Standards​ ​ဆို​သည်​မှာ


ဘာသာစကား​တခုတည်း​ကိုပင် အမျုိး​မျုိး​​ေသာ ဂဏန်း​သတ်မှတ်ချက်များ​နှင့​် သိမ်း​ဆည်း​ြက​ေသာ​ေြကာင့​် ကွန်ြပူတာ တခုနှင့​်တခု၊ ​ေဒသတခုနှင့​်တခု အချက်အလက်များ​ (စာများ​) ​ေပး​ပို့​သည့​်အခါ encoding​ မတူညီ​ေသာ​ေြကာင့​် တ​ေနရာမှ အချက်အလက်ကို အြခား​တ​ေနရာမှ ဖတ်၍မရြခင်း​ ြပဿနာများ​ ​ေြပလည်​ေစရန်အတွက် International အဖဲွ့​အစည်း​များ​သည် စံသတ်မှတ်ချက်များ​ သတ်မှတ်ြပီး​ အ​ေကာင်အထည်​ေဖာ်ခဲ့​ြကပါသည်။ ပထမဦး​ဆံုး​ ထွက်​ေပး​လာ​ေသာ စံသတ်မှတ်ချက်မှာ အဂင်္လိပ်ဘသာသာစကား​အတွက်ြဖစ်ြပီး​ ​၎င်း​​ကို ASCII​ ဟု ​ေခါ်ပါသည်။ ထိုအချိန်မှစ၍ တကမ္ဘာလံုး​တွင် အဂင်္လိပ်စာကို ASCII encoding နှင့​်သာ သိမ်း​ဆည်း​ြက​ေသာ​ေြကာင့​် စနစ်မတူြခင်း​၊ ​ေဖာင့​်မတူြခင်း​ ြပဿနာများ​ ကင်း​​ေဝး​ခဲ့​ြကပါသည်။ ထို့​​ေနာက် အဂင်္လိပ်ဘာသာစကား​ကဲ့​သို့​ပင် တကမ္ဘာလံုး​မှ ဘာသာစကား​အား​လံုး​၏ အက္ခရာများ​ကို စံသတ်မှတ်နိုင်ရန်အတွက် ISO​ နှင့​် Unicode Consortium အဖဲွ့​အစည်း​များ​ ဖဲွ့​စည်း​၍ ြကုိး​ပမ်း​လုပ်​ေဆာင်ခဲ့​ြကပါသည်။ Unicode Standard​ သည် အဆိုပါ ISO​ နှင့​် Unicode Consortium​ တို့​၏ ြကုိး​ပမ်း​မှုများ​မှ ရလဒ်ပင် ြဖစ်ပါသည်။ တကမ္ဘာလံုး​တွင် လက်ရှိသံုး​​ေန​ေသာ Encoding စနစ်သည် Unicode Standard​ ပင် ြဖစ်ပါသည်။


ြမန်မာစာ encoding များ​


ASCII​ ​ေခတ်တွင် ြမန်မာစာ encoding များ​ ရှိခဲ့​​ေသာ်လည်း​​ Standard​ အြဖစ် သတ်မှတ်နုိင်ြခင်း​ မရှိခဲ့​ပါ။ ထိုအချိန်က ြမန်မာစာ encoding များ​မှာ အဂင်္လိပ်စာ စာလံုး​များ​ကို အ​ေြခခံ​ေသာ စနစ်များ​သာ ြဖစ်ခဲ့​ပါသည်။ ဥပမာ ကွန်ြပူတာ ကီး​ဘုတ်တွင် ‘u’ ကို နှိပ်လုိက်လျှင် ကြကီး​ ​ေပါ်နိုင်ရန် ​ေဖာင့​်ထဲတွင်ရှိ​ေသာ ‘u’ ၏ စာလံုး​ပံုစံဒီဇုိင်း​ကို ‘က’ ြဖစ်​ေအာင် ြပင်ဆင်ထား​​ေသာ ​ေဖာင့​်များ​သာ ထွက်​ေပါ်ခဲ့​ပါသည်။ ထို့​​ေြကာင့​် ကွန်ြပူတာစကရင်​ေပါ်တွင် ကြကီး​​ေပါ်​ေသာ်လည်း​ ကွန်ြပူတာက အမှန်တကယ် မှတ်သား​သိမ်း​ဆည်း​ထား​သည်မှာ အဂင်္လိပ်အက္ခရာ ‘u’ သာ ြဖစ်ပါသည်။ ထုိ့​​ေြကာင့​် ​၎င်း​​စနစ်များ​သည် စာပံုနှိပ်လုပ်ငန်း​မှအပ အြခား​လုပ်ငန်း​များ​တွင် တွင်ကျယ်လာြခင်း​ မရှိပါ။ ASCII encoding ြဖင့​် ြမန်မာစနစ်များ​ကို ‘​ေဖာင့​်’ များ​ဟုသာ ​ေခါ်ခဲ့​ြကပါသည်။ ​ေရး​သား​သူမတူ​ေသာ ASCII ​ေဖာင့​်အမျုိး​မျုိး​သည် အဂင်္လိပ်အက္ခရာအမျုိး​မျုိး​ကို ​ေနရာလဲခဲ့​​ေသာ​ေြကာင့​် တခုနှင့​်တခု မတူညီြကပါ။ ထို့​​ေြကာင့​် English ASCII လို စနစ်အား​လံုး​၊ ​ေနရာအား​လံုး​တွင် တသတ်မှတ်တည်း​ သံုး​နုိင်​ေသာ ြမန်မာစာ ASCII စနစ်လည်း​ မရှိခဲ့​ပါ။ ASCII Encoding/Font များ​မှာ




  • Avalaser (Mac only)

  • CE

  • Academy

  • M-Myanmar

  • Ava

  • Win Myanmar: Win Innwa, Win Hakha, Win Thanlwin, etc

  • W Art House, A Art House


ထို့​​ေနာက်တွင် ISO/Unicode Consortium မှ ြမန်မာဘာသာကို Unicode Standard​ ထဲတွင် ထည့​်သွင်း​နုိင်ခဲ့​ပါသည်။ သို့​ရာတွင် Unicode Standard Encoding​ ဆိုသည်မှာ အက္ခရာများ​ကို ဂဏန်း​သတ်မှတ်​ေပး​ြခင်း​ ြဖစ်​ေသာ်လည်း​ ြမန်မာစာ​ေဖာင့​်​ေရး​သူများ​ နား​လည်ထား​​ေသာ အဂင်္လိပ်အက္ခရာများ​ကို ြမန်မာစာနှင့​် လဲမည်ဆို​ေသာ အယူအဆနှင့​် လံုး​ဝ ဆန့​်ကျင်ဘက် ကွာြခား​ပါသည်။ ASCII ​ေဖာင့​်များ​တွင် ‘က’ တလံုး​အတွက် ​၎င်း​​နှင့​် ပံုသဏ္ဌာန်ကိုလိုက်ြပီး​ ဂဏန်း​များ​ကို ကိုယ်စား​ြပုပါသည်။ ဥပမာ ဝင်း​အင်း​ဝတွင် ‘က’ အတွက် 75 နှင့​် ‘ka sit’ အတွက် 250 ဟု မှတ်သား​ပါသည်။ ယူနီကုတ်တွင် ‘က’ သည် 4096 ြဖစ်ြပီး​ ‘ka sit’ သည်လည်း​​ 4096 ြဖစ်ပါသည်။ ထို့​​ေြကာင့​် ASCII​ မှာလို ‘က’ ၏ စာလံုး​ဒီဇိုင်း​​ေရး​ရန် တ​ေနရာ၊ ‘ka sit’ အတွက် တ​ေနရာ မရှိပါ။ အ​ေြခအ​ေနကိုလိုက်၍ ‘က’ နှင့​် ‘ka sit’ ကို အလို​ေလျာက် ​ေြပာင်း​လဲနုိင်သည့​် Rendering System ​ေခါ် နည်း​ပညာြဖင့​် လုပ်​ေဆာင်ရမည် ြဖစ်ပါသည်။ ထုိ့​မှသာ ကျွနု်ပ်တို့​ ကွန်ြပူတာတွင် သံုး​​ေန​ေသာ​ Database​ များ​၊ အီး​​ေမး​လ်များ​၊​ Search Engine များ​၊ ကွန်ြပူတာသံုး​စနစ်များ​ (e-government, Baking, POS, etc) သည် မှန်ကန်တိကျစွာ အလုပ်လုပ်နုိင်မည် ြဖစ်ပါသည်။ ‘က’ နှင့​် ‘ka sit’ သည် ဂဏန်း​နှစ်ခုကိုသာ ကိုယ်စား​ြပုပါလျှင် ကွန်ြပူတာအား​ ‘တက္ကသိုလ်’ တွင် ‘က’ ဘယ်နှလံုး​ ပါသလဲ​ေမး​ပါက ‘ka sit’ ကို ‘က’ မှန်း​ မသိဘဲ၊ ‘က’ တလံုး​သာပါသည်ဟု အ​ေြဖထွက်ပါလိမ့​်မည်။ ​၎င်း​​အ​ေြဖသည်​ Database​ များ​၊ အီး​​ေမး​စနစ်များ​၊ Search Engine များ​တွင် များ​စွာ ထိခိုက်​ေစနုိင်ပါသည်။ ဥပမာ သင်ရှာလို​ေသာ အချက်အလက်များ​ တိကျစွာ မရှာ​ေဖွနိုင်ြခင်း​၊ အက္ခရာစဉ်ြခင်း​ အပါအဝင် အချက်အလက်များ​ကို စီစဉ်နိုင်မ၍ မရှိြခင်း​မှစ၍ စနစ်တခုလံုး​ အလုပ်​ေသချာစွာ မလုပ်နိုင်ြခင်း​ အထိ မလိုလား​အပ်​ေသာ ဆိုး​ကျုိး​များ​စွာ ရရှိနိုင်မည် ြဖစ်ပါသည်။ ထို့​​ေြကာင့​် Unicode Standard တွင် ‘က’ သည် ဂဏန်း​တခုတည်း​အြဖစ်​ေသာ သတ်မှတ်ပါသည်။ ထိုနည်း​တူ ASCII ​ေဖာင့​်များ​တွင် ​ေတွ့​ရ​ေသာ ရရစ်အြကီး​အ​ေသး​ အမျုိး​မျုိး​၊ ​ေအာက်ြမစ်အမျုိး​မျုိး​၊ တ​ေချာင်း​ငင်အမျုိး​မျုိး​တို့​ မရှိ​ေတာ့​ပါ။ အား​လံုး​မှာ သတ်မှတ်ထား​​ေသာ စံအတိုင်း​ တခုစီသာ ရှိပါသည်။ ​၎င်း​​အက္ခရာများ​ မည်သည့​်ပံုစံ​ေပါ်မည်ဆို (ဥပမာ တ​ေချာင်း​ငင် တိုမည်၊ ရှည်မည်) ကို ကွန်ြပူတာစနစ်များ​က လုပ်​ေဆာင်​ေပး​မည် ြဖစ်ပါသည်။


ထူး​ြမင့​်​ေနာင်


၁၉​၊​​ ၂​၊​​ ၂ဝ၁​ဝ


(ထူး​ြမင့​်​ေနာင်သည် Unicode Consortium ၏ အဖဲွ့​ဝင်ြဖစ်ြပီး​ ဝီကီပိဒိယ ြမန်မာဘာသာအပိုင်း​တွင် System Operator ြဖစ်ပါသည်။ Technomation Studios နှင့​် MyMyanmar Projects တို့​တွင် အမှု​ေဆာင် ဒါရိုက်တာအြဖစ် တာဝန်ထမ်း​​ေဆာင်လျက်ရှိပါသည်။)

2 comments:

Ravi said...

ထူး​ြမင့​်​ေမာင်သည် Unicode Consortium...
Hiya! You spelled his name wrong!

web said...

Thank.. Fixed.

Post a Comment

 

content top