17/10/2025
နောက်ဆုံးရ AI သတင်းများ
Baidu ၏ PaddlePaddleအသင်းမှ PaddleOCR-VL 0.9B ကို မကြာသေးမီက မိတ်ဆက်ခဲ့ပြီး၊ ၎င်းသည် ERNIE 4.5 architecture ကို အခြေခံထားသော vision-language model (VLM) ဖြစ်ပြီး end-to-end multilingual document parsing အတွက် ထုတ်လုပ်ထားခြင်းဖြစ်သည်။ ဤ model သည် "NaViT-style" architecture ကို အသုံးပြုထားပြီး multilingual text recognition နှင့် document understanding စွမ်းရည်များကို တိုးတက်စေချင်သော အသုံးပြုသူများအတွက် အထောက်အကူဖြစ်နိုင်သည်။
PaddleOCR-VL 0.9B သည် vision-language AI model တစ်ခုဖြစ်ပြီး၊ visual features နှင့် linguistic information တို့ကို ထိရောက်စွာ ပေါင်းစပ်နိုင်စေသည့် Machine Learning techniques များကို အသုံးပြုသည်။ ERNIE 4.5 Foundation Model ကို Logistic Regression, Transformer-Based Encoding, Attention Mechanisms တို့ဖြင့် လေ့ကျင့်ထားပြီး NaViT (Narrow Attention Vision Transformer) structure ကို တွဲဖက်အသုံးပြုထားသည်။ NaViT structure သည် computation efficiency ကို တိုးတက်စေနိုင်ပြီး ဘာသာစကားအမျိုးမျိုးဖြင့် သက်တမ်းမြင့် Text Recognition ကို အထူးသဖြင့်ထောက်ပံ့ပေးနိုင်သည်။
ဤ system သည် OCR (Optical Character Recognition) နှင့် VQA (Visual Question Answering) tasks များအတွက် test ထုတ်ထားပြီး မြင်သာမှုနိမ့်သော scanned data များကိုပါ နားလည်နိုင်သည့်စွမ်းအားရှိသည်။ Model training အတွက် ကြီးမားသော multilingual corpus များနှင့် visual-text paired data များကို အသုံးပြုထားပြီး AI Algorithm များဖြင့် pre-training လုပ်သည့်အခါမှာလည်း data alignment နှင့် tokenization techniques များကို optimize ပြုလုပ်ထားသည်။
ကောင်းမွန်သော benchmark results များပေးထားပြီး၊ model size 0.9B parameters ရှိသော်လည်း, performance မှာ ချဲ့ထွင်ထားသော model များနှင့်ယှဉ်ပါက competitive ဖြစ်သည်။ Model ကို ချဲ့ထွင်ရန်အတွက် ERNIE 4.5 ၏ 3B parameter version ကိုလည်း စမ်းသပ်ထားပြီး, data efficiency, inference speed နှင့် multilingual accuracy metrics များတွင် တိုးတက်မှုရှိသည်။
ကုမ္ပဏီအနေနှင့် သက်ဆိုင်ရာ model architecture, training datasets နှင့် evaluation methods များကို GitHub repository တွင် ဖော်ပြထားပြီး, AI research community နှင့် developers အတွက် ပိုမိုလွယ်ကူသော access ကို ပံ့ပိုးပေးထားသည်။
အဆိုပါ research အပြည့်အစုံကို ဒီနေရာကို ဝင်ရောက်ဖတ်ရှုနိုင်ပါသည် - https://www.marktechpost.com/2025/10/17/baidus-paddlepaddle-team-releases-paddleocr-vl-0-9b-a-navit-style-ernie-4-5-0-3b-vlm-targeting-end-to-end-multilingual-document-parsing/
ထိုသို့အားဖြင့်, PaddleOCR-VL ၏ မိတ်ဆက်ခြင်းသည် Vision-Language Integration, Machine Learning Based Document Analysis နှင့် Multilingual Text Understanding ကဏ္ဍများတွင် AI ပညာရပ်၏ နောက်တစ်ဦးတည်းသောအရေးပါဆုံး တိုးတက်မှုတစ်ခုဖြစ်သည်။ Chinese, English, Japanese နှင့် ဥရောပဘာသာစကားများအပြင်, အခြားအနည်းဆုံး 50 ဘာသာစကားများကိုပါ ရှင်းလင်းစွာ အသိအမှတ်ပြုနိုင်သည့်စွမ်းရည်ရှိသည်။