Victoria Moon (2025)

17/10/2025

နောက်ဆုံးရ AI သတင်းများ

Baidu ၏ PaddlePaddleအသင်းမှ PaddleOCR-VL 0.9B ကို မကြာသေးမီက မိတ်ဆက်ခဲ့ပြီး၊ ၎င်းသည် ERNIE 4.5 architecture ကို အခြေခံထားသော vision-language model (VLM) ဖြစ်ပြီး end-to-end multilingual document parsing အတွက် ထုတ်လုပ်ထားခြင်းဖြစ်သည်။ ဤ model သည် "NaViT-style" architecture ကို အသုံးပြုထားပြီး multilingual text recognition နှင့် document understanding စွမ်းရည်များကို တိုးတက်စေချင်သော အသုံးပြုသူများအတွက် အထောက်အကူဖြစ်နိုင်သည်။

PaddleOCR-VL 0.9B သည် vision-language AI model တစ်ခုဖြစ်ပြီး၊ visual features နှင့် linguistic information တို့ကို ထိရောက်စွာ ပေါင်းစပ်နိုင်စေသည့် Machine Learning techniques များကို အသုံးပြုသည်။ ERNIE 4.5 Foundation Model ကို Logistic Regression, Transformer-Based Encoding, Attention Mechanisms တို့ဖြင့် လေ့ကျင့်ထားပြီး NaViT (Narrow Attention Vision Transformer) structure ကို တွဲဖက်အသုံးပြုထားသည်။ NaViT structure သည် computation efficiency ကို တိုးတက်စေနိုင်ပြီး ဘာသာစကားအမျိုးမျိုးဖြင့် သက်တမ်းမြင့် Text Recognition ကို အထူးသဖြင့်ထောက်ပံ့ပေးနိုင်သည်။

ဤ system သည် OCR (Optical Character Recognition) နှင့် VQA (Visual Question Answering) tasks များအတွက် test ထုတ်ထားပြီး မြင်သာမှုနိမ့်သော scanned data များကိုပါ နားလည်နိုင်သည့်စွမ်းအားရှိသည်။ Model training အတွက် ကြီးမားသော multilingual corpus များနှင့် visual-text paired data များကို အသုံးပြုထားပြီး AI Algorithm များဖြင့် pre-training လုပ်သည့်အခါမှာလည်း data alignment နှင့် tokenization techniques များကို optimize ပြုလုပ်ထားသည်။

ကောင်းမွန်သော benchmark results များပေးထားပြီး၊ model size 0.9B parameters ရှိသော်လည်း, performance မှာ ချဲ့ထွင်ထားသော model များနှင့်ယှဉ်ပါက competitive ဖြစ်သည်။ Model ကို ချဲ့ထွင်ရန်အတွက် ERNIE 4.5 ၏ 3B parameter version ကိုလည်း စမ်းသပ်ထားပြီး, data efficiency, inference speed နှင့် multilingual accuracy metrics များတွင် တိုးတက်မှုရှိသည်။

ကုမ္ပဏီအနေနှင့် သက်ဆိုင်ရာ model architecture, training datasets နှင့် evaluation methods များကို GitHub repository တွင် ဖော်ပြထားပြီး, AI research community နှင့် developers အတွက် ပိုမိုလွယ်ကူသော access ကို ပံ့ပိုးပေးထားသည်။

အဆိုပါ research အပြည့်အစုံကို ဒီနေရာကို ဝင်ရောက်ဖတ်ရှုနိုင်ပါသည် - https://www.marktechpost.com/2025/10/17/baidus-paddlepaddle-team-releases-paddleocr-vl-0-9b-a-navit-style-ernie-4-5-0-3b-vlm-targeting-end-to-end-multilingual-document-parsing/

ထိုသို့အားဖြင့်, PaddleOCR-VL ၏ မိတ်ဆက်ခြင်းသည် Vision-Language Integration, Machine Learning Based Document Analysis နှင့် Multilingual Text Understanding ကဏ္ဍများတွင် AI ပညာရပ်၏ နောက်တစ်ဦးတည်းသောအရေးပါဆုံး တိုးတက်မှုတစ်ခုဖြစ်သည်။ Chinese, English, Japanese နှင့် ဥရောပဘာသာစကားများအပြင်, အခြားအနည်းဆုံး 50 ဘာသာစကားများကိုပါ ရှင်းလင်းစွာ အသိအမှတ်ပြုနိုင်သည့်စွမ်းရည်ရှိသည်။

Address

Website

facebook.com

Alerts

Be the first to know and let us send you an email when Victoria Moon posts news and promotions. Your email address will not be used for any other purpose, and you can unsubscribe at any time.

Victoria Moon

17/10/2025

Address

Website

Alerts

Shortcuts

Share