Daily AI news

Daily AI news Nơi hội tụ những tin tức và thảo luận hấp dẫn nhất về AI tại Việt Nam

GPT-5 Gặp Khó Khăn Triển Khai: Sam Altman Thừa Nhận “Nhiều Chông G*i Hơn Dự Kiến”Sam Altman vừa công khai thừa nhận nhữn...
09/08/2025

GPT-5 Gặp Khó Khăn Triển Khai: Sam Altman Thừa Nhận “Nhiều Chông G*i Hơn Dự Kiến”

Sam Altman vừa công khai thừa nhận những vấn đề nghiêm trọng trong quá trình ra mắt GPT-5, với hàng nghìn người dùng Reddit tràn vào phàn nàn về “bản nâng cấp tệ hại” này.

Autoswitcher “Hỏng” - Nguyên Nhân Chính Của Thảm Họa
Trong phiên AMA trên Reddit hôm 8/8, Altman giải thích rằng hệ thống “autoswitcher” tự động - công nghệ cốt lõi để chuyển đổi giữa các biến thể GPT-5 - đã bị lỗi nghiêm trọng: “Hôm qua, autoswitcher bị hỏng và ngưng hoạt động trong phần lớn thời gian, khiến GPT-5 trở nên ‘ngu ngốc hơn nhiều’”.
Vấn đề kỹ thuật này khiến hầu hết truy vấn trả phí bị định tuyến nhầm đến các mô hình nhỏ hơn như GPT-5 mini hoặc nano, thay vì phiên bản mạnh mẽ nhất. OpenAI đang điều chỉnh hệ thống định tuyến và hứa sẽ tăng gấp đôi giới hạn tốc độ cho người dùng Plus.

Làn Sóng Phản Đối Từ Cộng Đồng
Thread Reddit “GPT-5 is horrible” thu về gần 5,000 upvote và hơn 1,800 bình luận, phản ánh sự thất vọng sâu sắc của người dùng. Những khiếu nại phổ biến nhất bao gồm:
• Phản hồi ngắn và thiếu cá tính: Người dùng cho rằng GPT-5 mất đi “sự ấm áp” đặc trưng của GPT-4o, trở nên “cứng nhắc như một thư ký quá tải”.
• Giới hạn nghiêm ngặt hơn: Người dùng Plus giờ chỉ được 200 tin nhắn/tuần với GPT-5 Thinking, thay vì truy cập tự do các mô hình cũ.
• Lỗi toán học cơ bản: GPT-5 ban đầu trả lời sai phép tính đơn giản 5.9 = x + 5.11, cho kết quả x = -0.21 thay vì x = 0.79.
“Chart Crime” - Sai Sót Biểu Đồ Gây Tranh Cãi
Phiên livestream ra mắt còn gặp sự cố nghiêm trọng khi các biểu đồ so sánh hiệu suất hiển thị sai lệch hoàn toàn. Altman gọi đây là “mega chart screwup” khi thanh biểu đồ 50% lại nhỏ hơn thanh 47.4%, và hai giá trị 69.1% và 30.8% có cùng chiều cao.

Phản Ứng Từ OpenAI
Để xoa dịu cộng đồng, OpenAI đã:
• Cho phép người dùng Plus tiếp tục sử dụng GPT-4o
• Hứa tăng gấp đôi giới hạn tốc độ cho GPT-5
• Cam kết làm rõ hơn mô hình nào đang phản hồi truy vấn
• Thêm tùy chọn kích hoạt “thinking mode” thủ công

Bối Cảnh Cạnh Tranh Khốc Liệt
Với 700 triệu người dùng hàng tuần, OpenAI vẫn dẫn đầu thị trường AI. Tuy nhiên, những sai sót này mở ra cơ hội cho các đối thủ như Google, Anthropic và Meta tăng tốc cạnh tranh. Thị trường dự đoán đã chuyển sang ủng hộ Google vượt mặt OpenAI vào cuối tháng 8.
Đây có thể là lời cảnh báo cho thời đại “di chuyển nhanh và phá vỡ mọi thứ” trong AI - bạn nghĩ các công ty AI cần chậm lại để đảm bảo chất lượng hay tiếp tục đua tốc độ?

[HOT] GPT-5: Khi AI không chỉ “mạnh hơn” mà còn “thông minh hơn”OpenAI vừa chính thức ra mắt GPT-5 – bước tiến mới đặt n...
07/08/2025

[HOT] GPT-5: Khi AI không chỉ “mạnh hơn” mà còn “thông minh hơn”

OpenAI vừa chính thức ra mắt GPT-5 – bước tiến mới đặt nền tảng cho thế hệ AI cộng sự thật sự. Không chỉ đơn thuần là tăng tốc độ, GPT-5 đã được tái thiết kế với kiến trúc unified cùng hàng loạt nâng cấp đáng giá so với GPT-4/4o:
1. Giảm 45% hiện tượng “hallucination”
Nhờ cơ chế real-time router tự động lựa chọn giữa mô hình phản hồi nhanh và mô hình suy luận sâu, GPT-5 hạn chế đáng kể các lỗi sai thực tế, đặc biệt trong những truy vấn phức tạp.
2. Tư duy sâu hiệu quả hơn (–80% lỗi suy luận)
Chế độ reasoning mới (kích hoạt bằng cụm từ “think hard about this”) giúp GPT-5 xử lý logic, chuỗi ràng buộc và lập luận nhiều bước tốt hơn, giảm đến 80% lỗi so với GPT-4o.
3. Hiệu năng vượt trội trên benchmark
• 74.9% trên SWE-bench Verified – đứng đầu bảng xếp hạng coding automation.
• 94.6% điểm AIME 2025 – kỷ lục cho tư duy toán nâng cao.
• 46.2% trên HealthBench Hard – tăng mạnh so với 31.6% của GPT-4o, mở ra tiềm năng hỗ trợ y tế an toàn hơn.
4. “Vibe coding” – Xây ứng dụng từ một dòng prompt
Đối tác thử nghiệm (Cursor, Windsurf, Vercel…) ghi nhận mã nguồn “sạch” hơn và tỷ lệ lỗi giảm rõ rệt, biến ý tưởng thành MVP nhanh chưa từng thấy.
5. Safe Completions – Trợ lý an toàn, không còn từ chối thẳng
Thay vì “Refuse”, GPT-5 định hướng câu trả lời sao cho vừa hữu ích vừa đảm bảo chuẩn an toàn nội dung, giúp trải nghiệm mượt mà hơn.
6. Phổ cập cho mọi phân khúc
• Người dùng miễn phí: truy cập GPT-5 cơ bản (với quota).
• Plus: hạn mức cao hơn.
• Pro: không giới hạn + GPT-5 Pro chuyên suy luận.
• Doanh nghiệp & giáo dục: triển khai tuần tới với SLA và quyền quản trị nâng cao.

🎯 Tóm lại, GPT-5 là cú nhảy vọt về độ chính xác, khả năng suy luận và tính dễ tiếp cận – biến AI thành cộng sự đắc lực cho developer, doanh nghiệp và cả người dùng phổ thông.
🧠 Bạn đã thử GPT-5 chưa? Tính năng nào khiến bạn ấn tượng nhất và dự định ứng dụng ra sao trong công việc?

🧨 BREAKING: OpenAI tung bom tấn GPT-OSS! Mã nguồn mở, mạnh gần bằng GPT-4, và chạy được cả trên laptop!🔥 OpenAI vừa làm ...
06/08/2025

🧨 BREAKING: OpenAI tung bom tấn GPT-OSS! Mã nguồn mở, mạnh gần bằng GPT-4, và chạy được cả trên laptop!

🔥 OpenAI vừa làm điều mà cộng đồng AI chờ suốt hơn 5 năm: ra mắt GPT-OSS, một bộ mô hình mã nguồn mở hoàn toàn với trọng số, được cấp phép Apache 2.0, hỗ trợ doanh nghiệp tự deploy mà không phụ thuộc vào cloud.

Và không như những lần “open” trước đây chỉ dừng ở blog post, lần này GPT-OSS thật sự mạnh. Không phải kiểu “dùng tạm cũng được” mà là mạnh ngang GPT-3.5 (o3) và gần bằng GPT-4-mini (o4-mini) – tùy theo phiên bản.



⚙️ Có gì trong GPT-OSS?

OpenAI tung ra hai phiên bản:
• gpt-oss-120B: Mixture-of-Experts (MoE), 128 experts/layer, chỉ dùng 4 experts/token, nghĩa là inference rất nhanh.
• gpt-oss-20B: Cân bằng giữa hiệu năng và khả năng deploy dễ dàng – bạn có thể chạy được trên PC có 3090 hoặc MacBook M-series cấu hình cao. Ai chăm tối ưu thì có thể thử cả điện thoại 😎

Cả hai đều hỗ trợ quantization 4-bit, dùng đúng tokenizer GPT-4, tương thích format prompt của OpenAI, nên việc chuyển giữa mô hình cục bộ và GPT API cực mượt.



📊 Benchmark khét lẹt
• Elo trong lập trình cạnh tranh: 2516
• Math AIME Accuracy: 98%
• Viết code, trả lời reasoning, test đa nhiệm: sánh ngang o4-mini
• Có thể chạy local, fine-tune theo nhu cầu, mà không cần gửi dữ liệu lên cloud



🛡 Vì sao đây là cú chốt chiến lược?

Trong bối cảnh nhiều doanh nghiệp dè chừng các mô hình đến từ Trung Quốc như DeepSeek, Kimi, Qwen… thì GPT-OSS trở thành lựa chọn “made in USA” uy tín, rõ ràng, dễ kiểm toán. Giờ bạn có thể:
• Triển khai mô hình trong hạ tầng riêng (on-premise)
• Giữ dữ liệu nhạy cảm, không cần lo NDAs hay leak
• Linh hoạt mở rộng: dev local → scale cloud chỉ cần đổi API endpoint, không cần viết lại code



❗ Nhưng vẫn có điểm yếu

GPT-OSS vẫn có hallucination cao hơn GPT-4. Với các tác vụ factual như pháp lý, y tế, giáo dục… bạn cần layer kiểm tra, hoặc gắn mô hình phụ để fact-check. Tuy nhiên, khác biệt lớn lần này là: bạn kiểm soát được mô hình.



💡 Kết luận

GPT-OSS không chỉ là mô hình AI mã nguồn mở mạnh nhất từ trước đến nay của OpenAI, mà còn là bước đi chiến lược cân bằng giữa thương mại và cộng đồng. Nó mở ra kỷ nguyên mới: AI cá nhân hóa, bảo mật, linh hoạt mà không cần hy sinh sức mạnh.

Nếu bạn thích vọc AI, hoặc đang phát triển sản phẩm yêu cầu xử lý local, đây là lúc để mở máy, kéo model về test thử, hoặc vào Playground để trải nghiệm trước.

📎 Mình để link tải + Playground ở comment.
💬 Chia sẻ cảm nhận hoặc hỏi gì cứ cmt nhé.

Tương lai của AI Agent: Tại sao các mô hình ngôn ngữ nhỏ (SLM) sẽ thay thế LLM?Một nghiên cứu đột phá mới từ NVIDIA Rese...
05/08/2025

Tương lai của AI Agent: Tại sao các mô hình ngôn ngữ nhỏ (SLM) sẽ thay thế LLM?

Một nghiên cứu đột phá mới từ NVIDIA Research vừa đưa ra luận điểm táo bạo và có căn cứ khoa học: Small Language Models (SLM) sẽ là trụ cột của tương lai Agentic AI, thay thế Large Language Models (LLM) trong hầu hết các ứng dụng thực tế.

🎯 Luận điểm chính của nghiên cứu
Nghiên cứu đưa ra ba quan điểm cốt lõi về SLM:
V1: Đủ mạnh để xử lý các nhiệm vụ ngôn ngữ trong hệ thống agentic
V2: Phù hợp hơn về mặt vận hành so với LLM
V3: Tiết kiệm chi phí hơn đáng kể cho đa số trường hợp sử dụng

📊 Bằng chứng thực nghiệm
Hiệu suất so sánh
- Microsoft Phi-3 (7B): Đạt hiệu suất ngang các mô hình 70B nhưng nhanh hơn 15-70 lần
- NVIDIA Nemotron-H (2-9B): Độ chính xác tương đương LLM 30B nhưng chỉ cần 1/10 FLOPs
- DeepSeek-R1-Distill-7B: Vượt trội hơn GPT-4o và Claude-3.5-Sonnet trên các tác vụ suy luận
- SmolLM2 (1.7B): Sánh ngang với mô hình 14B đồng thời, bằng mô hình 70B của 2 năm trước

Phân tích chi phí
- Vận hành SLM 7B rẻ hơn 10-30 lần so với LLM 70-175B
- Fine-tuning chỉ mất vài giờ GPU thay vì hàng tuần
- Triển khai edge trên thiết bị consumer với độ trễ thấp

🔬 Phương pháp nghiên cứu
1. Định nghĩa khoa học
- SLM: Mô hình ngôn ngữ có thể chạy trên thiết bị consumer thông thường với độ trễ đủ thấp để phục vụ thực tế (< 10B tham số năm 2025)
- LLM: Mô hình ngôn ngữ không phải SLM

2. Thuật toán chuyển đổi LLM→SLM
Nghiên cứu đề xuất quy trình 6 bước:
S1: Thu thập dữ liệu sử dụng có bảo mật
S2: Lọc và làm sạch dữ liệu (10k-100k mẫu)
S3: Phân cụm tác vụ bằng kỹ thuật unsupervised
S4: Lựa chọn SLM phù hợp cho từng tác vụ
S5: Fine-tuning chuyên biệt (LoRA/QLoRA/Knowledge Distillation)
S6: Lặp và cải tiến liên tục

3. Case Studies thực tế
Phân tích 3 agent mã nguồn mở phổ biến:
- MetaGPT: 60% truy vấn có thể thay thế bằng SLM
- Open Operator: 40% có thể thay thế
- Cradle: 70% có thể thay thế

💡 Insight then thiết kế hệ thống

Kiến trúc Heterogeneous
Nghiên cứu đề xuất hệ thống lai:
SLM làm default cho các tác vụ chuyên biệt
LLM chỉ được gọi khi cần khả năng tổng quát cao
Modular composition theo nguyên lý "Lego-like"

Lý do SLM phù hợp hơn
1. Narrow functionality exposure: AI Agent chỉ sử dụng một phần nhỏ khả năng LLM
2. Behavioral alignment: Cần format output nghiêm ngặt cho tương tác với code
3. Natural heterogeneity: Hệ thống agent tự nhiên cho phép dùng nhiều mô hình khác nhau
4. Data collection pathway: Tương tác agent tạo ra dữ liệu training chất lượng cao

🌍 Tác động kinh tế và môi trường
Số liệu thị trường
- Đầu tư hạ tầng AI 2024: $57B
- Thị trường LLM API: $5.6B (2024)
- Dự báo thị trường Agentic AI: $200B (2034)
- Tỷ lệ đầu tư/doanh thu hiện tại: 10:1 (chưa bền vững)

Lợi ích khi chuyển sang SLM
- Giảm drastically chi phí vận hành
- Democratization: Nhiều tổ chức có thể tham gia phát triển AI
- Sustainability: Giảm tiêu thụ năng lượng và tác động môi trường
- Edge deployment: Bảo mật dữ liệu tốt hơn, độ trễ thấp hơn

⚡ Những rào cản và giải pháp
Rào cản hiện tại
B1: Đầu tư lớn vào hạ tầng LLM tập trung
B2: Benchmark tổng quát không phù hợp cho đánh giá SLM trong agentic context
B3: Thiếu nhận thức về tiềm năng SLM

Giải pháp công nghệ
NVIDIA Dynamo: Framework inference phân tán độ trễ thấp
Advanced inference scheduling: Tăng tính linh hoạt cho SLM deployment

PEFT techniques: LoRA, DoRA cho fine-tuning hiệu quả

🔮 Kết luận và triển vọng
Nghiên cứu này không chỉ đưa ra lý thuyết mà còn cung cấp:

Bằng chứng thực nghiệm về hiệu suất SLM

Phương pháp cụ thể để chuyển đổi

Roadmap thực tế cho việc áp dụng

Quan điểm của tác giả: Đây không phải khuyến nghị mà là "necessary consequence" nếu cộng đồng AI th

📚 Nguồn nghiên cứu: "Small Language Models are the Future of Agentic AI" - Peter Belcak et al., NVIDIA Research, arXiv:2506.02153v1, June 2025

Bạn nghĩ sao về xu hướng "Small but Specialized" này? Liệu nó có thể thay đổi cách chúng ta thiết kế và triển khai AI systems không?

14/07/2025

🚀 Grok 4 vừa chính thức “phá đảo” Internet!

Elon và team vừa tung ra loạt demo, và cộng đồng dev đang bùng nổ vì quá nhiều tính năng đột phá.

Tôi đã tổng hợp 15 tính năng mới khiến bạn phải “wow” 🤯
👉 Xem ngay dưới phần comment bên dưới!
Bạn sẽ muốn thử ngay hôm nay.

21/05/2025

Google I/O 2025: Kỷ nguyên AI mới với Gemini 2.5 và các đột phá công nghệ

Ngày 20/5/2025, tại sự kiện Google I/O, CEO Sundar Pichai đã công bố hàng loạt cải tiến đột phá trong lĩnh vực trí tuệ nhân tạo, đánh dấu bước tiến lớn trong hành trình hiện thực hóa AI phổ quát.

🌟 Gemini 2.5: Mô hình AI tiên tiến nhất của Google
Gemini 2.5 Pro dẫn đầu bảng xếp hạng LMArena, nổi bật với khả năng suy luận nâng cao nhờ chế độ Deep Think, mô phỏng tư duy con người bằng cách phân tích và giải quyết vấn đề một cách có hệ thống .

Gemini 2.5 Flash là phiên bản nhẹ hơn, tối ưu cho tốc độ và chi phí, phù hợp với các ứng dụng yêu cầu phản hồi nhanh và hiệu quả.

🧑‍💼 Trợ lý AI cá nhân hóa: Project Astra và Mariner
Project Astra phát triển thành Gemini Live, tích hợp khả năng nhận diện hình ảnh và chia sẻ màn hình, hỗ trợ người dùng trong các tình huống như luyện phỏng vấn hoặc huấn luyện thể thao.

Project Mariner giới thiệu Agent Mode, cho phép AI thực hiện các tác vụ như tìm kiếm thông tin, đặt lịch hẹn và tương tác với các ứng dụng web, mở ra kỷ nguyên mới cho trợ lý số thông minh .

🔍 AI Mode: Tái định nghĩa trải nghiệm tìm kiếm
AI Mode trong Google Search cho phép người dùng đặt các câu hỏi phức tạp và nhận được câu trả lời chi tiết, dựa trên khả năng suy luận đa bước của Gemini. Tính năng này hiện đã triển khai tại Mỹ và sẽ sớm mở rộng sang các thị trường khác .

🎨 Sáng tạo nội dung với Veo 3, Imagen 4 và Flow
Veo 3 là mô hình tạo video AI tiên tiến, có khả năng tạo ra video 1080p với âm thanh đồng bộ, phù hợp cho các nhà sáng tạo nội dung.

Imagen 4 nâng cao khả năng tạo hình ảnh từ văn bản, cho ra đời những hình ảnh chất lượng cao và chi tiết.

Flow là công cụ mới hỗ trợ tạo video điện ảnh, cho phép người dùng mở rộng các đoạn clip ngắn thành những cảnh dài mạch lạc, tích hợp sâu với Veo và Imagen .

📱 Android và Workspace: AI tích hợp sâu vào hệ sinh thái
Gemini Nano mang khả năng AI đến thiết bị Android, hỗ trợ mô tả hình ảnh chi tiết và cảnh báo lừa đảo trong cuộc gọi.

Google Workspace tích hợp Gemini để tóm tắt email, tạo phản hồi thông minh và hỗ trợ người dùng trong các tác vụ hàng ngày.

🌐 Google Beam và Android XR: Mở rộng trải nghiệm thực tế
Google Beam là nền tảng gọi video 3D mới, sử dụng AI để tạo cảm giác như đang trò chuyện trực tiếp, dự kiến ra mắt cùng HP vào cuối năm nay.

Android XR, hợp tác với Samsung và Qualcomm, là nền tảng thực tế mở rộng mới, tích hợp Gemini để cung cấp trợ lý ảo và điều hướng thông minh cho kính và tai nghe thực tế ảo .

🔮 Hướng tới AI phổ quát
Demis Hassabis, CEO của DeepMind, nhấn mạnh rằng các tiến bộ trong Gemini đang đặt nền móng cho trí tuệ nhân tạo tổng quát (AGI), với khả năng suy luận, mô hình hóa thế giới và sáng tạo, hướng tới mục tiêu đạt được AGI trong vòng 5–10 năm tới .

📌 Tổng kết: Google I/O 2025 đánh dấu bước ngoặt quan trọng trong việc tích hợp AI vào mọi khía cạnh của công nghệ, từ tìm kiếm, trợ lý cá nhân đến sáng tạo nội dung và trải nghiệm thực tế. Với Gemini 2.5 và các công cụ mới, Google đang tiến gần hơn đến mục tiêu xây dựng một hệ sinh thái AI toàn diện và hữu ích cho người dùng toàn cầu.

Send a message to learn more

10/04/2025

Để mình giải thích cho các bạn hiểu về hai loại protocol MCP và A2A đang rất hot trên cộng đồng AI và được bàn tán rất nhiều.

1. Mục tiêu và phạm vi sử dụng

Agent2Agent Protocol (A2A):

Được thiết kế nhằm tạo ra một tiêu chuẩn giao tiếp mở cho các agent AI.

Cho phép các agent từ các nền tảng, nhà cung cấp hoặc hệ thống khác nhau có thể trao đổi thông tin, phối hợp tác vụ mà không bị ràng buộc bởi cơ chế hay giao diện độc quyền của từng hệ thống.

Mục tiêu cốt lõi của A2A là tăng cường tính liên kết (interoperability) và khả năng mở rộng của mạng lưới agent.

MCP:

MCP thường hướng tới việc cung cấp một lớp quản lý hoặc điều phối bổ sung cho hệ thống các agent.

Các tính năng của MCP có thể bao gồm việc tối ưu hoá luồng thông tin, quản lý tài nguyên, giám sát hiệu năng và bảo mật cho các giao tiếp giữa agent.

Với MCP, hệ thống được kiểm soát ở một cấp độ “meta” nhằm đảm bảo các tác vụ được phân phối hiệu quả và ổn định hơn.

2. Chức năng và cách thức hoạt động

A2A:

Tập trung chủ yếu vào giao thức trao đổi dữ liệu giữa các agent.

Cung cấp các định dạng và giao diện chuẩn cho việc truyền tải thông điệp, giúp cho các agent “hiểu” và xử lý thông tin đến từ nhau một cách trực tiếp.

Đặc biệt hữu ích khi cần mở rộng quy mô, cho phép các agent độc lập từ nhiều nền tảng khác nhau giao tiếp mà không cần thông qua trung gian độc quyền.

MCP:

Có thể xem là “bộ khung quản lý” cho việc phối hợp hoạt động của các agent.

Ngoài việc hỗ trợ trao đổi thông tin, MCP thường đi kèm các cơ chế giám sát, đánh giá và điều phối hoạt động của hệ thống.

Điều này giúp đảm bảo rằng các tác vụ, khi được phân phối cho nhiều agent, vẫn được theo dõi và xử lý theo một qui trình chuẩn, góp phần nâng cao hiệu quả và độ ổn định của toàn bộ hệ thống.

3. Vai trò trong hệ sinh thái AI

A2A:

Mở rộng khả năng “nói chuyện” giữa các agent, tạo nên một mạng lưới liên kết rộng mở, nơi mà mỗi agent có thể tự do trao đổi và phối hợp với các agent khác.

Thích hợp cho các ứng dụng cần sự linh hoạt và mở rộng cao, cho phép tích hợp từ nhiều nguồn dữ liệu và nền tảng khác nhau.

MCP:

Tập trung vào việc tạo nên một môi trường quản lý an toàn và hiệu quả cho các agent hoạt động.

Khi kết hợp với A2A (ví dụ như “A2A❤️MCP”), hệ thống không chỉ có khả năng giao tiếp mở mà còn được điều phối, kiểm soát, và tối ưu hoá một cách bài bản.

Điều này đặc biệt có ích trong các ứng dụng quy mô lớn, nơi cần sự giám sát liên tục về hiệu suất, bảo mật và độ tin cậy của toàn bộ hệ thống.

Send a message to learn more

10/04/2025

🔥 Google giới thiệu loạt cập nhật lớn trong hệ sinh thái AI, từ phần cứng đến phần mềm 🔥

1. Phần cứng – TPU Ironwood
Google công bố thế hệ TPU mới mang tên Ironwood, dự kiến ra mắt cuối năm nay. Đây là phiên bản thứ 7 của dòng chip TPU, cung cấp hiệu suất tính toán gấp 5 lần và băng thông bộ nhớ cao gấp 6 lần so với thế hệ trước. Ironwood được thiết kế để đáp ứng nhu cầu ngày càng cao của các mô hình AI lớn.

2. Công cụ phát triển Agent

Agent Development Kit (ADK): Bộ công cụ mã nguồn mở hỗ trợ xây dựng các hệ thống multi-agent với số lượng dòng lệnh tối giản, giúp tăng tốc quá trình phát triển ứng dụng AI theo hướng agentic.

Agent2Agent Protocol (A2A): Giao thức mới cho phép các agent giao tiếp liên nền tảng, hỗ trợ khả năng tương tác linh hoạt giữa các hệ thống AI khác nhau. Khi kết hợp với A2A (ví dụ như “A2A❤️MCP”), hệ thống không chỉ có khả năng giao tiếp mở mà còn được điều phối, kiểm soát, và tối ưu hoá một cách bài bản.

Agentspace – Nâng cấp tính năng:

Agent Gallery: Cung cấp thư viện các agent mẫu.

Agent Designer: Công cụ no-code cho phép người dùng tạo agent mà không cần kiến thức lập trình.

Tích hợp Chrome Enterprise: Hỗ trợ triển khai agent vào môi trường doanh nghiệp.

3. Nâng cấp trong hệ sinh thái Gemini và Vertex AI

Gemini 2.5 Pro: Tích hợp trong chế độ nghiên cứu sâu của Gemini Advanced.

Gemini 2.5 Flash: Tối ưu cho tốc độ xử lý thấp và chi phí hợp lý, hướng đến các ứng dụng thời gian thực.

Live API: Hỗ trợ xử lý âm thanh và video trực tiếp trong thời gian thực.

Imagen 3: Cải thiện khả năng tạo ảnh, bao gồm inpainting chất lượng cao.

Chirp 3: Tạo giọng nói tùy chỉnh chỉ từ 10 giây mẫu âm thanh.

Veo 2: Cập nhật lớn cho công cụ AI video, hỗ trợ chỉnh sửa nâng cao và kiểm soát chuyển động camera.

Lyria: Mô hình tạo nhạc từ văn bản, hiện đang trong giai đoạn thử nghiệm hạn chế.

4. Tính năng AI trong Google Workspace

Audio Overview trong Docs: Tạo bản tóm tắt âm thanh từ tài liệu văn bản.

Help me Refine: Công cụ hỗ trợ chỉnh sửa nội dung nâng cao trong Google Docs.

Help me Analyse: Tự động phân tích dữ liệu trong Google Sheets và đề xuất insight.

Vids Enhancement: Nâng cấp chất lượng hình ảnh cho video tạo bằng AI nhờ ứng dụng mô hình Veo 2.

5. Firebase Studio – nền tảng phát triển ứng dụng AI
Google giới thiệu một môi trường phát triển đám mây mới theo định hướng agentic, tích hợp đầy đủ công cụ để phát triển ứng dụng AI full-stack. Firebase Studio hướng tới việc tối giản quy trình xây dựng sản phẩm AI cho các nhóm phát triển.

Send a message to learn more

Không phải là GPT5 mà OpenAI tung phiên bản mới của GPT-4o và nhảy vọt lên vị trí thứ hai trên Arena Leaderboard chỉ sau...
28/03/2025

Không phải là GPT5 mà OpenAI tung phiên bản mới của GPT-4o và nhảy vọt lên vị trí thứ hai trên Arena Leaderboard chỉ sau Gemini 2.5 Pro!!!!

GPT‑4o, trong đó chữ “o” viết tắt của “omni” (toàn năng), là phiên bản nâng cấp mới nhất của ChatGPT dựa trên công nghệ GPT‑4. Ra mắt lần đầu vào ngày 13/05/2024, GPT‑4o được thiết kế để xử lý đa dạng đầu vào như văn bản, hình ảnh và âm thanh, đồng thời tạo ra các phản hồi bằng nhiều dạng khác nhau. Đây là bước tiến vượt bậc so với các phiên bản trước như GPT‑4 Turbo, không chỉ ở khả năng xử lý đa phương thức mà còn ở hiệu năng và chi phí vận hành thấp hơn.

Những cải tiến nổi bật trong phiên bản mới:
- Tuân theo chỉ dẫn chi tiết tốt hơn: GPT‑4o mới có khả năng hiểu và thực hiện tốt hơn các yêu cầu phức tạp, đặc biệt là khi trong prompt có nhiều yêu cầu liên tiếp.
- Giải quyết các vấn đề kỹ thuật và lập trình: Mô hình được cải tiến vượt trội trong việc xử lý các bài toán kỹ thuật và lập trình, cho phép đưa ra các giải pháp chính xác hơn cho các vấn đề phức tạp.
- Cải thiện trực giác và tính sáng tạo: Phiên bản mới cho thấy khả năng “nghĩ” và sáng tạo cao hơn, giúp tạo ra các phản hồi tự nhiên, linh hoạt và mang tính đột phá hơn.
- Giảm thiểu việc sử dụng emoji: Một điểm thay đổi vui nhộn nhưng cũng cho thấy sự chuyên nghiệp hơn khi giảm số lượng emoji xuất hiện trong phản hồi, hướng đến sự chính xác và trang nhã.

Vị trí và tầm quan trọng trong dòng sản phẩm ChatGPT:
- GPT‑4o là bước nâng cấp tiếp theo trong dòng GPT‑4 của OpenAI. Không phải là GPT‑5, phiên bản mới này vẫn giữ nguyên cốt lõi của GPT‑4 nhưng được tối ưu hóa về tốc độ, khả năng đa phương thức và hiệu quả xử lý. Một số điểm nổi bật bao gồm:
- Tốc độ phản hồi nhanh hơn: Các cải tiến về kiến trúc giúp GPT‑4o phản hồi nhanh gấp đôi so với GPT‑4 Turbo, tạo ra trải nghiệm tương tác mượt mà, thậm chí đối với các cuộc hội thoại bằng giọng nói.
- Tiết kiệm chi phí: Việc tối ưu hóa không chỉ giúp tăng tốc độ mà còn giảm chi phí tính toán, làm cho công nghệ AI của OpenAI trở nên dễ tiếp cận hơn cho cả người dùng miễn phí lẫn thuê bao.
- Hỗ trợ đa ngôn ngữ mạnh mẽ: Ngoài khả năng xử lý tốt tiếng Anh, GPT‑4o còn được cải thiện đáng kể trong việc xử lý các ngôn ngữ khác, giúp mở rộng phạm vi ứng dụng trên toàn cầu.
- Tích hợp hoàn chỉnh các dạng đầu vào: Thay vì sử dụng nhiều mô hình riêng biệt cho văn bản, hình ảnh và âm thanh, GPT‑4o xử lý tất cả thông qua một mạng nơ-ron duy nhất, giữ lại được nhiều thông tin hơn và tạo ra các phản hồi chính xác, liên kết chặt chẽ giữa các dạng dữ liệu.

Kết luận
Phiên bản mới của GPT‑4o đánh dấu một bước tiến quan trọng trong sự phát triển của ChatGPT, nâng cao khả năng hiểu và phản hồi thông qua nhiều phương thức khác nhau. Với những cải tiến về tuân thủ chỉ dẫn, xử lý kỹ thuật và lập trình, tăng cường trực giác, sáng tạo và sự trang nhã trong giao diện (ít emoji hơn), GPT‑4o hứa hẹn sẽ là trợ thủ đắc lực cho cả người dùng cá nhân và doanh nghiệp. Đây không phải là GPT‑5 mà là một bước nâng cấp vượt trội của dòng GPT‑4o, tiếp tục khẳng định vị thế tiên phong của OpenAI trong lĩnh vực trí tuệ nhân tạo đa phương thức.

[HOT NEWS!!!!!!!!!!!] Gemini 2.5, phiên bản mới nhất của Google DeepMind, đang "làm mưa làm gió" nhờ khả năng xử lý phức...
26/03/2025

[HOT NEWS!!!!!!!!!!!]

Gemini 2.5, phiên bản mới nhất của Google DeepMind, đang "làm mưa làm gió" nhờ khả năng xử lý phức tạp vượt trội. Điểm nổi bật của mẫu 2.5 Pro Experimental gồm:
- Khả năng suy luận ưu việt: Gemini 2.5 có thể "suy nghĩ" trước khi trả lời, kết hợp các kỹ thuật như reinforcement learning và chain-of-thought để phân tích, đưa ra kết luận logic. Điều này giúp nó đạt hiệu suất cao trên các bài kiểm tra về toán, khoa học và các bài kiểm tra chuyên sâu khác, ví dụ như đạt 18.8% trên Humanity’s Last Exam.
- Hiệu năng mã hóa (coding) đột phá: Với cải tiến vượt trội so với phiên bản 2.0, Gemini 2.5 Pro xuất sắc trong việc tạo ra ứng dụng web đẹp mắt, chuyển đổi và chỉnh sửa mã code, đạt 63.8% trên SWE-Bench Verified – tiêu chuẩn đánh giá mã code agentic.
- Khả năng đa phương tiện và xử lý ngữ cảnh rộng: Gemini 2.5 duy trì những thế mạnh vốn có của các mẫu Gemini trước đây như hỗ trợ đa phương tiện (text, audio, hình ảnh, video và code) và khả năng xử lý ngữ cảnh cực lớn với 1 triệu token (sắp mở rộng lên 2 triệu).

Những tính năng này đã giúp Gemini 2.5 Pro Experimental vươn lên dẫn đầu bảng xếp hạng LMArena, chứng tỏ nó không chỉ vượt trội về mặt lý thuyết mà còn ứng dụng hiệu quả trong các nhiệm vụ phức tạp, từ giải quyết bài toán đến phát triển ứng dụng. Đây chính là lý do Gemini 2.5 được đánh giá là mẫu AI thông minh nhất hiện nay.

24/03/2025

🔥RF-DETR: Bước Đột Phá Mới Trong Phát Hiện Vật Thể Thời Gian Thực 🔥

Hôm nay mình muốn giới thiệu đến mọi người một công nghệ AI mới cực kỳ ấn tượng – RF-DETR. Đây không chỉ là một mô hình phát hiện vật thể thời gian thực, mà còn là sự kết hợp của những tiến bộ hiện đại trong kiến trúc transformer và khả năng pre-training mạnh mẽ, mang lại hiệu năng vượt trội trên cả bộ dữ liệu truyền thống và những tập dữ liệu thực tế.

1. Tóm tắt RF-DETR là gì?
Hiệu năng vượt trội: RF-DETR là mô hình realtime đầu tiên đạt trên 60 mAP trên bộ dữ liệu Microsoft COCO. Điều này chứng tỏ khả năng nhận diện và định vị đối tượng nhanh chóng, chính xác trên các ứng dụng từ giám sát đến xử lý ảnh thời gian thực.
Kiến trúc tiên tiến: Được xây dựng theo hướng DETR (Detection Transformer) với sự kết hợp của LW-DETR và pre-trained backbone DINOv2, RF-DETR tận dụng sức mạnh của transformer để học từ các lượng dữ liệu khổng lồ, giúp mô hình thích ứng với nhiều miền dữ liệu khác nhau.
Đa kích cỡ mô hình: RF-DETR hiện được phát hành với hai kích cỡ:
RF-DETR-base (29M tham số)
RF-DETR-large (128M tham số)
Nhờ cấu trúc linh hoạt này, mô hình có thể cân bằng giữa độ chính xác và tốc độ tùy theo ứng dụng, đặc biệt trên các thiết bị biên với khả năng tính toán hạn chế.

2. Kiến trúc và phương pháp tiếp cận
Nền tảng kiến trúc: RF-DETR được xây dựng trên nền tảng của Deformable DETR, nhưng thay vì sử dụng cơ chế self-attention đa tỉ lệ truyền thống, mô hình này sử dụng một backbone đơn giản để trích xuất đặc trưng từ ảnh. Điều này giúp giảm độ phức tạp và tăng tốc độ xử lý.

Sức mạnh của pre-training: Với việc tích hợp pre-trained DINOv2, RF-DETR tận dụng tri thức từ một lượng dữ liệu khổng lồ, giúp cải thiện khả năng học từ dữ liệu nhỏ và nâng cao hiệu suất trong các tình huống đặc thù.
Huấn luyện đa độ phân giải: Một điểm cộng lớn khác là khả năng huấn luyện mô hình ở nhiều độ phân giải khác nhau, cho phép người dùng điều chỉnh trade-off giữa độ chính xác và thời gian xử lý mà không cần phải huấn luyện lại từ đầu.

3. Điểm nổi bật về hiệu suất và benchmarking
RF-DETR được đánh giá dựa trên ba tiêu chí chính:
mAP trên COCO: Đạt mốc 60+ mAP, cho thấy độ chính xác cao so với các mô hình realtime hiện nay.
mAP trên RF100-VL: Bộ đánh giá RF100-VL – một tập hợp 100 bộ dữ liệu từ hơn 500,000 dataset của Roboflow Universe – giúp đánh giá khả năng thích ứng của mô hình trong các tình huống thực tế, từ ảnh vệ tinh đến hình ảnh công nghiệp.
Tốc độ xử lý: Với độ trễ tính toán thấp (ví dụ: RF-DETR-B chỉ khoảng 6.0 ms/img trên GPU T4 khi sử dụng TensorRT10 FP16), RF-DETR không chỉ chính xác mà còn đáp ứng được yêu cầu về tốc độ của các ứng dụng thời gian thực.

Bảng so sánh ngắn gọn:
RF-DETR-B: mAP COCO ~53.3, mAP RF100-VL ~86.7, Latency: 6.0 ms
Các mô hình khác (như YOLO11m, YOLOv8m) tuy cạnh tranh nhưng RF-DETR luôn nằm trong top đầu khi xét về tổng thời gian xử lý (Total Latency) và khả năng thích ứng miền.

4. Ứng dụng và cách sử dụng
Triển khai nhanh chóng: RF-DETR đã được cung cấp với checkpoint huấn luyện sẵn trên bộ dữ liệu COCO, giúp các nhà phát triển dễ dàng áp dụng transfer learning cho các dự án cụ thể.
Hỗ trợ huấn luyện: Gói Python rfdetr và Colab Notebook hướng dẫn fine-tuning giúp quá trình huấn luyện trở nên đơn giản, nhanh chóng và hiệu quả.
Mã nguồn mở: RF-DETR được phát hành dưới giấy phép Apache 2.0 trên GitHub, mở ra cơ hội cho cộng đồng nghiên cứu và phát triển cùng nhau cải thiện các ứng dụng computer vision.

5. Kết luận
RF-DETR không chỉ mang lại một bước tiến mới trong phát hiện vật thể thời gian thực mà còn mở ra hướng đi cho các mô hình AI với khả năng thích ứng linh hoạt, tốc độ nhanh và độ chính xác cao. Với khả năng chạy mượt trên các thiết bị biên, RF-DETR hứa hẹn sẽ là công cụ hữu ích cho nhiều ứng dụng từ an ninh, giám sát cho đến các giải pháp công nghiệp hiện đại.
Hãy theo dõi và trải nghiệm RF-DETR – chia sẻ ý kiến, dự án của bạn và cùng nhau đẩy mạnh sự phát triển của computer vision trong thời đại AI!


🔗Blog: https://blog.roboflow.com/rf-detr/
🔗Colab: https://t.co/IcYqA2L1uN
🔗Github: https://github.com/roboflow/rf-detr…

🔥 Baidu tung ra ERNIE 4.5 & ERNIE X1 – Thách thức mới cho cuộc đua AI toàn cầu! 🔥Baidu có tên tiếng Trung là 百度 (pinyin:...
17/03/2025

🔥 Baidu tung ra ERNIE 4.5 & ERNIE X1 – Thách thức mới cho cuộc đua AI toàn cầu! 🔥
Baidu có tên tiếng Trung là 百度 (pinyin: Bǎidù), là một công cụ tìm kiếm lớn thứ hai trên thế giới và lớn nhất ở Trung Quốc, chiếm hơn 75% thị phần trong thị trường nội địa. Cuộc đua AI ngày càng nóng khi Baidu chính thức công bố hai mô hình AI mới – ERNIE 4.5 và ERNIE X1!

ERNIE 4.5:
- Mô hình AI đa phương thức với khả năng hiểu ngôn ngữ, logic, trí nhớ và sáng tạo vượt trội.
- Cải thiện đáng kể khả năng nhận diện meme, ảnh chế và ngôn ngữ biểu cảm trên internet.
- Hiệu suất gần như ngang ngửa GPT-4.5 nhưng chi phí rẻ hơn nhiều!

ERNIE X1 – “Trí tuệ lý luận” mạnh nhất của Baidu:
- Được thiết kế để suy nghĩ sâu hơn, lập kế hoạch tốt hơn và tự động sử dụng công cụ.
- So với DeepSeek-R1, ERNIE X1 có hiệu suất tương đương nhưng giá chỉ một nửa!
CHI PHÍ SIÊU RẺ 💰
- GPT-4.5: $75 / 1M token input, $150 / 1M token output.
- ERNIE 4.5: Chỉ $0.55 / 1M token input, $2.2 / 1M token output!
- ERNIE X1 còn rẻ hơn với chỉ $0.28 / 1M token input, $1.1 / 1M token output!

ERNIE 4.5 có thực sự mạnh hơn GPT-4.5?
Theo biểu đồ hiệu suất, ERNIE 4.5 đạt điểm trung bình 79.6, ngang ngửa GPT-4.5 và nhỉnh hơn DeepSeek-V3 Chat. Điều này cho thấy Baidu đang dần bắt kịp các mô hình hàng đầu của Mỹ với chi phí thấp hơn rất nhiều!

Trước đây, Baidu gặp khó khăn trong việc phổ biến mô hình ERNIE, nhưng với bước tiến này, họ đang trở lại mạnh mẽ. Với khả năng xử lý đa phương thức và chi phí rẻ hơn nhiều so với GPT-4.5, ERNIE 4.5 và ERNIE X1 có thể sẽ là những đối thủ nặng ký trong cuộc chiến AI toàn cầu!

📌Ref: https://www.cnbc.com/2025/03/16/chinas-baidu-launches-two-new-ai-models-as-industry-competition-heats-up.html

Address

Vung Tau

Website

Alerts

Be the first to know and let us send you an email when Daily AI news posts news and promotions. Your email address will not be used for any other purpose, and you can unsubscribe at any time.

Contact The Business

Send a message to Daily AI news:

Share