Daily AI news

Daily AI news Page này thường xuyên cập nhật các thông tin mới nhất, hấp dẫn nhất về Trí Tuệ Nhân Tạo

21/05/2025

Google I/O 2025: Kỷ nguyên AI mới với Gemini 2.5 và các đột phá công nghệ

Ngày 20/5/2025, tại sự kiện Google I/O, CEO Sundar Pichai đã công bố hàng loạt cải tiến đột phá trong lĩnh vực trí tuệ nhân tạo, đánh dấu bước tiến lớn trong hành trình hiện thực hóa AI phổ quát.

🌟 Gemini 2.5: Mô hình AI tiên tiến nhất của Google
Gemini 2.5 Pro dẫn đầu bảng xếp hạng LMArena, nổi bật với khả năng suy luận nâng cao nhờ chế độ Deep Think, mô phỏng tư duy con người bằng cách phân tích và giải quyết vấn đề một cách có hệ thống .

Gemini 2.5 Flash là phiên bản nhẹ hơn, tối ưu cho tốc độ và chi phí, phù hợp với các ứng dụng yêu cầu phản hồi nhanh và hiệu quả.

🧑‍💼 Trợ lý AI cá nhân hóa: Project Astra và Mariner
Project Astra phát triển thành Gemini Live, tích hợp khả năng nhận diện hình ảnh và chia sẻ màn hình, hỗ trợ người dùng trong các tình huống như luyện phỏng vấn hoặc huấn luyện thể thao.

Project Mariner giới thiệu Agent Mode, cho phép AI thực hiện các tác vụ như tìm kiếm thông tin, đặt lịch hẹn và tương tác với các ứng dụng web, mở ra kỷ nguyên mới cho trợ lý số thông minh .

🔍 AI Mode: Tái định nghĩa trải nghiệm tìm kiếm
AI Mode trong Google Search cho phép người dùng đặt các câu hỏi phức tạp và nhận được câu trả lời chi tiết, dựa trên khả năng suy luận đa bước của Gemini. Tính năng này hiện đã triển khai tại Mỹ và sẽ sớm mở rộng sang các thị trường khác .

🎨 Sáng tạo nội dung với Veo 3, Imagen 4 và Flow
Veo 3 là mô hình tạo video AI tiên tiến, có khả năng tạo ra video 1080p với âm thanh đồng bộ, phù hợp cho các nhà sáng tạo nội dung.

Imagen 4 nâng cao khả năng tạo hình ảnh từ văn bản, cho ra đời những hình ảnh chất lượng cao và chi tiết.

Flow là công cụ mới hỗ trợ tạo video điện ảnh, cho phép người dùng mở rộng các đoạn clip ngắn thành những cảnh dài mạch lạc, tích hợp sâu với Veo và Imagen .

📱 Android và Workspace: AI tích hợp sâu vào hệ sinh thái
Gemini Nano mang khả năng AI đến thiết bị Android, hỗ trợ mô tả hình ảnh chi tiết và cảnh báo lừa đảo trong cuộc gọi.

Google Workspace tích hợp Gemini để tóm tắt email, tạo phản hồi thông minh và hỗ trợ người dùng trong các tác vụ hàng ngày.

🌐 Google Beam và Android XR: Mở rộng trải nghiệm thực tế
Google Beam là nền tảng gọi video 3D mới, sử dụng AI để tạo cảm giác như đang trò chuyện trực tiếp, dự kiến ra mắt cùng HP vào cuối năm nay.

Android XR, hợp tác với Samsung và Qualcomm, là nền tảng thực tế mở rộng mới, tích hợp Gemini để cung cấp trợ lý ảo và điều hướng thông minh cho kính và tai nghe thực tế ảo .

🔮 Hướng tới AI phổ quát
Demis Hassabis, CEO của DeepMind, nhấn mạnh rằng các tiến bộ trong Gemini đang đặt nền móng cho trí tuệ nhân tạo tổng quát (AGI), với khả năng suy luận, mô hình hóa thế giới và sáng tạo, hướng tới mục tiêu đạt được AGI trong vòng 5–10 năm tới .

📌 Tổng kết: Google I/O 2025 đánh dấu bước ngoặt quan trọng trong việc tích hợp AI vào mọi khía cạnh của công nghệ, từ tìm kiếm, trợ lý cá nhân đến sáng tạo nội dung và trải nghiệm thực tế. Với Gemini 2.5 và các công cụ mới, Google đang tiến gần hơn đến mục tiêu xây dựng một hệ sinh thái AI toàn diện và hữu ích cho người dùng toàn cầu.

Send a message to learn more

10/04/2025

Để mình giải thích cho các bạn hiểu về hai loại protocol MCP và A2A đang rất hot trên cộng đồng AI và được bàn tán rất nhiều.

1. Mục tiêu và phạm vi sử dụng

Agent2Agent Protocol (A2A):

Được thiết kế nhằm tạo ra một tiêu chuẩn giao tiếp mở cho các agent AI.

Cho phép các agent từ các nền tảng, nhà cung cấp hoặc hệ thống khác nhau có thể trao đổi thông tin, phối hợp tác vụ mà không bị ràng buộc bởi cơ chế hay giao diện độc quyền của từng hệ thống.

Mục tiêu cốt lõi của A2A là tăng cường tính liên kết (interoperability) và khả năng mở rộng của mạng lưới agent.

MCP:

MCP thường hướng tới việc cung cấp một lớp quản lý hoặc điều phối bổ sung cho hệ thống các agent.

Các tính năng của MCP có thể bao gồm việc tối ưu hoá luồng thông tin, quản lý tài nguyên, giám sát hiệu năng và bảo mật cho các giao tiếp giữa agent.

Với MCP, hệ thống được kiểm soát ở một cấp độ “meta” nhằm đảm bảo các tác vụ được phân phối hiệu quả và ổn định hơn.

2. Chức năng và cách thức hoạt động

A2A:

Tập trung chủ yếu vào giao thức trao đổi dữ liệu giữa các agent.

Cung cấp các định dạng và giao diện chuẩn cho việc truyền tải thông điệp, giúp cho các agent “hiểu” và xử lý thông tin đến từ nhau một cách trực tiếp.

Đặc biệt hữu ích khi cần mở rộng quy mô, cho phép các agent độc lập từ nhiều nền tảng khác nhau giao tiếp mà không cần thông qua trung gian độc quyền.

MCP:

Có thể xem là “bộ khung quản lý” cho việc phối hợp hoạt động của các agent.

Ngoài việc hỗ trợ trao đổi thông tin, MCP thường đi kèm các cơ chế giám sát, đánh giá và điều phối hoạt động của hệ thống.

Điều này giúp đảm bảo rằng các tác vụ, khi được phân phối cho nhiều agent, vẫn được theo dõi và xử lý theo một qui trình chuẩn, góp phần nâng cao hiệu quả và độ ổn định của toàn bộ hệ thống.

3. Vai trò trong hệ sinh thái AI

A2A:

Mở rộng khả năng “nói chuyện” giữa các agent, tạo nên một mạng lưới liên kết rộng mở, nơi mà mỗi agent có thể tự do trao đổi và phối hợp với các agent khác.

Thích hợp cho các ứng dụng cần sự linh hoạt và mở rộng cao, cho phép tích hợp từ nhiều nguồn dữ liệu và nền tảng khác nhau.

MCP:

Tập trung vào việc tạo nên một môi trường quản lý an toàn và hiệu quả cho các agent hoạt động.

Khi kết hợp với A2A (ví dụ như “A2A❤️MCP”), hệ thống không chỉ có khả năng giao tiếp mở mà còn được điều phối, kiểm soát, và tối ưu hoá một cách bài bản.

Điều này đặc biệt có ích trong các ứng dụng quy mô lớn, nơi cần sự giám sát liên tục về hiệu suất, bảo mật và độ tin cậy của toàn bộ hệ thống.

Send a message to learn more

10/04/2025

🔥 Google giới thiệu loạt cập nhật lớn trong hệ sinh thái AI, từ phần cứng đến phần mềm 🔥

1. Phần cứng – TPU Ironwood
Google công bố thế hệ TPU mới mang tên Ironwood, dự kiến ra mắt cuối năm nay. Đây là phiên bản thứ 7 của dòng chip TPU, cung cấp hiệu suất tính toán gấp 5 lần và băng thông bộ nhớ cao gấp 6 lần so với thế hệ trước. Ironwood được thiết kế để đáp ứng nhu cầu ngày càng cao của các mô hình AI lớn.

2. Công cụ phát triển Agent

Agent Development Kit (ADK): Bộ công cụ mã nguồn mở hỗ trợ xây dựng các hệ thống multi-agent với số lượng dòng lệnh tối giản, giúp tăng tốc quá trình phát triển ứng dụng AI theo hướng agentic.

Agent2Agent Protocol (A2A): Giao thức mới cho phép các agent giao tiếp liên nền tảng, hỗ trợ khả năng tương tác linh hoạt giữa các hệ thống AI khác nhau. Khi kết hợp với A2A (ví dụ như “A2A❤️MCP”), hệ thống không chỉ có khả năng giao tiếp mở mà còn được điều phối, kiểm soát, và tối ưu hoá một cách bài bản.

Agentspace – Nâng cấp tính năng:

Agent Gallery: Cung cấp thư viện các agent mẫu.

Agent Designer: Công cụ no-code cho phép người dùng tạo agent mà không cần kiến thức lập trình.

Tích hợp Chrome Enterprise: Hỗ trợ triển khai agent vào môi trường doanh nghiệp.

3. Nâng cấp trong hệ sinh thái Gemini và Vertex AI

Gemini 2.5 Pro: Tích hợp trong chế độ nghiên cứu sâu của Gemini Advanced.

Gemini 2.5 Flash: Tối ưu cho tốc độ xử lý thấp và chi phí hợp lý, hướng đến các ứng dụng thời gian thực.

Live API: Hỗ trợ xử lý âm thanh và video trực tiếp trong thời gian thực.

Imagen 3: Cải thiện khả năng tạo ảnh, bao gồm inpainting chất lượng cao.

Chirp 3: Tạo giọng nói tùy chỉnh chỉ từ 10 giây mẫu âm thanh.

Veo 2: Cập nhật lớn cho công cụ AI video, hỗ trợ chỉnh sửa nâng cao và kiểm soát chuyển động camera.

Lyria: Mô hình tạo nhạc từ văn bản, hiện đang trong giai đoạn thử nghiệm hạn chế.

4. Tính năng AI trong Google Workspace

Audio Overview trong Docs: Tạo bản tóm tắt âm thanh từ tài liệu văn bản.

Help me Refine: Công cụ hỗ trợ chỉnh sửa nội dung nâng cao trong Google Docs.

Help me Analyse: Tự động phân tích dữ liệu trong Google Sheets và đề xuất insight.

Vids Enhancement: Nâng cấp chất lượng hình ảnh cho video tạo bằng AI nhờ ứng dụng mô hình Veo 2.

5. Firebase Studio – nền tảng phát triển ứng dụng AI
Google giới thiệu một môi trường phát triển đám mây mới theo định hướng agentic, tích hợp đầy đủ công cụ để phát triển ứng dụng AI full-stack. Firebase Studio hướng tới việc tối giản quy trình xây dựng sản phẩm AI cho các nhóm phát triển.

Send a message to learn more

Không phải là GPT5 mà OpenAI tung phiên bản mới của GPT-4o và nhảy vọt lên vị trí thứ hai trên Arena Leaderboard chỉ sau...
28/03/2025

Không phải là GPT5 mà OpenAI tung phiên bản mới của GPT-4o và nhảy vọt lên vị trí thứ hai trên Arena Leaderboard chỉ sau Gemini 2.5 Pro!!!!

GPT‑4o, trong đó chữ “o” viết tắt của “omni” (toàn năng), là phiên bản nâng cấp mới nhất của ChatGPT dựa trên công nghệ GPT‑4. Ra mắt lần đầu vào ngày 13/05/2024, GPT‑4o được thiết kế để xử lý đa dạng đầu vào như văn bản, hình ảnh và âm thanh, đồng thời tạo ra các phản hồi bằng nhiều dạng khác nhau. Đây là bước tiến vượt bậc so với các phiên bản trước như GPT‑4 Turbo, không chỉ ở khả năng xử lý đa phương thức mà còn ở hiệu năng và chi phí vận hành thấp hơn.

Những cải tiến nổi bật trong phiên bản mới:
- Tuân theo chỉ dẫn chi tiết tốt hơn: GPT‑4o mới có khả năng hiểu và thực hiện tốt hơn các yêu cầu phức tạp, đặc biệt là khi trong prompt có nhiều yêu cầu liên tiếp.
- Giải quyết các vấn đề kỹ thuật và lập trình: Mô hình được cải tiến vượt trội trong việc xử lý các bài toán kỹ thuật và lập trình, cho phép đưa ra các giải pháp chính xác hơn cho các vấn đề phức tạp.
- Cải thiện trực giác và tính sáng tạo: Phiên bản mới cho thấy khả năng “nghĩ” và sáng tạo cao hơn, giúp tạo ra các phản hồi tự nhiên, linh hoạt và mang tính đột phá hơn.
- Giảm thiểu việc sử dụng emoji: Một điểm thay đổi vui nhộn nhưng cũng cho thấy sự chuyên nghiệp hơn khi giảm số lượng emoji xuất hiện trong phản hồi, hướng đến sự chính xác và trang nhã.

Vị trí và tầm quan trọng trong dòng sản phẩm ChatGPT:
- GPT‑4o là bước nâng cấp tiếp theo trong dòng GPT‑4 của OpenAI. Không phải là GPT‑5, phiên bản mới này vẫn giữ nguyên cốt lõi của GPT‑4 nhưng được tối ưu hóa về tốc độ, khả năng đa phương thức và hiệu quả xử lý. Một số điểm nổi bật bao gồm:
- Tốc độ phản hồi nhanh hơn: Các cải tiến về kiến trúc giúp GPT‑4o phản hồi nhanh gấp đôi so với GPT‑4 Turbo, tạo ra trải nghiệm tương tác mượt mà, thậm chí đối với các cuộc hội thoại bằng giọng nói.
- Tiết kiệm chi phí: Việc tối ưu hóa không chỉ giúp tăng tốc độ mà còn giảm chi phí tính toán, làm cho công nghệ AI của OpenAI trở nên dễ tiếp cận hơn cho cả người dùng miễn phí lẫn thuê bao.
- Hỗ trợ đa ngôn ngữ mạnh mẽ: Ngoài khả năng xử lý tốt tiếng Anh, GPT‑4o còn được cải thiện đáng kể trong việc xử lý các ngôn ngữ khác, giúp mở rộng phạm vi ứng dụng trên toàn cầu.
- Tích hợp hoàn chỉnh các dạng đầu vào: Thay vì sử dụng nhiều mô hình riêng biệt cho văn bản, hình ảnh và âm thanh, GPT‑4o xử lý tất cả thông qua một mạng nơ-ron duy nhất, giữ lại được nhiều thông tin hơn và tạo ra các phản hồi chính xác, liên kết chặt chẽ giữa các dạng dữ liệu.

Kết luận
Phiên bản mới của GPT‑4o đánh dấu một bước tiến quan trọng trong sự phát triển của ChatGPT, nâng cao khả năng hiểu và phản hồi thông qua nhiều phương thức khác nhau. Với những cải tiến về tuân thủ chỉ dẫn, xử lý kỹ thuật và lập trình, tăng cường trực giác, sáng tạo và sự trang nhã trong giao diện (ít emoji hơn), GPT‑4o hứa hẹn sẽ là trợ thủ đắc lực cho cả người dùng cá nhân và doanh nghiệp. Đây không phải là GPT‑5 mà là một bước nâng cấp vượt trội của dòng GPT‑4o, tiếp tục khẳng định vị thế tiên phong của OpenAI trong lĩnh vực trí tuệ nhân tạo đa phương thức.

[HOT NEWS!!!!!!!!!!!] Gemini 2.5, phiên bản mới nhất của Google DeepMind, đang "làm mưa làm gió" nhờ khả năng xử lý phức...
26/03/2025

[HOT NEWS!!!!!!!!!!!]

Gemini 2.5, phiên bản mới nhất của Google DeepMind, đang "làm mưa làm gió" nhờ khả năng xử lý phức tạp vượt trội. Điểm nổi bật của mẫu 2.5 Pro Experimental gồm:
- Khả năng suy luận ưu việt: Gemini 2.5 có thể "suy nghĩ" trước khi trả lời, kết hợp các kỹ thuật như reinforcement learning và chain-of-thought để phân tích, đưa ra kết luận logic. Điều này giúp nó đạt hiệu suất cao trên các bài kiểm tra về toán, khoa học và các bài kiểm tra chuyên sâu khác, ví dụ như đạt 18.8% trên Humanity’s Last Exam.
- Hiệu năng mã hóa (coding) đột phá: Với cải tiến vượt trội so với phiên bản 2.0, Gemini 2.5 Pro xuất sắc trong việc tạo ra ứng dụng web đẹp mắt, chuyển đổi và chỉnh sửa mã code, đạt 63.8% trên SWE-Bench Verified – tiêu chuẩn đánh giá mã code agentic.
- Khả năng đa phương tiện và xử lý ngữ cảnh rộng: Gemini 2.5 duy trì những thế mạnh vốn có của các mẫu Gemini trước đây như hỗ trợ đa phương tiện (text, audio, hình ảnh, video và code) và khả năng xử lý ngữ cảnh cực lớn với 1 triệu token (sắp mở rộng lên 2 triệu).

Những tính năng này đã giúp Gemini 2.5 Pro Experimental vươn lên dẫn đầu bảng xếp hạng LMArena, chứng tỏ nó không chỉ vượt trội về mặt lý thuyết mà còn ứng dụng hiệu quả trong các nhiệm vụ phức tạp, từ giải quyết bài toán đến phát triển ứng dụng. Đây chính là lý do Gemini 2.5 được đánh giá là mẫu AI thông minh nhất hiện nay.

24/03/2025

🔥RF-DETR: Bước Đột Phá Mới Trong Phát Hiện Vật Thể Thời Gian Thực 🔥

Hôm nay mình muốn giới thiệu đến mọi người một công nghệ AI mới cực kỳ ấn tượng – RF-DETR. Đây không chỉ là một mô hình phát hiện vật thể thời gian thực, mà còn là sự kết hợp của những tiến bộ hiện đại trong kiến trúc transformer và khả năng pre-training mạnh mẽ, mang lại hiệu năng vượt trội trên cả bộ dữ liệu truyền thống và những tập dữ liệu thực tế.

1. Tóm tắt RF-DETR là gì?
Hiệu năng vượt trội: RF-DETR là mô hình realtime đầu tiên đạt trên 60 mAP trên bộ dữ liệu Microsoft COCO. Điều này chứng tỏ khả năng nhận diện và định vị đối tượng nhanh chóng, chính xác trên các ứng dụng từ giám sát đến xử lý ảnh thời gian thực.
Kiến trúc tiên tiến: Được xây dựng theo hướng DETR (Detection Transformer) với sự kết hợp của LW-DETR và pre-trained backbone DINOv2, RF-DETR tận dụng sức mạnh của transformer để học từ các lượng dữ liệu khổng lồ, giúp mô hình thích ứng với nhiều miền dữ liệu khác nhau.
Đa kích cỡ mô hình: RF-DETR hiện được phát hành với hai kích cỡ:
RF-DETR-base (29M tham số)
RF-DETR-large (128M tham số)
Nhờ cấu trúc linh hoạt này, mô hình có thể cân bằng giữa độ chính xác và tốc độ tùy theo ứng dụng, đặc biệt trên các thiết bị biên với khả năng tính toán hạn chế.

2. Kiến trúc và phương pháp tiếp cận
Nền tảng kiến trúc: RF-DETR được xây dựng trên nền tảng của Deformable DETR, nhưng thay vì sử dụng cơ chế self-attention đa tỉ lệ truyền thống, mô hình này sử dụng một backbone đơn giản để trích xuất đặc trưng từ ảnh. Điều này giúp giảm độ phức tạp và tăng tốc độ xử lý.

Sức mạnh của pre-training: Với việc tích hợp pre-trained DINOv2, RF-DETR tận dụng tri thức từ một lượng dữ liệu khổng lồ, giúp cải thiện khả năng học từ dữ liệu nhỏ và nâng cao hiệu suất trong các tình huống đặc thù.
Huấn luyện đa độ phân giải: Một điểm cộng lớn khác là khả năng huấn luyện mô hình ở nhiều độ phân giải khác nhau, cho phép người dùng điều chỉnh trade-off giữa độ chính xác và thời gian xử lý mà không cần phải huấn luyện lại từ đầu.

3. Điểm nổi bật về hiệu suất và benchmarking
RF-DETR được đánh giá dựa trên ba tiêu chí chính:
mAP trên COCO: Đạt mốc 60+ mAP, cho thấy độ chính xác cao so với các mô hình realtime hiện nay.
mAP trên RF100-VL: Bộ đánh giá RF100-VL – một tập hợp 100 bộ dữ liệu từ hơn 500,000 dataset của Roboflow Universe – giúp đánh giá khả năng thích ứng của mô hình trong các tình huống thực tế, từ ảnh vệ tinh đến hình ảnh công nghiệp.
Tốc độ xử lý: Với độ trễ tính toán thấp (ví dụ: RF-DETR-B chỉ khoảng 6.0 ms/img trên GPU T4 khi sử dụng TensorRT10 FP16), RF-DETR không chỉ chính xác mà còn đáp ứng được yêu cầu về tốc độ của các ứng dụng thời gian thực.

Bảng so sánh ngắn gọn:
RF-DETR-B: mAP COCO ~53.3, mAP RF100-VL ~86.7, Latency: 6.0 ms
Các mô hình khác (như YOLO11m, YOLOv8m) tuy cạnh tranh nhưng RF-DETR luôn nằm trong top đầu khi xét về tổng thời gian xử lý (Total Latency) và khả năng thích ứng miền.

4. Ứng dụng và cách sử dụng
Triển khai nhanh chóng: RF-DETR đã được cung cấp với checkpoint huấn luyện sẵn trên bộ dữ liệu COCO, giúp các nhà phát triển dễ dàng áp dụng transfer learning cho các dự án cụ thể.
Hỗ trợ huấn luyện: Gói Python rfdetr và Colab Notebook hướng dẫn fine-tuning giúp quá trình huấn luyện trở nên đơn giản, nhanh chóng và hiệu quả.
Mã nguồn mở: RF-DETR được phát hành dưới giấy phép Apache 2.0 trên GitHub, mở ra cơ hội cho cộng đồng nghiên cứu và phát triển cùng nhau cải thiện các ứng dụng computer vision.

5. Kết luận
RF-DETR không chỉ mang lại một bước tiến mới trong phát hiện vật thể thời gian thực mà còn mở ra hướng đi cho các mô hình AI với khả năng thích ứng linh hoạt, tốc độ nhanh và độ chính xác cao. Với khả năng chạy mượt trên các thiết bị biên, RF-DETR hứa hẹn sẽ là công cụ hữu ích cho nhiều ứng dụng từ an ninh, giám sát cho đến các giải pháp công nghiệp hiện đại.
Hãy theo dõi và trải nghiệm RF-DETR – chia sẻ ý kiến, dự án của bạn và cùng nhau đẩy mạnh sự phát triển của computer vision trong thời đại AI!


🔗Blog: https://blog.roboflow.com/rf-detr/
🔗Colab: https://t.co/IcYqA2L1uN
🔗Github: https://github.com/roboflow/rf-detr…

🔥 Baidu tung ra ERNIE 4.5 & ERNIE X1 – Thách thức mới cho cuộc đua AI toàn cầu! 🔥Baidu có tên tiếng Trung là 百度 (pinyin:...
17/03/2025

🔥 Baidu tung ra ERNIE 4.5 & ERNIE X1 – Thách thức mới cho cuộc đua AI toàn cầu! 🔥
Baidu có tên tiếng Trung là 百度 (pinyin: Bǎidù), là một công cụ tìm kiếm lớn thứ hai trên thế giới và lớn nhất ở Trung Quốc, chiếm hơn 75% thị phần trong thị trường nội địa. Cuộc đua AI ngày càng nóng khi Baidu chính thức công bố hai mô hình AI mới – ERNIE 4.5 và ERNIE X1!

ERNIE 4.5:
- Mô hình AI đa phương thức với khả năng hiểu ngôn ngữ, logic, trí nhớ và sáng tạo vượt trội.
- Cải thiện đáng kể khả năng nhận diện meme, ảnh chế và ngôn ngữ biểu cảm trên internet.
- Hiệu suất gần như ngang ngửa GPT-4.5 nhưng chi phí rẻ hơn nhiều!

ERNIE X1 – “Trí tuệ lý luận” mạnh nhất của Baidu:
- Được thiết kế để suy nghĩ sâu hơn, lập kế hoạch tốt hơn và tự động sử dụng công cụ.
- So với DeepSeek-R1, ERNIE X1 có hiệu suất tương đương nhưng giá chỉ một nửa!
CHI PHÍ SIÊU RẺ 💰
- GPT-4.5: $75 / 1M token input, $150 / 1M token output.
- ERNIE 4.5: Chỉ $0.55 / 1M token input, $2.2 / 1M token output!
- ERNIE X1 còn rẻ hơn với chỉ $0.28 / 1M token input, $1.1 / 1M token output!

ERNIE 4.5 có thực sự mạnh hơn GPT-4.5?
Theo biểu đồ hiệu suất, ERNIE 4.5 đạt điểm trung bình 79.6, ngang ngửa GPT-4.5 và nhỉnh hơn DeepSeek-V3 Chat. Điều này cho thấy Baidu đang dần bắt kịp các mô hình hàng đầu của Mỹ với chi phí thấp hơn rất nhiều!

Trước đây, Baidu gặp khó khăn trong việc phổ biến mô hình ERNIE, nhưng với bước tiến này, họ đang trở lại mạnh mẽ. Với khả năng xử lý đa phương thức và chi phí rẻ hơn nhiều so với GPT-4.5, ERNIE 4.5 và ERNIE X1 có thể sẽ là những đối thủ nặng ký trong cuộc chiến AI toàn cầu!

📌Ref: https://www.cnbc.com/2025/03/16/chinas-baidu-launches-two-new-ai-models-as-industry-competition-heats-up.html

14/03/2025

🔥 TIN NÓNG HỔI TỪ GEMINI! 🔥
Gemini vừa công bố những cải tiến đáng kể, mang đến trải nghiệm AI mạnh mẽ và cá nhân hóa hơn cho người dùng. Điểm nổi bật bao gồm:

🚀 Deep Research thông minh hơn:
- Tính năng Deep Research, trợ lý nghiên cứu AI cá nhân, nay đã được nâng cấp với mô hình 2.0 Flash Thinking Experimental. Điều này giúp Gemini cải thiện khả năng lập kế hoạch, tìm kiếm, phân tích và báo cáo, tạo ra những báo cáo đa trang chi tiết và sâu sắc hơn.
- Người dùng có thể theo dõi quá trình suy nghĩ của Gemini khi tìm kiếm trên web, giúp hiểu rõ hơn cách AI giải quyết các nhiệm vụ nghiên cứu.
- Deep Research hiện đã được cung cấp miễn phí cho mọi người, cho phép người dùng trải nghiệm khả năng nghiên cứu mạnh mẽ của Gemini.

🧠 2.0 Flash Thinking Experimental:
- Phiên bản nâng cấp của mô hình 2.0 Flash Thinking Experimental mang đến nhiều cải tiến về hiệu suất và tốc độ.
- Người dùng Gemini Advanced sẽ được trải nghiệm cửa sổ ngữ cảnh 1M token, cho phép xử lý các tác vụ phức tạp với lượng thông tin lớn.
- Mô hình này cũng hỗ trợ tải tệp, mở rộng khả năng tương tác và xử lý dữ liệu của Gemini.

🤝 Cá nhân hóa trải nghiệm:
- Tính năng cá nhân hóa (thử nghiệm) cho phép Gemini kết nối với các ứng dụng và dịch vụ của Google, bắt đầu với Tìm kiếm, để cung cấp phản hồi phù hợp hơn với nhu cầu cá nhân.
- Ví dụ, Gemini có thể đưa ra gợi ý nhà hàng dựa trên lịch sử tìm kiếm ẩm thực của bạn hoặc đề xuất địa điểm du lịch dựa trên các điểm đến bạn đã tìm kiếm trước đó.

📱Kết nối ứng dụng mạnh mẽ:
- Gemini có thể kết nối với nhiều ứng dụng của Google như Lịch, Ghi chú, Nhiệm vụ và Ảnh, giúp người dùng thực hiện các tác vụ phức tạp một cách dễ dàng.
- Ví dụ, bạn có thể yêu cầu Gemini tìm kiếm công thức nấu ăn trên YouTube, thêm nguyên liệu vào danh sách mua sắm và tìm các cửa hàng tạp hóa gần đó còn mở cửa.
- Trong thời gian tới Google Photos sẽ được thêm vào danh sách các ứng dụng được kết nối.

💎 Gems cho mọi người:
- Tính năng Gems cho phép người dùng tùy chỉnh Gemini để tạo ra các chuyên gia AI cá nhân về bất kỳ chủ đề nào.
- Bạn có thể tạo ra các Gems tùy chỉnh như một người dịch, người lập kế hoạch bữa ăn hoặc gia sư toán học.
- Người dùng có thể tải những file dữ liệu lên để giúp Gems có nhiều thông tin hơn.
- Những nâng cấp này khẳng định cam kết của Gemini trong việc mang đến trải nghiệm AI thông minh, hữu ích và cá nhân hóa cho người dùng.

Truy cập gemini.google.com để trải nghiệm ngay hôm nay! ✨

🔥 Giới thiệu OWL (Optimized Workforce Learning) - một giải pháp thay thế nguồn mở cho Manus AI để cộng tác giữa nhiều ag...
13/03/2025

🔥 Giới thiệu OWL (Optimized Workforce Learning) - một giải pháp thay thế nguồn mở cho Manus AI để cộng tác giữa nhiều agents.🔥

OWL (Optimized Workforce Learning) là một khung làm việc tiên tiến dành cho sự hợp tác đa tác nhân, được thiết kế để mở rộng khả năng tự động hóa nhiệm vụ trong thế giới thực. Được phát triển dựa trên CAMEL-AI Framework, OWL đã đạt điểm trung bình 58,18 trên tiêu chuẩn GAIA, xếp hạng đầu tiên trong số các khung nguồn mở.

Các tính năng chính của OWL 🤖:
- Tương tác multi-agent động: OWL sử dụng nhiều agent chuyên biệt hợp tác linh hoạt, giúp tự động hóa nhiệm vụ một cách tự nhiên và hiệu quả hơn.
- Xử lý đa phương tiện: Hỗ trợ xử lý video, hình ảnh và âm thanh từ internet hoặc nguồn cục bộ, mở rộng khả năng làm việc với các dạng dữ liệu khác nhau.
- Tự động hóa trình duyệt: Sử dụng Playwright để mô phỏng các tương tác trình duyệt như cuộn trang, nhấp chuột và nhập liệu, giúp tự động hóa các tác vụ web phức tạp.
- Phân tích tài liệu: Trích xuất nội dung từ các tệp Word, Excel, PDF và PowerPoint, chuyển đổi chúng thành văn bản hoặc định dạng Markdown để xử lý thêm.
- Thực thi mã: Viết và thực thi mã Python bằng trình thông dịch, cho phép thực hiện các tác vụ tính toán và phân tích phức tạp.
MANUS

Lợi ích của OWL :
- Tự động hóa nhiệm vụ hiệu quả: Với khả năng tương tác đa tác nhân và xử lý đa phương tiện, OWL giúp tự động hóa các nhiệm vụ phức tạp trong nhiều lĩnh vực khác nhau.
- Khả năng mở rộng và tùy chỉnh: OWL cung cấp một tập hợp công cụ phong phú và hỗ trợ nhiều dạng dữ liệu, giúp người dùng dễ dàng tùy chỉnh và mở rộng theo nhu cầu cụ thể.
- Hiệu suất cao: Việc xếp hạng cao trên tiêu chuẩn GAIA chứng minh hiệu suất vượt trội của OWL trong việc xử lý các nhiệm vụ thực tế.

Kết luận ✅
Với những tính năng và lợi ích này, OWL đại diện cho một bước tiến quan trọng trong việc hợp tác multi-agent và tự động hóa nhiệm vụ, mở ra cơ hội mới cho việc áp dụng AI trong các tình huống thực tế.

Để hiểu rõ hơn về cách OWL hoạt động và cách cài đặt nó, bạn có thể xem video hướng dẫn sau:

This video installs OWL locally which is a cutting-edge framework for multi-agent collaboration that pushes the boundaries of task automation, built on top o...

🔥 Mistral OCR – Giải Pháp Hiểu Tài Liệu Toàn Diện Cho Kỷ Nguyên SốMistral OCR là API nhận dạng ký tự quang học (OCR) đột...
07/03/2025

🔥 Mistral OCR – Giải Pháp Hiểu Tài Liệu Toàn Diện Cho Kỷ Nguyên Số

Mistral OCR là API nhận dạng ký tự quang học (OCR) đột phá, định hình lại tiêu chuẩn hiểu và trích xuất thông tin từ tài liệu. Với khả năng phân tích sâu từng thành phần của tài liệu—bao gồm hình ảnh, văn bản, bảng biểu và công thức toán học—mô hình này hứa hẹn mở ra kỷ nguyên mới trong khai thác thông tin số, đặc biệt khi hơn 90% dữ liệu tổ chức trên toàn thế giới đang tồn tại dưới dạng tài liệu.

Mô Tả Chi Tiết
• Hiểu Tài Liệu Phức Tạp: Mistral OCR vượt trội trong việc xử lý các yếu tố phức tạp như bố cục xen kẽ hình ảnh, công thức toán học, bảng biểu và định dạng LaTeX.
• Đa Ngôn Ngữ & Đa Phương Tiện: Hỗ trợ tự nhiên cho hàng nghìn ngôn ngữ và kiểu chữ, phù hợp với nhu cầu của cả tổ chức toàn cầu lẫn các doanh nghiệp địa phương.
• Hiệu Suất Vượt Trội: Vượt qua các đối thủ hàng đầu (Google Document AI, Azure OCR, Gemini, GPT-4o) về độ chính xác trong từng hạng mục như xử lý văn bản, bảng, toán học và hình ảnh.
• Tốc Độ Ấn Tượng: Xử lý lên đến 2000 trang mỗi phút trên một node đơn, đảm bảo hiệu quả cho các môi trường có khối lượng tài liệu lớn.
• Doc-as-Prompt & Output Có Cấu Trúc: Cho phép sử dụng tài liệu làm prompt, tạo ra đầu ra được định dạng rõ ràng (như JSON) để tích hợp liền mạch vào các hệ thống RAG và ứng dụng downstream.

Ứng Dụng:
• Đã được triển khai làm mô hình mặc định cho hàng triệu người dùng trên Le Chat.
• API “mistral-ocr-latest” hiện được cung cấp trên la Plateforme với mức giá 1000 trang/$.
• Sắp ra mắt trên đám mây, các đối tác inference cũng như phiên bản tự host cho các tổ chức có yêu cầu bảo mật cao.

Các Trường Hợp Sử Dụng:
• Nghiên cứu khoa học: Chuyển đổi các bài báo, tạp chí và báo cáo thành dữ liệu sẵn sàng cho AI.
• Bảo tồn di sản văn hóa: Số hóa tài liệu lịch sử, bảo đảm thông tin quý giá không bị mất mát.
• Cải thiện dịch vụ khách hàng: Trích xuất và xử lý tài liệu hướng dẫn, cải thiện tốc độ và chất lượng phản hồi.
• Ứng dụng đa ngành: Hỗ trợ chuyển đổi văn bản kỹ thuật, bản vẽ kỹ thuật, bài giảng và hồ sơ pháp lý thành dữ liệu có cấu trúc.

Kết Luận
Mistral OCR không chỉ đặt ra tiêu chuẩn mới cho công nghệ OCR với khả năng hiểu và xử lý tài liệu phức tạp, mà còn mở ra hướng đi đột phá trong việc chuyển đổi kho tàng tri thức ẩn giấu trong tài liệu số. Với hiệu suất vượt trội, hỗ trợ đa ngôn ngữ và tốc độ xử lý ấn tượng, đây chính là giải pháp lý tưởng để các tổ chức tối ưu hóa việc khai thác dữ liệu và nâng cao năng suất làm việc. Hãy trải nghiệm Mistral OCR ngay hôm nay để cùng mở ra chương mới cho sự đổi mới trong lĩnh vực AI!

📌Ref: https://lnkd.in/e6g__zfS
💻 Video: https://youtu.be/6lRBm0KnzBI

In this video, we demonstrate the extraction of text and imagery from a complex PDF using Mistral OCR

🔥Theorem Explainable AI Agents – Đột Phá Mới Trong Giải Thích Định Lý Toán Học & Khoa Học bằng video! 📚🎥1. Giới thiệuThe...
05/03/2025

🔥Theorem Explainable AI Agents – Đột Phá Mới Trong Giải Thích Định Lý Toán Học & Khoa Học bằng video! 📚🎥

1. Giới thiệu
TheoremExplainAgent là một phương pháp sử dụng AI để tạo các video giải thích dài (>5 phút) về các định lý trong các lĩnh vực STEM (Toán, Vật lý, Hóa học, Khoa học máy tính). Hệ thống này sử dụng Manim để tạo hoạt ảnh giúp minh họa các khái niệm trừu tượng một cách trực quan, giúp con người hiểu sâu hơn so với giải thích chỉ bằng văn bản.

2. Vấn đề và Giải pháp
- Các mô hình ngôn ngữ lớn (LLMs) hiện tại có khả năng lập luận toán học tốt nhưng gặp hạn chế trong việc tạo ra các lời giải thích trực quan có cấu trúc.
- TheoremExplainAgent đưa ra cách tiếp cận agentic approach, giúp lập kế hoạch và tạo video một cách có hệ thống.
- Để đánh giá hiệu quả của hệ thống, nhóm nghiên cứu xây dựng TheoremExplainBench, một bộ dữ liệu gồm 240 định lý trong nhiều lĩnh vực cùng 5 chỉ số đánh giá tự động.

3. Kết quả thực nghiệm
Table 1
- o3-mini (medium) và o3-mini (medium) + RAG là hai mô hình mạnh nhất trong việc tạo video hoàn chỉnh.
- GPT-4o vẫn có tỷ lệ chấp nhận được, nhưng không bằng o3-mini.
- Claude 3.5 và Gemini 2.0 không phù hợp cho nhiệm vụ này.

Table 2
- GPT-4o có mạch logic mạnh nhất nhưng yếu về bố cục.
- Claude 3.5 có hình ảnh nhất quán nhất nhưng khó hiểu hơn.
- o3-mini (medium) là mô hình cân bằng nhất, đạt điểm gần với video do con người tạo ra.

4. Ứng dụng Thực Tiễn
- Ứng dụng trong Giáo dục STEM: Hỗ trợ giảng dạy các môn khoa học với giải thích trực quan.
- Hỗ trợ AI Explainability: Giúp mô hình AI minh bạch hơn bằng cách kết hợp hình ảnh và văn bản.
- Tự động hóa Nội dung Học thuật: Tạo tài liệu giảng dạy tự động với chất lượng cao.

🔥 TheoremExplainAgent không chỉ giúp AI hiểu định lý tốt hơn, mà còn tạo ra video giải thích có chất lượng ngang với con người! 🚀

📌 Project Page: 🔗 http://tiger-ai-lab.github.io/TheoremExplainAgent
📜 Paper: 🔗 http://arxiv.org/abs/2502.19400
💻 Code: 🔗 http://github.com/TIGER-AI-Lab/TheoremExplainAgent

🔥 AI HTTP Analyzer – Trợ thủ AI cho Burp Suite trong phân tích bảo mật! 🔥🛡️ Giới thiệu:AI HTTP Analyzer – tiện ích mới đ...
05/03/2025

🔥 AI HTTP Analyzer – Trợ thủ AI cho Burp Suite trong phân tích bảo mật! 🔥

🛡️ Giới thiệu:
AI HTTP Analyzer – tiện ích mới được cập nhật trên BApp Store của PortSwigger, do nhà phát triển Alperen thực hiện. Công cụ này giúp tự động kiểm thử bảo mật, nâng cao hiệu suất phát hiện lỗ hổng trong ứng dụng web.

🔍 Mô tả:
⚡ Tự động quét HTTP request/response để phát hiện lỗ hổng:
✅ SQL Injection
✅ XSS (Cross-Site Scripting)
✅ CSRF (Cross-Site Request Forgery)
✅ Và nhiều lỗi bảo mật khác...

🛠️ Tính năng nổi bật:
🔹 Hướng dẫn khai thác chi tiết từng lỗ hổng
🔹 Tạo & tùy chỉnh payload, PoC dễ dàng
🔹 Tích hợp trực tiếp vào giao diện Burp Suite, hỗ trợ kiểm thử nhanh chóng

📌 Xem chi tiết tại:
🔗 BApp Store – AI HTTP Analyzer

Use AI to analyze HTTP requests and responses for potential security vulnerabilities like SQL injection, XSS, CSRF and more.

Address

Vung Tau

Website

Alerts

Be the first to know and let us send you an email when Daily AI news posts news and promotions. Your email address will not be used for any other purpose, and you can unsubscribe at any time.

Contact The Business

Send a message to Daily AI news:

Share