Sau khi đã hiểu các khái niệm nền tảng và chuyên sâu trong phần 1 và 2, phần 3 sẽ tập trung vào những mô hình AI tiêu biểu và kiến trúc quan trọng đang định hình làn sóng AI hiện đại. Đây là những khái niệm không thể bỏ qua nếu bạn muốn bắt kịp xu hướng trong lĩnh vực công nghệ, giáo dục, truyền thông, và phát triển sản phẩm.

Xem lại
Mô hình và kiến trúc
GPT (Generative Pre-trained Transformer)
Dòng mô hình ngôn ngữ tạo sinh do OpenAI phát triển, nổi bật với khả năng tạo văn bản, dịch thuật, viết mã và hỗ trợ sáng tạo nội dung. GPT-4o là phiên bản mới nhất (năm 2025) với khả năng đa phương thức (văn bản, hình ảnh, giọng nói).
Claude (Anthropic)
Mô hình AI của Anthropic, tập trung mạnh vào tính an toàn, kiểm soát hành vi AI và phản hồi có trách nhiệm. Claude được phát triển dựa trên triết lý “Constitutional AI” – AI được xây dựng theo bộ nguyên tắc đạo đức rõ ràng.
Gemini (Google DeepMind)
Dòng mô hình kế nhiệm Bard, kết hợp khả năng xử lý ngôn ngữ tự nhiên, hình ảnh và lập luận logic mạnh mẽ. Gemini 1.5 nổi bật với khả năng ghi nhớ dài hạn và hiệu suất đa nhiệm cao.
Mistral
Mô hình mã nguồn mở (open-weight) chất lượng cao từ công ty Mistral AI. Mistral 7B và Mixtral đang được cộng đồng đánh giá cao vì hiệu quả vượt trội dù dung lượng nhỏ gọn.
LLaMA (Meta)
Viết tắt của Large Language Model Meta AI – dòng mô hình nguồn mở của Meta, thường được dùng để nghiên cứu và triển khai bản địa hóa (tùy chỉnh theo ngôn ngữ, văn hóa).
Phi (Microsoft)
Loạt mô hình siêu nhẹ (tiny LLMs) được tối ưu hóa cho thiết bị có tài nguyên hạn chế. Dù nhỏ nhưng khả năng xử lý tác vụ văn bản ấn tượng.
T5 (Text-to-Text Transfer Transformer)
Mô hình của Google, chuyển mọi tác vụ NLP thành bài toán sinh văn bản: dịch, tóm tắt, trả lời câu hỏi, phân loại văn bản đều được giải bằng cách tạo câu trả lời dạng văn bản.
BERT & RoBERTa
BERT là mô hình đầu tiên ứng dụng attention hai chiều toàn diện trong NLP. RoBERTa là bản cải tiến giúp tăng tốc độ và độ chính xác trong nhiều tác vụ hiểu ngôn ngữ.
Whisper (OpenAI)
Mô hình chuyển giọng nói thành văn bản (speech-to-text) mạnh mẽ. Được dùng để tự động phiên âm, dịch phụ đề hoặc làm nền tảng cho ứng dụng nghe-nói.
Stable Diffusion / DALL·E / MidJourney
Các mô hình AI tạo ảnh từ văn bản (text-to-image). Stable Diffusion là mã nguồn mở. DALL·E là sản phẩm của OpenAI. MidJourney nổi bật về tính thẩm mỹ nghệ thuật.
AutoGPT / BabyAGI
Các mô hình “tự vận hành” có khả năng lên kế hoạch, tạo prompt cho chính mình và tương tác với nhiều hệ thống – hướng đến hình thái Agentic AI.
MoE (Mixture of Experts)
Một kiến trúc trong đó chỉ một phần nhỏ các tham số được kích hoạt trong mỗi lần xử lý – giúp mô hình vừa mạnh, vừa tiết kiệm tài nguyên.
RNN / LSTM / GRU
Các kiến trúc cũ hơn trong NLP (trước Transformer) – xử lý chuỗi dữ liệu theo thời gian. Vẫn được dùng trong các hệ thống real-time, gọn nhẹ.
Tổng kết
Từ GPT đến Gemini, từ MoE đến AutoGPT – mỗi mô hình AI đều đại diện cho một triết lý thiết kế và mục tiêu ứng dụng khác nhau. Hiểu rõ các mô hình và kiến trúc không chỉ giúp bạn theo kịp thị trường, mà còn lựa chọn được công cụ phù hợp nhất cho nhu cầu cá nhân hoặc doanh nghiệp.
Xem tiếp Phần 4: Thuật ngữ AI nâng cao: Kỹ thuật xây dựng ứng dụng tích hợp AI thực tế
