LLM · Token · Prompt · Context · AI Agent · MCP · Multi-Agent Systems — bộ từ vựng tối thiểu để bước vào kỷ nguyên Agent.
Phân biệt Input · Output · Reasoning Token. Ước lượng chi phí và tối ưu token budget.
Prompt là input người dùng; Context là toàn bộ thông tin model "thấy".
Hiểu đơn vị token, biết lịch sử mở rộng từ 4K → 2M+ và ý nghĩa thực tế.
Brain + Tool Use + Memory. Hiểu MCP và vai trò của MCP Server.
Biết khi nào nên dùng cái nào, hiểu rule of thumb để không over-engineer.
Large Language Model — mô hình AI huấn luyện trên lượng dữ liệu văn bản khổng lồ, có khả năng hiểu & sinh ngôn ngữ tự nhiên ở mức rất cao.
ChatGPT · Claude
Gemini · Copilot
"Brain" — module suy luận & ra quyết định
Token có thể là 1 ký tự, 1 phần của từ (sub-word), hoặc 1 từ hoàn chỉnh. Mỗi LLM có giới hạn riêng cho số token xử lý đồng thời.
từ tiếng Anh trên mỗi token. 100 tok ≈ 75 words
Hầu hết LLM API tính tiền theo input + output token tiêu thụ.
Khi thiết kế Agent: tối ưu context = tối ưu chi phí và chất lượng.
Câu lệnh / câu hỏi / đoạn text người dùng nhập vào để hướng dẫn LLM thực hiện nhiệm vụ.
→ Là kênh giao tiếp chính giữa human ↔ LLM.
Mọi thông tin được cung cấp cho mô hình trong quá trình xử lý:
Tri thức nén trong weights — có thể lỗi thời hoặc không cụ thể với domain của bạn.
Toàn bộ Context bạn đưa vào ngay tại runtime — phần bạn kiểm soát được.
Context Window đã tăng ≈ 500x trong 3 năm. Dung lượng lớn hơn = hành vi Agent phức tạp hơn trở nên khả thi.
Hội thoại dài / tài liệu lớn — model "nhớ" toàn bộ luồng để trả lời không mâu thuẫn.
Càng nhiều context liên quan → câu trả lời đúng hơn, ít hallucinate hơn.
Nắm bắt mối quan hệ phức tạp & phụ thuộc ngữ nghĩa trải dài trên văn bản lớn.
Chương trình tự chủ: Perceive → Plan → Act để đạt mục tiêu đã xác định. Nếu LLM là "bộ não", AI Agent là thực thể hoàn chỉnh sử dụng bộ não đó để hành động.
Suy luận, ra quyết định, lập kế hoạch
Gọi function / API / shell để thực thi hành động
Short-term (in-context) & long-term (persistent storage)
Giao thức Anthropic công bố cuối 2024 — chuẩn chung để cấp Context cho model một cách hiệu quả & tái sử dụng được.
Đang được nhiều LLM tiên tiến hỗ trợ.
1 agent ôm hết exploration + planning + execution → context window phình to nhanh chóng.
Agent vạn năng kém hơn nhiều agent chuyên môn hoá.
Nhiều subtask độc lập có thể chạy song song → tiết kiệm wall-time.
Model rẻ (Haiku) cho subtask, model mạnh (Opus) cho task chính.
→ Là lý do Multi-Agent Systems (MAS) trở thành mainstream giai đoạn 2025–2026.
Hệ thống có nhiều AI Agent phối hợp để giải bài toán phức tạp. Mỗi agent có thể có vai trò, năng lực, và context riêng — giao tiếp/điều phối qua một orchestration pattern nhất định.
Mỗi agent có chuyên môn riêng — researcher, implementer, reviewer, tester…
Tools, permissions, model riêng cho từng agent — kiểm soát chính xác.
Mỗi agent giữ context riêng — main không bị flooded bởi noise.
→ Hai instantiation phổ biến nhất của MAS: Sub-Agents và Agent Teams.
Subtask tạo nhiều output rác (search results, log, file dump) mà main agent không cần xem.
Giới hạn capability cho 1 subtask cụ thể — tăng safety, giảm rủi ro hành động ngoài ý muốn.
Model rẻ (Haiku) cho subtask đơn giản, giữ model mạnh (Opus) cho task chính.
Use case: 1 feature lớn, kéo dài vài giờ → vài ngày — chia cho team 4 members persistent, mỗi member có role & expertise riêng, accumulate context theo thời gian.
Khám phá codebase, đọc docs, gather context. Output: research reports cho team.
Viết code chính theo plan. Own production files, follow conventions.
Adversarial review — soi security, edge cases, false assumptions trước khi merge.
Write/run tests, coverage analysis, regression check. Owns test files.
→ Members persist across nhiều session → performance cải thiện dần theo domain expertise.
Task đơn giản, linear, không cần specialization. Đừng over-engineer.
Subtask isolated, throwaway context (dùng xong là bỏ). Phù hợp cho phần lớn use case.
Nhiều subtask parallel, kéo dài (phút → giờ), cần specialization theo role.
Token là đơn vị xử lý & đơn vị tính phí. 100 tok ≈ 75 từ EN. Input rẻ hơn Output (gồm Reasoning Token).
Prompt = input người nhập; Context = tất cả những gì model "thấy". LLM chỉ biết: weights + Context.
Bộ nhớ làm việc, đo bằng token. Đã tăng 4K → 2M+ trong 3 năm.
Agent = Brain + Tools + Memory. MCP = chuẩn mở để Agent gọi thế giới ngoài (file · API · DB).
Single → khi cần isolation/parallel/specialization → Sub-Agent. Chỉ lên Agent Team khi long-running thực sự.
▸ Next: Module 02 — Từ Prompt Engineering đến Context Engineering