✨Tạo sinh dựa trên truy xuất tăng cường
Tạo sinh dựa trên truy xuất tăng cường (tiếng Anh: retrieval-augmented generation hoặc RAG) là một kỹ thuật cho phép các mô hình ngôn ngữ lớn (LLM) truy xuất và kết hợp thông tin mới. Với RAG, các LLM không trả lời truy vấn của người dùng ngay lập tức. Thay vào đó, chúng sẽ tham khảo một bộ tài liệu được chỉ định trước. Ví dụ, kỹ thuật này giúp các chatbot dựa trên LLM truy cập dữ liệu nội bộ của công ty. Nó cũng giúp tạo ra các phản hồi dựa trên những nguồn đáng tin cậy.
RAG cải thiện các mô hình ngôn ngữ lớn (LLM) bằng cách tích hợp cơ chế truy xuất thông tin trước khi tạo ra phản hồi. hiện tượng này đã khiến các chatbot mô tả những chính sách không tồn tại, hoặc đề xuất các vụ án không có thật cho luật sư đang tìm kiếm án lệ để hỗ trợ cho lập luận của họ.
RAG cũng làm giảm nhu cầu huấn luyện lại các LLM bằng dữ liệu mới. Điều này giúp tiết kiệm chi phí tính toán và tài chính. Tạp chí MIT Technology Review đưa ra ví dụ về một phản hồi do AI tạo ra, nói rằng, "Hoa Kỳ đã có một tổng thống Hồi giáo, Barack Hussein Obama." Mô hình đã truy xuất thông tin này từ một cuốn sách học thuật có tựa đề tu từ là Barack Hussein Obama: Tổng thống Hồi giáo đầu tiên của nước Mỹ? LLM đã không "biết" hoặc "hiểu" ngữ cảnh của tiêu đề, do đó đã tạo ra một tuyên bố sai sự thật.
Quy trình
Tạo sinh dựa trên truy xuất tăng cường (RAG) nâng cao các mô hình ngôn ngữ lớn (LLM) bằng cách tích hợp một cơ chế truy xuất thông tin. Cơ chế này cho phép các mô hình truy cập và sử dụng dữ liệu bổ sung ngoài bộ dữ liệu huấn luyện ban đầu. AWS cho biết, "RAG cho phép các LLM truy xuất thông tin liên quan từ các nguồn dữ liệu bên ngoài để tạo ra các phản hồi chính xác và phù hợp với ngữ cảnh hơn" ("lập chỉ mục"). Ars Technica lưu ý rằng "khi có thông tin mới, thay vì phải huấn luyện lại mô hình, tất cả những gì cần làm là tăng cường cơ sở tri thức bên ngoài của mô hình bằng thông tin cập nhật" ("tăng cường").
thumb|Tổng quan về quy trình RAG, kết hợp các tài liệu bên ngoài và đầu vào của người dùng vào một câu lệnh LLM để có được đầu ra tùy chỉnh
Truy xuất
Khi có một truy vấn từ người dùng, một bộ truy xuất tài liệu sẽ được gọi đầu tiên. Nó sẽ chọn ra các tài liệu phù hợp nhất để sử dụng cho việc tăng cường truy vấn. Các phiên bản mới hơn () cũng có thể tích hợp các mô-đun tăng cường cụ thể. Chúng có các khả năng như mở rộng truy vấn sang nhiều lĩnh vực, sử dụng bộ nhớ và tự cải thiện để học hỏi từ các lần truy xuất trước đó.
- Hiệu suất được cải thiện bằng cách tối ưu hóa cách tính độ tương đồng của vectơ. Tích vô hướng giúp nâng cao điểm tương đồng, trong khi tìm kiếm hàng xóm gần nhất xấp xỉ (ANN) cải thiện hiệu quả truy xuất so với tìm kiếm K hàng xóm gần nhất (KNN).
- Độ chính xác có thể được cải thiện bằng Tương tác muộn (Late Interactions), cho phép hệ thống so sánh các từ một cách chính xác hơn sau khi truy xuất. Điều này giúp tinh chỉnh xếp hạng tài liệu và cải thiện mức độ phù hợp của tìm kiếm.
Các phương pháp lấy bộ truy xuất làm trung tâm
Các phương pháp này nhằm mục đích nâng cao chất lượng truy xuất tài liệu trong cơ sở dữ liệu vectơ:
- Tiền huấn luyện bộ truy xuất bằng Tác vụ Cloze đảo ngược (Inverse Cloze Task - ICT). Đây là một kỹ thuật giúp mô hình học các mẫu truy xuất bằng cách dự đoán văn bản bị che trong tài liệu.
- Các kỹ thuật xếp hạng lại (reranking) có thể tinh chỉnh hiệu suất của bộ truy xuất bằng cách ưu tiên các tài liệu được truy xuất phù hợp nhất trong quá trình huấn luyện. là một bộ tiêu chuẩn mã nguồn mở được thiết kế để kiểm tra chất lượng truy xuất trên các tài liệu pháp lý. Nó đánh giá độ phủ (recall) và độ chính xác (precision) cho các quy trình RAG khác nhau bằng cách sử dụng các câu hỏi và tài liệu pháp lý trong thực tế.
Thách thức
RAG không phải là giải pháp hoàn chỉnh cho vấn đề ảo giác ở các LLM. Theo Ars Technica, "Nó không phải là một giải pháp trực tiếp vì LLM vẫn có thể tạo ra ảo giác xung quanh tài liệu nguồn trong phản hồi của mình."
Mặc dù RAG cải thiện độ chính xác của các mô hình ngôn ngữ lớn (LLM), nó không loại bỏ được tất cả các thách thức. Một hạn chế là dù RAG làm giảm nhu cầu huấn luyện lại mô hình thường xuyên, nó không loại bỏ hoàn toàn nhu cầu này. Ngoài ra, các LLM có thể gặp khó khăn trong việc nhận ra khi nào chúng không có đủ thông tin để đưa ra một câu trả lời đáng tin cậy. Nếu không được huấn luyện cụ thể, các mô hình có thể tạo ra câu trả lời ngay cả khi chúng nên thể hiện sự không chắc chắn. Theo IBM, vấn đề này có thể phát sinh khi mô hình thiếu khả năng tự đánh giá giới hạn kiến thức của chính nó.
Các hệ thống RAG có thể truy xuất các nguồn thông tin đúng sự thật nhưng lại gây hiểu lầm, dẫn đến sai sót trong việc diễn giải. Trong một số trường hợp, một LLM có thể trích xuất các phát biểu từ một nguồn mà không xem xét ngữ cảnh của nó, dẫn đến một kết luận không chính xác. Thêm vào đó, khi đối mặt với thông tin mâu thuẫn, các mô hình RAG có thể gặp khó khăn trong việc xác định nguồn nào là chính xác. Chúng có thể kết hợp các chi tiết từ nhiều nguồn, tạo ra các phản hồi trộn lẫn thông tin lỗi thời và cập nhật một cách gây hiểu lầm. Theo tạp chí MIT Technology Review, những vấn đề này xảy ra vì các hệ thống RAG có thể diễn giải sai dữ liệu mà chúng truy xuất.

![[HCM]Viên Uống Hỗ Trợ Sụn Khớp Và Ngăn Ngừa Thoái Hóa Khớp Omexxel Arthri (Hộp 30 Viên) - Xuất Xứ Mỹ](/datafiles/2025/no-image.png)