Llms.txt file là gì?

Llms.txt là một tập tin văn bản đặc biệt giúp các website được hiểu tốt hơn bởi các hệ thống trí tuệ nhân tạo và các mô hình ngôn ngữ lớn. Tập tin này được đặt trong thư mục gốc (root directory) của website, giúp các hệ thống AI như ChatGPT, Google Gemini, Claude, Perplexity xử lý nội dung trang web một cách chính xác và hiệu quả hơn.

  • Định dạng llms.txt được coi là xuất hiện nhằm khắc phục những hạn chế của các chuẩn web truyền thống đối với hệ thống AI. Chuẩn này được đề xuất bởi Jeremy Howard vào tháng 9 năm 2024 qua trang llmstxt.org.
  • Mục đích là để mô hình AI có thể sử dụng nội dung web một cách hiệu quả hơn, bởi vì các trang HTML thường có cấu trúc phức tạp, kích thước lớn, và chứa nhiều phần như menu điều hướng, quảng cáo, script, v.v., điều này gây khó khăn cho việc hiểu và xử lý nội dung.
  • Cho đến thời điểm bài viết, chưa có thông tin cho thấy Google chính thức hỗ trợ llms.txt.
  • Llms.txt giúp các mô hình ngôn ngữ lớn hiểu và xử lý website tốt hơn bằng cách tóm tắt các nội dung quan trọng của website, dẫn dắt chúng tới những thông tin thiết yếu, để phản hồi các truy vấn của người dùng chính xác và hiệu quả hơn.
  • Trang web thường chứa HTML phức tạp, menu, quảng cáo, JavaScript, và các thành phần khác gây “nhiễu” khi xử lý nội dung. Llms.txt nhằm loại bỏ phần nào sự phức tạp này, cung cấp dữ liệu rõ ràng, dễ xử lý hơn cho AI.

Cách file llms.txt hoạt động như thế nào?

File llms.txt được đặt tại địa chỉ https://yourdomain.com/llms.txt và chứa thông tin có cấu trúc dưới dạng Markdown. Một file llms.txt điển hình bao gồm:

#Tên website

Mô tả ngắn gọn về nội dung của website.

#Giới thiệu (About)

Mô tả về doanh nghiệp, sứ mệnh và các sản phẩm/dịch vụ chính.

#Các trang quan trọng (Key Pages)

  • Tổng quan sản phẩm : Mô tả chức năng của sản phẩm.
  • Tài liệu: Tài liệu kỹ thuật và hướng dẫn sử dụng.
  • Blog: Các bài viết mới nhất về [chủ đề].
  • Bảng giá: Các gói dịch vụ và thông tin giá.

#Thông tin bổ sung (Additional Context)

Bất kỳ thông tin nào khác giúp các mô hình AI hiểu và thể hiện chính xác thương hiệu của bạn.

Điểm khác nhau giữa llms.txt và robots.txt

llms txt la gi - Công ty Thiết Kế Website Tam Nguyên
LLMs.txt là gì?

Mặc dù cả hai tập tin đều nằm ở thư mục gốc của website và đều có cấu trúc có thể đọc được bởi máy, nhưng chúng có mục đích và cách sử dụng khác nhau:

Tiêu chíllms.txtrobots.txt
Mục đíchGiúp AI/LLM hiểu và truy cập nội dung website hiệu quả hơn, hỗ trợ GEO (Generative Engine Optimization).Hướng dẫn bot tìm kiếm cách crawl và index website, phục vụ SEO truyền thống.
Đối tượng sử dụngCác hệ thống AI như ChatGPT, Gemini, Claude, Perplexity…Các bot tìm kiếm như Googlebot, Bingbot, YandexBot…
Định dạngThường dùng Markdown hoặc văn bản có cấu trúc, dễ đọc cho cả người và AI.File text thuần theo cú pháp chuẩn dành cho crawler.
Vai tròCung cấp ngữ cảnh, tài liệu quan trọng và nội dung ưu tiên cho AI.Kiểm soát quyền truy cập của bot vào từng khu vực trên website.
Nội dung chínhTóm tắt website, liên kết tài liệu, sitemap nội dung, hướng dẫn AI khai thác dữ liệu.Quy tắc Allow, Disallow, Crawl-delay, khai báo sitemap…
Ảnh hưởng đến SEO/GEOTăng khả năng nội dung được AI hiểu, trích dẫn và hiển thị trong kết quả AI.Giúp công cụ tìm kiếm crawl đúng cách và index hiệu quả.
Cơ chế hoạt độngMang tính gợi ý/ngữ cảnh cho AI đọc hiểu nội dung.Mang tính chỉ thị kỹ thuật cho bot crawl.
Vị trí filedomain.com/llms.txtdomain.com/robots.txt
Mức độ phổ biếnMới xuất hiện, chưa phải tiêu chuẩn chính thức.Tiêu chuẩn phổ biến và được hỗ trợ rộng rãi từ lâu.

Có thể hiểu đơn giản:

  • robots.txt = “Cho bot tìm kiếm biết được phép vào đâu.”
  • llms.txt = “Cho AI biết nội dung nào quan trọng và nên hiểu theo cách nào.”

Những điều nên cân nhắc khi tạo llms.txt

Để tập tin llms.txt được xử lý đúng và hiệu quả bởi các hệ thống AI, cần đảm bảo các yếu tố sau:

  • Viết bằng định dạng Markdown, sao cho đơn giản và dễ hiểu.
  • Chỉ bao gồm những nội dung quan trọng, tránh chi tiết thừa.
  • Tránh sử dụng các cấu trúc phức tạp như HTML hoặc JavaScript trong nội dung.
  • Thông tin phải chính xác, cập nhật, mô tả rõ ràng.
  • Nếu có nội dung phụ hoặc không quá quan trọng, thì nên đặt ở phần riêng, để hệ thống AI có thể ưu tiên.
  • Tránh thông tin mâu thuẫn giữa llms.txt và robots.txt. Ví dụ: nếu robots.txt chặn truy cập một trang nào đó, llms.txt không nên cung cấp liên kết tới trang mà thực tế bot AI không thể truy cập.
  • Cập nhật llms.txt thường xuyên khi website thay đổi nội dung.

Nội dung nên có trong llms.txt

Để llms.txt có hiệu quả, nó nên được cấu trúc rõ ràng, bao gồm các phần sau:

  1. Tiêu đề H1: Tên của dự án hoặc tên website.
  2. Đoạn tóm tắt (Excerpt Block): Tóm tắt về dự án và các thông tin chính.
  3. Thông tin chi tiết: Các đoạn văn hoặc danh sách cung cấp thêm thông tin cụ thể về dự án hoặc website.
  4. Danh sách liên kết (Link Lists): Liệt kê các URL tới các tài liệu, trang hoặc nguồn quan trọng, mỗi liên kết nếu có thể nên có mô tả ngắn kèm theo.

Ngoài ra, có thể thêm thông tin phụ thông qua các directive – tức là các chỉ dẫn thêm nếu cần.

Cách tích hợp llms.txt vào website

Quá trình tích hợp llms.txt vào website nên theo các bước sau:

  • Soạn file llms.txt ở định dạng Markdown như đã nói.
  • Tải lên thư mục gốc (root directory) của website.
  • Thêm tham chiếu tới llms.txt trong robots.txt, để bot AI biết có file này.
  • Kiểm tra tính truy cập của file qua trình duyệt – đảm bảo khi gõ đường dẫn https://domain.com/llms.txt sẽ hiển thị được.
  • Định nghĩa quyền truy cập cần thiết để các bot AI có thể phát hiện file này. Ví dụ, không chặn truy cập vào llms.txt qua robots.txt.
  • Thường xuyên cập nhật file khi nội dung website thay đổi, và kiểm tra nó bằng các công cụ xác thực (validation tools) để đảm bảo file không bị lỗi.

Nếu website của bạn sử dụng WordPress:

  • Bạn có thể thêm llms.txt thủ công vào thư mục public_html hoặc thư mục gốc.
  • Nếu không muốn làm thủ công, có thể dùng plugin để tạo và quản lý llms.txt.
Nguyễn Văn Thiệu

Chuyên gia trong lĩnh vực thiết kế web và phát triển website trên mạng internet với hơn 20 năm kinh nghiệm.
Tôi đã giúp hàng trăm doanh nghiệp có kế hoạch phát triển trang web một cách tổng thể để trang web phát triển bền vững và mang lại lợi nhuận từ website.