Tạo file robots.txt là một trong những công việc cần làm khi seo onpage . Đầu tiên chúng ta cần hiểu file robots.txt là gì ? Khi search engine crawl một website nào đó thì tập tin đầu tiên nó để ý đến là robots.txt. Vậy robots.txt là một file dạng txt có chứa các câu lệnh để [...]
Hướng dẫn tạo file robots.txt seoer cần biết
Tạo file robots.txt là một trong những công việc cần làm khi seo onpage . Đầu tiên chúng ta cần hiểu file robots.txt là gì ? Khi search engine crawl một website nào đó thì tập tin đầu tiên nó để ý đến là robots.txt. Vậy robots.txt là một file dạng txt có chứa các câu lệnh để định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm.
Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của website
Để tạo một file robots.txt rất đơn giản. Việc đầu tiên các bạn mở file notepad và lưu file với tên robots.txt rồi sau đó ghi các dòng lệnh với cấu trúc như sau :
Nếu bạn muốn tất cả các search engine có thể index website của bạn, nhưng không được index các trang trong thư mục “cgi-bin” thì sử dụng lệnh sau:
User-agent: * Disallow: /cgi-bin/
Những điều nên tránh:
- Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn.
Ví dụ:
“Disallow: support # Don’t index the support directory”
- Không được để khoảng trắng ở đầu dòng lệnh
Ví dụ:
User-agent: * Disallow: /cgi-bin/
- Không thay đổi trật tự của các dòng lệnh.
Ví dụ:
Disallow: /support User-agent: *
- Không sử dụng quá một thư mục trong dòng lệnh Disallow.
Ví dụ:
User-agent: * Disallow: /support /cgi-bin/ images/
- Các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: * Disallow: /support Disallow: /cgi-bin/ Disallow: /images/
- Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng.
Ví dụ:
Thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.
- Không nên dùng lệnh Allow trong file robots.txt
Bởi vì trong website của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong website của bạn sẽ bị index.
Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster Tools của Google (phải đăng nhập tài khoản) vào Site configuration->Crawler access.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.
Không có nhận xét nào:
Đăng nhận xét