- Cài đặt plugin hỗ trợ
2. Cách cài đặt file robots.txt
Robots.txt là một file văn bản có cấu trúc rất đơn giản, đặt ngay sau tên miền. Với nền tảng WordPress, nó được mặc định ở link domain.com/robots.txt.
Ví dụ như website này được xây dựng trên nền tảng WordPress và link dẫn tới file Robots.txt là https://tailieumarketing.net/robots.txt
User-agent: *
Disallow: /audio/
Disallow: /login.html/
– User-agent: là đối tượng bot được phép vào website. Có rất nhiều loại bot như: Googlebot (Google), Googlebot-Image (Google), Yandex (SE của Nga), Bingbot (Bing)/Yahoo Slurp (Yahoo)… Ở đây sử dụng dấu “*” có nghĩa là cho phép tất cả các bot đều được truy cập vào.
– Disallow: Chặn không cho bot truy cập vào. “/audio/”- chặn không cho truy cập vào thư mục audio, “login.html” – chặn bot truy cập vào trang login.html.
3. Những cú pháp thông dụng
– Khóa toàn bộ site
Disallow: /
– Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /audio/
– Chặn 1 trang
Disallow: /admin.html
– Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/hot.jpg
– Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
– Chặn 1 file hình bất kỳ, ví dụ .jpg
User-agent: Googlebot
Disallow: /*.jpg$
4. Chú ý khi tạo file robots.txt
– Phân biệt chữ hoa, chữ thường.
– Không được viết thừa, thiếu khoảng trắng
– Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh, rất dễ gây nhầm lẫn cho bot.
– Mỗi một câu lệnh nên viết trên 1 dòng.