Tin mới nhất

Hạn chế thông tin hiển thị cho Google bằng file Robot.txt

  1. Cài đặt plugin hỗ trợ

2. Cách cài đặt file robots.txt

Robots.txt là một file văn bản có cấu trúc rất đơn giản, đặt ngay sau tên miền. Với nền tảng WordPress, nó được mặc định ở link domain.com/robots.txt.
Ví dụ như website này được xây dựng trên nền tảng WordPress và link dẫn tới file Robots.txt là https://tailieumarketing.net/robots.txt

User-agent: *
Disallow: /audio/
Disallow: /login.html/

– User-agent: là đối tượng bot được phép vào website. Có rất nhiều loại bot như: Googlebot (Google), Googlebot-Image (Google), Yandex (SE của Nga), Bingbot (Bing)/Yahoo Slurp (Yahoo)… Ở đây sử dụng dấu “*” có nghĩa là cho phép tất cả các bot đều được truy cập vào.

– Disallow: Chặn không cho bot truy cập vào. “/audio/”- chặn không cho truy cập vào thư mục audio, “login.html” – chặn bot truy cập vào trang login.html.

3. Những cú pháp thông dụng

– Khóa toàn bộ site

Disallow: /

– Chặn 1 thư mục và mọi thứ nằm trong nó

Disallow: /audio/

– Chặn 1 trang

Disallow: /admin.html

– Loại bỏ 1 hình từ  Google Images

User-agent: Googlebot-Image
Disallow: /images/hot.jpg

– Bỏ tất cả các hình từ Google Images:

User-agent: Googlebot-Image
Disallow: /

– Chặn 1 file hình bất kỳ, ví dụ .jpg

User-agent: Googlebot
Disallow: /*.jpg$

4. Chú ý khi tạo file robots.txt

– Phân biệt chữ hoa, chữ thường.

– Không được viết thừa, thiếu khoảng trắng

– Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh, rất dễ gây nhầm lẫn cho bot.

– Mỗi một câu lệnh nên viết trên 1 dòng.

Trả lời