Cách Soạn Tệp Txt Rô Bốt

Mục lục:

Cách Soạn Tệp Txt Rô Bốt
Cách Soạn Tệp Txt Rô Bốt

Video: Cách Soạn Tệp Txt Rô Bốt

Video: Cách Soạn Tệp Txt Rô Bốt
Video: Bài 13: File Robots.txt Là Gì, Vai Trò, Cách Cài Đặt, Sử Dụng 2024, Tháng mười một
Anonim

Một trong những công cụ để quản lý việc lập chỉ mục các trang web của các công cụ tìm kiếm là tệp robots.txt. Nó chủ yếu được sử dụng để ngăn tất cả hoặc chỉ một số rô bốt nhất định tải xuống nội dung của một số nhóm trang nhất định. Điều này cho phép bạn loại bỏ "rác" trong kết quả của công cụ tìm kiếm và trong một số trường hợp, cải thiện đáng kể thứ hạng của tài nguyên. Điều quan trọng là phải có tệp robots.txt chính xác để ứng dụng thành công.

Cách soạn tệp txt rô bốt
Cách soạn tệp txt rô bốt

Cần thiết

trình soạn thảo văn bản

Hướng dẫn

Bước 1

Lập danh sách các rô bốt mà các quy tắc loại trừ đặc biệt sẽ được đặt hoặc các lệnh của tiêu chuẩn robots.txt mở rộng, cũng như các lệnh không chuẩn và cụ thể (tiện ích mở rộng của một công cụ tìm kiếm cụ thể) sẽ được sử dụng. Nhập vào danh sách này giá trị của các trường Tác nhân người dùng của tiêu đề yêu cầu HTTP được các rô bốt đã chọn gửi đến máy chủ trang web. Tên của các rô bốt cũng có thể được tìm thấy trong các phần tham khảo của các trang web công cụ tìm kiếm.

Bước 2

Chọn nhóm URL của tài nguyên trang web mà quyền truy cập sẽ bị từ chối đối với từng rô bốt trong danh sách được biên soạn ở bước đầu tiên. Thực hiện thao tác tương tự cho tất cả các rô bốt khác (một tập hợp các rô bốt lập chỉ mục không xác định). Nói cách khác, kết quả sẽ là một số danh sách chứa các liên kết đến các phần của trang web, các nhóm trang hoặc nguồn nội dung phương tiện bị cấm lập chỉ mục. Mỗi danh sách phải tương ứng với một robot khác nhau. Cũng phải có một danh sách các URL bị cấm cho tất cả các bot khác. Lập danh sách dựa trên sự so sánh cấu trúc logic của trang web với vị trí thực của dữ liệu trên máy chủ, cũng như bằng cách nhóm các URL của các trang theo đặc điểm chức năng của chúng. Ví dụ: bạn có thể đưa vào danh sách từ chối nội dung của bất kỳ danh mục dịch vụ nào (được nhóm theo vị trí) hoặc tất cả các trang hồ sơ người dùng (được nhóm theo mục đích).

Bước 3

Chọn các dấu hiệu URL cho từng tài nguyên có trong danh sách được biên dịch ở bước thứ hai. Khi xử lý danh sách loại trừ cho rô bốt chỉ sử dụng lệnh robots.txt tiêu chuẩn và rô bốt không xác định, hãy đánh dấu các phần URL duy nhất có độ dài tối đa. Đối với các bộ địa chỉ còn lại, bạn có thể tạo các mẫu phù hợp với thông số kỹ thuật của các công cụ tìm kiếm cụ thể.

Bước 4

Tạo tệp robots.txt. Thêm các nhóm chỉ thị vào đó, mỗi nhóm tương ứng với một tập hợp các quy tắc cấm cho một robot cụ thể, danh sách trong số đó đã được tổng hợp ở bước đầu tiên. Sau đó phải được theo sau bởi một nhóm chỉ thị cho tất cả các rô bốt khác. Tách các nhóm quy tắc bằng một dòng trống. Mỗi bộ quy tắc phải bắt đầu bằng chỉ thị Tác nhân người dùng xác định rô bốt, sau đó là lệnh Không cho phép, lệnh này cấm lập chỉ mục các nhóm URL. Tạo các dòng thu được ở bước thứ ba với các giá trị của lệnh Disallow. Phân tách các lệnh và ý nghĩa của chúng bằng dấu hai chấm. Hãy xem xét ví dụ sau: Tác nhân người dùng: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Bộ lệnh này chỉ thị cho rô bốt chính của Công cụ tìm kiếm Yandex không lập chỉ mục URL chứa chuỗi con / tạm thời / dữ liệu / hình ảnh /. Nó cũng ngăn không cho tất cả các rô bốt khác lập chỉ mục các URL chứa / temp / data /.

Bước 5

Bổ sung robots.txt với các chỉ thị tiêu chuẩn mở rộng hoặc các chỉ thị công cụ tìm kiếm cụ thể. Ví dụ về các lệnh đó là: Máy chủ lưu trữ, Sơ đồ trang web, Tỷ lệ yêu cầu, Thời gian truy cập, Độ trễ thu thập thông tin.

Đề xuất: