Entropy Tệp Là Gì

Entropy Tệp Là Gì
Entropy Tệp Là Gì

Video: Entropy Tệp Là Gì

Video: Entropy Tệp Là Gì
Video: [Qu0026A] Bản Chất Của Spin và Entropy là gì? | Thư Viện Thiên Văn 2024, Tháng tư
Anonim

Bất kỳ tệp máy tính nào cũng được tạo thành từ các byte. Một byte có thể nhận các giá trị từ 0 đến 255. Entropy thông tin là một tham số thống kê cho biết xác suất xuất hiện của một số byte nhất định trong một tệp.

Entropy tệp là gì
Entropy tệp là gì

Bạn có thể đánh giá trực quan mức độ entropy bằng cách sử dụng biểu đồ - phân phối xác suất lặp lại các byte giống nhau trong một tệp. Từ entropy của tệp, chúng ta có thể đoán loại tệp đang ở trước mặt chúng ta, chỉ nhìn thấy biểu đồ của nó.

Để minh họa, hãy lấy ba tệp thuộc các loại khác nhau và so sánh biểu đồ của chúng. Đặt đầu tiên là một tệp văn bản (*. TXT). Biểu đồ của nó được hiển thị trong hình:

гистограмма=
гистограмма=

Tệp văn bản chỉ chứa văn bản. Mỗi ký tự của văn bản được mã hóa bằng các byte nhất định phù hợp với bảng mã hóa. Mặc dù có một số lượng lớn các kiểu mã hóa, rõ ràng là có một số ký tự chữ và số bị hạn chế, thường nhỏ hơn 255. Do đó, chỉ một số khu vực được chiếm trên biểu đồ đầu tiên và một số byte thì không.

Tệp sau đây sẽ ở định dạng PDF:

гистограмма=
гистограмма=

Tệp này chứa tất cả các byte có thể có, vì PDF được mã hóa khác với tệp văn bản. Nó lưu trữ rất nhiều thông tin dịch vụ: định dạng, phông chữ, hình ảnh, v.v. Nhưng biểu đồ của nó cho thấy rằng một số byte xảy ra với xác suất xấp xỉ bằng nhau, trong khi những byte khác - thường xuyên hơn nhiều so với những byte khác. Do đó, nhiều điểm bùng phát sắc nét trên biểu đồ và nói chung nó có vẻ ngoài khá "rách rưới", mặc dù nó chiếm toàn bộ chiều rộng có sẵn.

Và tệp cuối cùng được nén ở định dạng 7Z:

гистограмма=
гистограмма=

Biểu đồ này có hai đặc điểm chính: thứ nhất, tất cả các byte đều được tìm thấy trong tệp nén với xác suất ít hơn hoặc bằng nhau (cạnh trên khá phẳng) và thứ hai, thực tế không có không gian trống phía trên biểu đồ, điều này cho thấy sự vắng mặt gần như hoàn toàn dự phòng một tệp như vậy. Do đó, chúng ta có thể kết luận rằng thuật toán của trình lưu trữ theo một cách đặc biệt nào đó "trộn" các byte của tệp để đạt được phân phối đồng nhất tối đa của chúng.

Do đó, entropy trong khoa học máy tính, cũng như trong vật lý, là một thước đo sự rối loạn trong hệ thống, trong trường hợp này là sự rối loạn trong phân phối các byte trong tệp. Entropy cho phép bạn đánh giá mức độ nén của tệp và - gián tiếp - về kiểu của nó.

Đề xuất: