Khối
A đĩa có kích thước khối, đó là số tiền tối thiểu của dữ liệu mà nó có thể đọc hoặc viết.
Hệ thống tập tin cho một đĩa duy nhất xây dựng trên này bằng cách xử lý dữ liệu trong khối, trong đó là một
bội số nguyên của kích thước khối đĩa. Khối hệ thống tập tin thường là vài kilobyte
trong kích thước, trong khi khối đĩa thường 512 byte. Điều này nói chung là trong suốt đối với
người sử dụng hệ thống tập tin người chỉ đơn giản là đọc hoặc viết một tập tin của bất cứ chiều dài. Tuy nhiên,
có những công cụ để thực hiện bảo trì hệ thống tập tin, chẳng hạn như df và fsck, hoạt động trên
các khối cấp hệ thống tập tin.
HDFS, quá, có khái niệm về một khối, nhưng nó là một đơn vị-128 lớn hơn nhiều MB theo mặc định.
Giống như trong một hệ thống tập tin cho một đĩa duy nhất, tập tin trong HDFS được chia thành nhiều phần khối có kích thước,
mà được lưu trữ như các đơn vị độc lập. Không giống như một hệ thống tập tin cho một đĩa duy nhất, một tập tin trong
HDFS đó là nhỏ hơn so với một khối duy nhất không chiếm giá trị một khối đầy đủ của hiểu biết
lưu trữ nói dối. (Ví dụ, một tập tin 1 MB lưu trữ với một kích thước khối 128 MB sử dụng 1 MB
không gian đĩa, không phải 128 MB.) Khi không đủ tiêu chuẩn, thuật ngữ "khối" trong cuốn sách này đề cập đến một
khối trong HDFS.
Tại sao là một khối trong HDFS Vì vậy lớn?
HDFS khối là lớn so với khối đĩa, và lý do là để giảm thiểu chi phí
của tìm kiếm. Nếu khối là đủ lớn, thời gian cần để chuyển dữ liệu từ các đĩa
có thể được kéo dài hơn thời gian đáng kể để tìm cách bắt đầu của khối. Như vậy, xuyên
Ferring một tập tin lớn làm bằng nhiều khối hoạt động ở tốc độ truyền tải đĩa.
Một tính toán nhanh chóng cho thấy rằng nếu thời gian tìm kiếm là khoảng 10 ms và tốc độ truyền là
100 MB / s, để làm cho thời gian tìm kiếm 1% thời gian chuyển giao, chúng ta cần phải làm cho kích thước khối
khoảng 100 MB. Các mặc định thực sự là 128 MB, mặc dù nhiều HDFS cài đặt sử dụng
kích thước khối lớn hơn. Con số này sẽ tiếp tục được điều chỉnh tăng lên như tốc độ truyền phát triển
với các thế hệ mới của ổ đĩa.
Lập luận này không nên đi quá xa, tuy nhiên. Nhiệm vụ Bản đồ trong MapReduce thường
hoạt động trên một khối tại một thời gian, vì vậy nếu bạn có quá ít công việc (ít hơn các nút trong
cluster), công việc của bạn sẽ chạy chậm hơn so với họ có thể khác.
đang được dịch, vui lòng đợi..
