Năm-Số Summary, Boxplots, và Outliers
Không có biện pháp duy nhất số lan truyền (ví dụ, IQR) là rất hữu ích cho việc mô tả sai lệch
bản phân phối. Có một cái nhìn tại các bản phân phối dữ liệu đối xứng và nghiêng của hình 2.1.
Trong sự phân bố đối xứng, trung bình (và các biện pháp khác về xu hướng trung ương)
chia tách các dữ liệu vào phần bằng nhau kích thước. Điều này không xảy ra đối với các bản phân phối lệch.
Do đó, nó là thông tin mới hơn cũng cung cấp hai tứ phân vị Q1 và Q3, cùng
với trung bình. Một nguyên tắc chung của ngón tay cái để xác định giá trị ngoại lai bị nghi ngờ là để
chọn ra các giá trị giảm ít nhất 1,5 × IQR trên các tứ phân vị thứ ba hoặc dưới đầu
tứ phân vị.
Bởi vì Q1, trung bình, và Q3 nhau không chứa thông tin về các thiết bị đầu cuối
(ví dụ, đuôi) của dữ liệu, một bản tóm tắt đầy đủ hơn về hình dạng của một phân phối có thể được
thu được bằng cách cung cấp các giá trị dữ liệu thấp nhất và cao nhất là tốt. Điều này được biết đến như là
bản tóm tắt năm số. Bản tóm tắt năm số của một phân phối bao gồm các
trung bình (Q2), Q1 tứ phân vị và quý 3 và nhỏ nhất và lớn nhất quan sát riêng lẻ,
được viết theo thứ tự tối thiểu, Q1, trung bình, Q3, tối đa.
Boxplots là một cách phổ biến hình dung một phân phối. Một boxplot kết hợp các
bản tóm tắt năm số như sau:
Thông thường, các đầu của hộp là tại tứ phân do đó độ dài hộp là
. Khoảng tứ phân vị
trung vị được đánh dấu bởi một dòng trong hộp.
Hai dòng (gọi là râu) bên ngoài hộp mở rộng đến nhỏ nhất (tối thiểu) và
quan sát lớn nhất (tối đa).
đang được dịch, vui lòng đợi..
