Các tập tin dữ liệu train.csv và test.csv chứa hình ảnh màu xám quy mô của các chữ số vẽ tay, từ con số không qua chín. Mỗi hình ảnh là 28 pixels chiều cao và 28 điểm ảnh rộng, với tổng số 784 pixels trong tổng số. Mỗi điểm ảnh có một điểm ảnh có giá trị duy nhất liên kết với nó, chỉ ra những vùng sáng hoặc tối tăm của pixel, với con số cao hơn có nghĩa là tối hơn. Pixel-Giá trị này là một số nguyên từ 0 đến 255, bao gồm. Các tập dữ liệu huấn luyện, (train.csv), có 785 cột. Cột đầu tiên, được gọi là "nhãn", là chữ số đó đã được rút ra bởi người sử dụng. Phần còn lại của các cột chứa các pixel giá trị của hình ảnh có liên quan. Mỗi cột điểm ảnh trong tập huấn luyện có một tên như pixelx, trong đó x là một số nguyên giữa 0 và 783, bao gồm. Để xác định vị trí điểm ảnh này trên ảnh, giả sử rằng chúng tôi đã bị phân hủy x là x = i * 28 + j, nơi mà tôi và k là các số nguyên giữa 0 và 27, bao gồm. Sau đó pixelx nằm trên hàng i, cột j của ma trận 28 x 28, (chỉ mục bằng không). Ví dụ, pixel31 chỉ ra các điểm ảnh đó là trong cột thứ tư từ bên trái, và hàng thứ hai từ trên, như trong . ascii-sơ đồ dưới đây Nhìn bề ngoài, nếu chúng ta bỏ qua những "điểm ảnh" tiền tố, các điểm ảnh tạo nên hình ảnh như thế này:
đang được dịch, vui lòng đợi..