5.3 SỰ KHÁC BIỆT VỚI BIG bộ dữ liệu
Mặt khác, tập hợp dữ liệu lớn không trưng bày những đặc điểm này, và cũng không có các loại tương tự của các tác động kinh doanh. Phân tích dữ liệu lớn thường tập trung vào tiêu thụ số lượng lớn của một sự kết hợp của dữ liệu có cấu trúc và phi cấu trúc từ cả hai nguồn máy tạo ra và con người. Phần lớn các phân tích được thực hiện mà không xem xét các tác động kinh doanh của các lỗi hoặc không nhất quán trên các nguồn khác nhau, từ nơi mà dữ liệu có nguồn gốc, hoặc làm thế nào nó thường xuyên được mua lại.
ứng dụng dữ liệu lớn nhìn vào nhiều dòng đầu vào có nguồn gốc từ bên trong và bên ngoài tổ chức, một số lấy từ một loạt các dòng mạng xã hội, cung cấp thông tin các luồng dữ liệu, các thông tin, các bộ lọc tìm kiếm cấu hình sẵn, bộ dữ liệu công cộng hoặc mã nguồn mở, mạng cảm biến, hoặc dữ liệu phi cấu trúc khác suối. Bộ dữ liệu đa dạng như chống lại cách tiếp cận đơn lẻ đến quản trị.
Khi các bộ dữ liệu và dữ liệu thu được suối nguồn từ bên ngoài tổ chức, có rất ít cơ sở để kiểm soát đầu vào. Các nguồn gốc thường rất khó hiểu rằng có rất ít khả năng thậm chí còn biết ai tạo ra các dữ liệu ở nơi đầu tiên, hãy để một mình cho phép bất kỳ loại giám sát qua việc tạo ra dữ liệu.
Một vấn đề khác liên quan đến việc phát triển và thực hiện mô hình cho các ứng dụng dữ liệu lớn. Phân tích dữ liệu dễ bị phát triển các mô hình riêng của họ trong môi trường sandbox riêng tư của họ. Trong những trường hợp này, các nhà phát triển thường bỏ qua các kênh thông tin và quản lý dữ liệu truyền thống, mở khả năng lớn hơn cho sự mâu thuẫn với các dự án CNTT bị xử phạt. Điều này trở nên phức tạp hơn khi bộ dữ liệu được khai thác thành hoặc tải trực tiếp mà không cần sự can thiệp của IT.
Tính nhất quán (hoặc thiếu đó) có lẽ là vấn đề khó khăn nhất. Khi bộ dữ liệu được tạo ra trong nội bộ và người dùng hạ lưu công nhận một lỗi tiềm năng, vấn đề mà có thể được thông báo cho chủ sở hữu các hệ thống nguồn gốc của. Các chủ sở hữu sau đó có cơ hội để tìm ra nguyên nhân gốc rễ của vấn đề và sau đó sửa các quá trình dẫn đến sai sót.
Nhưng với các hệ thống lớn dữ liệu mà hấp thụ khối lượng lớn dữ liệu, một số trong đó có nguồn gốc từ bên ngoài, có rất ít cơ hội để tham gia vào quá trình chủ sở hữu để ảnh hưởng đến sự thay đổi hoặc chỉnh sửa để nguồn. Mặt khác, nếu bạn chọn "đúng" các lỗi dữ liệu được công nhận, bạn đang giới thiệu một sự mâu thuẫn với nguồn gốc, mà lúc tồi tệ nhất có thể dẫn đến những kết luận chính xác và đưa ra quyết định sai lầm.
đang được dịch, vui lòng đợi..
