5.4.4 repurposing và ReinterpretationMột trong những khái niệm căn bản cho việc sử dụng dữ liệu Analytics là khả năng của việc tìm kiếm mô hình thú vị mà có thể dẫn đến cái nhìn sâu sắc hữu dụng, và bạn phải ghi nhớ rằng bất kỳ số liệu mua lại có thể được sử dụng cho mục đích tiềm năng nào tại bất kỳ thời điểm nào trong tương lai. Tuy nhiên, chiến lược này của dữ liệu tái sử dụng cũng có thể backfire. Lặp đi lặp lại sao chép và repurposing dẫn đến một mức độ lớn của tách giữa sản xuất dữ liệu và dữ liệu tiêu dùng. Với mỗi tái sử dụng kế tiếp, người tiêu dùng dữ liệu nhưng một lần nữa phải do ý nghĩa của dữ liệu. Cuối cùng, bất kỳ ngữ nghĩa vốn có liên kết với các dữ liệu khi nó được tạo ra bay hơi.Quản trị cũng sẽ có nghĩa là thiết lập một số giới hạn xung quanh các đề án cho repurposing. Chính sách mới có thể là cần thiết khi nói đến việc xác định những gì dữ liệu để có được và những gì để bỏ qua, những khái niệm để nắm bắt và mà những người nên được vào thùng rác, khối lượng dữ liệu sẽ được giữ lại và làm thế nào long, và chính sách chất lượng dữ liệu quản lý và quy chế giám hộ khác.5.4.5 dữ liệu làm giàu và nâng caoThật khó để xem xét bất cứ nhu cầu cho quản trị dữ liệu hoặc chất lượng cho datasets mua lại lớn mà không cần thảo luận về lựa chọn thay thế cho dữ liệu làm sạch và sửa chữa. Sự thật đơn giản là rằng nói chung bạn sẽ có không có kiểm soát chất lượng và tính hợp lệ của dữ liệu được mua lại từ bên ngoài tổ chức. Xác nhận quy tắc có thể được sử dụng để điểm khả năng sử dụng dữ liệu dựa trên yêu cầu người dùng cuối, nhưng nếu những điểm dưới mức acceptability và bạn vẫn muốn làm các phân tích, bạn về cơ bản có những sự lựa chọn:1. không sử dụng các dữ liệu ở tất cả.2. sử dụng dữ liệu trong tình trạng "không thể chấp nhận" và điều chỉnh những kỳ vọng của người dùng liên quan đến điểm giá trị.3. thay đổi dữ liệu đến một hình thức hơn chấp nhận được.Lựa chọn này có thể không mạnh mẽ như bạn có thể nghĩ. Nếu ứng dụng doanh nghiệp đòi hỏi độ chính xác và độ chính xác trong dữ liệu, cố gắng sử dụng dữ liệu không được chấp nhận sẽ giới thiệu một nguy cơ rằng các kết quả có thể không phải là đáng tin cậy. Mặt khác, nếu bạn đang phân tích datasets rất lớn cho các mô hình tò mò và thú vị hoặc để xác định các mối quan hệ giữa nhiều thực thể khác nhau, có là một số mất nhiều thời gian để thực hiện quá trình sự hiện diện của một số lỗi nhỏ. Một tỷ lệ tối thiểu các sai sót dữ liệu sẽ không đáng kể nghiêng kết quả.Ví dụ, nhà bán lẻ trực tuyến lớn muốn lái xe tăng bán hàng thông qua phân tích mối quan hệ, cũng như xem xét các tương quan bán hàng trong bán hàng "thị trường giỏ" (bộ sưu tập của các mặt hàng mua bởi một cá nhân tại một thời gian). Khi giao dịch xử lý hàng triệu (hoặc đơn đặt hàng của cường độ thêm) một ngày, một số tối thiểu mâu thuẫn, không đầy đủ hồ sơ, hoặc lỗi có khả năng được không liên quan. Tuy nhiên, không đúng giá trị nên là một trở ngại để phân tích và thực hiện thay đổi không đáng kể thay đổi dữ liệu từ dạng ban đầu của nó khác hơn là một cách tích cực và dự kiến, dữ liệu nâng cao và làm giàu có thể là một lựa chọn hợp lý. Một ví dụ là tiêu chuẩn hóa địa chỉ. Địa chỉ địa điểm có thể không đầy đủ hoặc thậm chí không chính xác (ví dụ như, mã zip có thể không chính xác). Tiêu chuẩn hóa định dạng một địa chỉ và việc áp dụng sửa chữa là một cách nhất quán chỉ để cải thiện các dữ liệu.Như vậy có thể nói cho liên kết chiết xuất thực thể cho biết danh tính cấu hình bằng cách sử dụng thuật toán phù hợp với bản sắc với xác suất cao. Làm cho liên kết đó tăng cường phân tích thông qua việc chia sẻ thông tin hồ sơ cho chiết xuất thực thể. Một quá trình tương tự có thể được sử dụng trong kết nối với tài liệu tham khảo được xác định siêu dữ liệu phân cấp và phân loại của chúng tôi: tiêu chuẩn hóa các tham chiếu đến mục hoặc các khái niệm liên quan đến một trật tự phân loại cho phép ứng dụng của bạn điều trị xe ô tô, xe ô tô, xe tải, minivans, SUV, xe tải và RVs làm phương tiện, ít nhất một số mục đích phân tích.
đang được dịch, vui lòng đợi..
