5.4.4 repurposing và ReinterpretationMột trong những khái niệm căn bản cho việc sử dụng dữ liệu Analytics là khả năng của việc tìm kiếm mô hình thú vị mà có thể dẫn đến cái nhìn sâu sắc hữu dụng, và bạn phải ghi nhớ rằng bất kỳ số liệu mua lại có thể được sử dụng cho mục đích tiềm năng nào tại bất kỳ thời điểm nào trong tương lai. Tuy nhiên, chiến lược này của dữ liệu tái sử dụng cũng có thể backfire. Lặp đi lặp lại sao chép và repurposing dẫn đến một mức độ lớn của tách giữa sản xuất dữ liệu và dữ liệu tiêu dùng. Với mỗi tái sử dụng kế tiếp, người tiêu dùng dữ liệu nhưng một lần nữa phải do ý nghĩa của dữ liệu. Cuối cùng, bất kỳ ngữ nghĩa vốn có liên kết với các dữ liệu khi nó được tạo ra bay hơi.Quản trị cũng sẽ có nghĩa là thiết lập một số giới hạn xung quanh các đề án cho repurposing. Chính sách mới có thể là cần thiết khi nói đến việc xác định những gì dữ liệu để có được và những gì để bỏ qua, những khái niệm để nắm bắt và mà những người nên được vào thùng rác, khối lượng dữ liệu sẽ được giữ lại và làm thế nào long, và chính sách chất lượng dữ liệu quản lý và quy chế giám hộ khác.5.4.5 dữ liệu làm giàu và nâng caoThật khó để xem xét bất cứ nhu cầu cho quản trị dữ liệu hoặc chất lượng cho datasets mua lại lớn mà không cần thảo luận về lựa chọn thay thế cho dữ liệu làm sạch và sửa chữa. Sự thật đơn giản là rằng nói chung bạn sẽ có không có kiểm soát chất lượng và tính hợp lệ của dữ liệu được mua lại từ bên ngoài tổ chức. Xác nhận quy tắc có thể được sử dụng để điểm khả năng sử dụng dữ liệu dựa trên yêu cầu người dùng cuối, nhưng nếu những điểm dưới mức acceptability và bạn vẫn muốn làm các phân tích, bạn về cơ bản có những sự lựa chọn:1. không sử dụng các dữ liệu ở tất cả.2. sử dụng dữ liệu trong tình trạng "không thể chấp nhận" và điều chỉnh những kỳ vọng của người dùng liên quan đến điểm giá trị.3. thay đổi dữ liệu đến một hình thức hơn chấp nhận được.Lựa chọn này có thể không mạnh mẽ như bạn có thể nghĩ. Nếu ứng dụng doanh nghiệp đòi hỏi độ chính xác và độ chính xác trong dữ liệu, cố gắng sử dụng dữ liệu không được chấp nhận sẽ giới thiệu một nguy cơ rằng các kết quả có thể không phải là đáng tin cậy. Mặt khác, nếu bạn đang phân tích datasets rất lớn cho các mô hình tò mò và thú vị hoặc để xác định các mối quan hệ giữa nhiều thực thể khác nhau, có là một số mất nhiều thời gian để thực hiện quá trình sự hiện diện của một số lỗi nhỏ. Một tỷ lệ tối thiểu các sai sót dữ liệu sẽ không đáng kể nghiêng kết quả.As an example, large online retailers want to drive increased sale through relationship analysis, as well as look at sales correlations within sales “market baskets” (the collection of items purchased by an individual at one time). When processing millions of (or orders of magnitude more) transactions a day, a minimal number of inconsistencies, incomplete records, or errors are likely to be irrelevant. However, should incorrect values be an impediment to the analysis and making changes does not significantly alter the data from its original form other than in a positive and expected way, data enhancement and enrichment may be a reasonable alternative. A good example is address standardization. Address locations may be incomplete or even incorrect (e.g., the zip code may be incorrect). Standardizing an address’s format and applying corrections is a consistent way only to improve the data.The same could be said for linking extracted entities to known identity profiles using algorithms that match identities with high probability. Making that link enhances the analysis through the sharing of profile information for extracted entities. A similar process can be used in connection with our defined reference metadata hierarchies and taxonomies: standardizing references to items or concepts in relation to a taxonomic order lets your application treat cars, automobiles, vans, minivans, SUVs, trucks, and RVs as vehicles, at least for certain analytical purposes.
đang được dịch, vui lòng đợi..
