5.4.4 Repurposing and Reinterpretat

5.4.4 Repurposing and Reinterpretation
One of the foundational concepts for the use of data for analytics is the possibility of finding interesting patterns that can lead to actionable insight, and you must keep in mind that any acquired dataset may be used for any potential purpose at any time in the future. However, this strategy of data reuse can also backfire. Repeated copying and repurposing leads to a greater degree of separation between data producer and data consumer. With each successive reuse, the data consumers yet again must reinterpret what the data means. Eventually, any inherent semantics associated with the data when it is created evaporates.
Governance will also mean establishing some limits around the scheme for repurposing. New policies may be necessary when it comes to determining what data to acquire and what to ignore, which concepts to capture and which ones should be trashed, the volume of data to be retained and for how long, and other qualitative data management and custodianship policies.

5.4.5 Data Enrichment and Enhancement
It is hard to consider any need for data governance or quality for large acquired datasets without discussing alternatives for data cleansing and correction. The plain truth is that in general you will have no control over the quality and validity of data that is acquired from outside the organization. Validation rules can be used to score the usability of the data based on end-user requirements, but if those scores are below the level of acceptability and you still want to do the analysis, you basically have these choices:
1. Don’t use the data at all.
2. Use the data in its “unacceptable” state and modulate your users’ expectations in relation to the validity score.
3. Change the data to a more acceptable form.
This choice might not be as drastic as you might think. If the business application requires accuracy and precision in the data, attempting to use unacceptable data will introduce a risk that the results may not be trustworthy. On the other hand, if you are analyzing extremely large datasets for curious and interesting patterns or to identify relationships among many different entities, there is some leeway for executing the process in the presence of a small number of errors. A minimal percentage of data flaws will not significantly skew the results.
As an example, large online retailers want to drive increased sale through relationship analysis, as well as look at sales correlations within sales “market baskets” (the collection of items purchased by an individual at one time). When processing millions of (or orders of magnitude more) transactions a day, a minimal number of inconsistencies, incomplete records, or errors are likely to be irrelevant. However, should incorrect values be an impediment to the analysis and making changes does not significantly alter the data from its original form other than in a positive and expected way, data enhancement and enrichment may be a reasonable alternative. A good example is address standardization. Address locations may be incomplete or even incorrect (e.g., the zip code may be incorrect). Standardizing an address’s format and applying corrections is a consistent way only to improve the data.
The same could be said for linking extracted entities to known identity profiles using algorithms that match identities with high probability. Making that link enhances the analysis through the sharing of profile information for extracted entities. A similar process can be used in connection with our defined reference metadata hierarchies and taxonomies: standardizing references to items or concepts in relation to a taxonomic order lets your application treat cars, automobiles, vans, minivans, SUVs, trucks, and RVs as vehicles, at least for certain analytical purposes.

5.4.5 Data Enrichment and Enhancement
It is hard to consider any need for data governance or quality for large acquired datasets without discussing alternatives for data cleansing and correction. The plain truth is that in general you will have no control over the quality and validity of data that is acquired from outside the organization. Validation rules can be used to score the usability of the data based on end-user requirements, but if those scores are below the level of acceptability and you still want to do the analysis, you basically have these choices:
1. Don’t use the data at all.
2. Use the data in its “unacceptable” state and modulate your users’ expectations in relation to the validity score.
3. Change the data to a more acceptable form.
This choice might not be as drastic as you might think. If the business application requires accuracy and precision in the data, attempting to use unacceptable data will introduce a risk that the results may not be trustworthy. On the other hand, if you are analyzing extremely large datasets for curious and interesting patterns or to identify relationships among many different entities, there is some leeway for executing the process in the presence of a small number of errors. A minimal percentage of data flaws will not significantly skew the results.
As an example, large online retailers want to drive increased sale through relationship analysis, as well as look at sales correlations within sales “market baskets” (the collection of items purchased by an individual at one time). When processing millions of (or orders of magnitude more) transactions a day, a minimal number of inconsistencies, incomplete records, or errors are likely to be irrelevant. However, should incorrect values be an impediment to the analysis and making changes does not significantly alter the data from its original form other than in a positive and expected way, data enhancement and enrichment may be a reasonable alternative. A good example is address standardization. Address locations may be incomplete or even incorrect (e.g., the zip code may be incorrect). Standardizing an address’s format and applying corrections is a consistent way only to improve the data.
The same could be said for linking extracted entities to known identity profiles using algorithms that match identities with high probability. Making that link enhances the analysis through the sharing of profile information for extracted entities. A similar process can be used in connection with our defined reference metadata hierarchies and taxonomies: standardizing references to items or concepts in relation to a taxonomic order lets your application treat cars, automobiles, vans, minivans, SUVs, trucks, and RVs as vehicles, at least for certain analytical purposes.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

5.4.4 repurposing và ReinterpretationMột trong những khái niệm căn bản cho việc sử dụng dữ liệu Analytics là khả năng của việc tìm kiếm mô hình thú vị mà có thể dẫn đến cái nhìn sâu sắc hữu dụng, và bạn phải ghi nhớ rằng bất kỳ số liệu mua lại có thể được sử dụng cho mục đích tiềm năng nào tại bất kỳ thời điểm nào trong tương lai. Tuy nhiên, chiến lược này của dữ liệu tái sử dụng cũng có thể backfire. Lặp đi lặp lại sao chép và repurposing dẫn đến một mức độ lớn của tách giữa sản xuất dữ liệu và dữ liệu tiêu dùng. Với mỗi tái sử dụng kế tiếp, người tiêu dùng dữ liệu nhưng một lần nữa phải do ý nghĩa của dữ liệu. Cuối cùng, bất kỳ ngữ nghĩa vốn có liên kết với các dữ liệu khi nó được tạo ra bay hơi.Quản trị cũng sẽ có nghĩa là thiết lập một số giới hạn xung quanh các đề án cho repurposing. Chính sách mới có thể là cần thiết khi nói đến việc xác định những gì dữ liệu để có được và những gì để bỏ qua, những khái niệm để nắm bắt và mà những người nên được vào thùng rác, khối lượng dữ liệu sẽ được giữ lại và làm thế nào long, và chính sách chất lượng dữ liệu quản lý và quy chế giám hộ khác.5.4.5 dữ liệu làm giàu và nâng caoThật khó để xem xét bất cứ nhu cầu cho quản trị dữ liệu hoặc chất lượng cho datasets mua lại lớn mà không cần thảo luận về lựa chọn thay thế cho dữ liệu làm sạch và sửa chữa. Sự thật đơn giản là rằng nói chung bạn sẽ có không có kiểm soát chất lượng và tính hợp lệ của dữ liệu được mua lại từ bên ngoài tổ chức. Xác nhận quy tắc có thể được sử dụng để điểm khả năng sử dụng dữ liệu dựa trên yêu cầu người dùng cuối, nhưng nếu những điểm dưới mức acceptability và bạn vẫn muốn làm các phân tích, bạn về cơ bản có những sự lựa chọn:1. không sử dụng các dữ liệu ở tất cả.2. sử dụng dữ liệu trong tình trạng "không thể chấp nhận" và điều chỉnh những kỳ vọng của người dùng liên quan đến điểm giá trị.3. thay đổi dữ liệu đến một hình thức hơn chấp nhận được.Lựa chọn này có thể không mạnh mẽ như bạn có thể nghĩ. Nếu ứng dụng doanh nghiệp đòi hỏi độ chính xác và độ chính xác trong dữ liệu, cố gắng sử dụng dữ liệu không được chấp nhận sẽ giới thiệu một nguy cơ rằng các kết quả có thể không phải là đáng tin cậy. Mặt khác, nếu bạn đang phân tích datasets rất lớn cho các mô hình tò mò và thú vị hoặc để xác định các mối quan hệ giữa nhiều thực thể khác nhau, có là một số mất nhiều thời gian để thực hiện quá trình sự hiện diện của một số lỗi nhỏ. Một tỷ lệ tối thiểu các sai sót dữ liệu sẽ không đáng kể nghiêng kết quả.Ví dụ, nhà bán lẻ trực tuyến lớn muốn lái xe tăng bán hàng thông qua phân tích mối quan hệ, cũng như xem xét các tương quan bán hàng trong bán hàng "thị trường giỏ" (bộ sưu tập của các mặt hàng mua bởi một cá nhân tại một thời gian). Khi giao dịch xử lý hàng triệu (hoặc đơn đặt hàng của cường độ thêm) một ngày, một số tối thiểu mâu thuẫn, không đầy đủ hồ sơ, hoặc lỗi có khả năng được không liên quan. Tuy nhiên, không đúng giá trị nên là một trở ngại để phân tích và thực hiện thay đổi không đáng kể thay đổi dữ liệu từ dạng ban đầu của nó khác hơn là một cách tích cực và dự kiến, dữ liệu nâng cao và làm giàu có thể là một lựa chọn hợp lý. Một ví dụ là tiêu chuẩn hóa địa chỉ. Địa chỉ địa điểm có thể không đầy đủ hoặc thậm chí không chính xác (ví dụ như, mã zip có thể không chính xác). Tiêu chuẩn hóa định dạng một địa chỉ và việc áp dụng sửa chữa là một cách nhất quán chỉ để cải thiện các dữ liệu.Như vậy có thể nói cho liên kết chiết xuất thực thể cho biết danh tính cấu hình bằng cách sử dụng thuật toán phù hợp với bản sắc với xác suất cao. Làm cho liên kết đó tăng cường phân tích thông qua việc chia sẻ thông tin hồ sơ cho chiết xuất thực thể. Một quá trình tương tự có thể được sử dụng trong kết nối với tài liệu tham khảo được xác định siêu dữ liệu phân cấp và phân loại của chúng tôi: tiêu chuẩn hóa các tham chiếu đến mục hoặc các khái niệm liên quan đến một trật tự phân loại cho phép ứng dụng của bạn điều trị xe ô tô, xe ô tô, xe tải, minivans, SUV, xe tải và RVs làm phương tiện, ít nhất một số mục đích phân tích.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

5.4.4 đặt lại mục tiêu và tái diễn giải
Một trong những khái niệm nền tảng cho việc sử dụng các dữ liệu để phân tích là khả năng tìm kiếm các mẫu thú vị mà có thể dẫn đến cái nhìn sâu sắc hành động, và bạn phải nhớ rằng bất kỳ dữ liệu thu được có thể được sử dụng cho bất kỳ mục đích tiềm năng tại bất kỳ thời gian trong tương lai. Tuy nhiên, chiến lược này của tái sử dụng dữ liệu cũng có thể gây phản tác dụng. Lặp đi lặp lại việc sao chép và đặt lại mục tiêu dẫn đến một mức độ lớn của sự tách biệt giữa sản xuất dữ liệu và dữ liệu của người tiêu dùng. Với mỗi tái sử dụng kế tiếp, người tiêu dùng dữ liệu một lần nữa phải diễn giải lại những gì các dữ liệu có nghĩa. Cuối cùng, bất kỳ ngữ nghĩa vốn có liên quan đến các dữ liệu khi nó được tạo ra bốc hơi.
Quản trị cũng có nghĩa là sẽ thành lập một số giới hạn xung quanh đề án cho đặt lại mục tiêu. Các chính sách mới có thể cần thiết khi nói đến việc xác định những dữ liệu để có được và những gì để bỏ qua, mà khái niệm để nắm bắt và những người thân mà nên được vào thùng rác, khối lượng dữ liệu được để lại và trong bao lâu, và quản lý dữ liệu định tính và giám hộ các chính sách khác . 5.4.5 làm giàu dữ liệu và Enhancement Thật khó để xem xét bất cứ nhu cầu quản trị dữ liệu hoặc chất lượng cho bộ dữ liệu thu được lớn mà không thảo luận các phương án để làm sạch và sửa dữ liệu. Sự thật đơn giản là nói chung bạn sẽ không kiểm soát được chất lượng và tính hợp lệ của dữ liệu được thu thập từ bên ngoài tổ chức. Quy tắc xác nhận có thể được sử dụng để ghi bàn khả năng sử dụng các dữ liệu dựa trên các yêu cầu của người dùng cuối, nhưng nếu những điểm số dưới mức chấp nhận được và bạn vẫn muốn làm những phân tích, về cơ bản bạn có những lựa chọn: 1. Không sử dụng các dữ liệu ở tất cả. 2. Sử dụng các dữ liệu trong trạng thái "không thể chấp nhận" của mình và điều chỉnh kỳ vọng của người dùng liên quan đến số điểm hợp lệ. 3. Thay đổi dữ liệu vào một hình thức chấp nhận hơn. Sự lựa chọn này có thể không phải là mạnh mẽ như bạn nghĩ. Nếu các ứng dụng kinh doanh đòi hỏi độ chính xác và độ chính xác trong các dữ liệu, cố gắng sử dụng các dữ liệu không thể chấp nhận sẽ giới thiệu một nguy cơ rằng các kết quả có thể không đáng tin cậy. Mặt khác, nếu bạn đang phân tích các bộ dữ liệu vô cùng lớn cho các mẫu tò mò và thú vị hoặc để xác định mối quan hệ giữa nhiều thực thể khác nhau, có một số mất nhiều thời gian để thực hiện quá trình trong sự hiện diện của một số nhỏ các lỗi. Một tỷ lệ tối thiểu của các lỗ hổng dữ liệu sẽ không nghiêng đáng kể kết quả. Như một ví dụ, các nhà bán lẻ trực tuyến lớn muốn lái xe tăng bán thông qua phân tích mối quan hệ, cũng như nhìn vào doanh số bán hàng trong mối tương quan "giỏ đi chợ" (bộ sưu tập của các mặt hàng được mua bởi một cá nhân cùng một lúc). Khi chế biến hàng triệu (hoặc đơn đặt hàng của các cường độ nhiều hơn) các giao dịch một ngày, một số lượng tối thiểu của sự mâu thuẫn, hồ sơ không đầy đủ hoặc sai sót có thể sẽ là không thích hợp. Tuy nhiên, nên giá trị không chính xác là một trở ngại cho việc phân tích và đưa ra những thay đổi không làm thay đổi đáng kể các dữ liệu từ hình thức ban đầu của nó khác hơn là theo một cách tích cực và dự kiến, tăng cường và làm giàu dữ liệu có thể là một lựa chọn hợp lý. Một ví dụ tốt là tiêu chuẩn hóa địa chỉ. Địa chỉ địa điểm có thể không đầy đủ hoặc thậm chí không chính xác (ví dụ, mã zip có thể không chính xác). Chuẩn hóa định dạng của một địa chỉ và việc áp dụng sửa chữa chỉ là một cách phù hợp để cải thiện các dữ liệu. Điều này cũng có thể nói cho liên kết thực thể chiết xuất đến các cấu danh tiếng sử dụng các thuật toán phù hợp với bản sắc với xác suất cao. Làm liên kết tăng cường phân tích thông qua việc chia sẻ thông tin hồ sơ cho các đơn vị trích xuất. Một quá trình tương tự có thể được sử dụng trong kết nối với các hệ thống phân cấp siêu dữ liệu tham chiếu được xác định và phân loại: tiêu chuẩn hóa tài liệu tham khảo cho các mục hoặc các khái niệm liên quan đến một trật tự phân loại cho phép bạn áp dụng điều trị xe, ô tô, xe tải, xe tải nhỏ, xe SUV, xe tải và RV như xe cộ, ít nhất là cho mục đích phân tích nhất định.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.