5.4.4 Repurposing and ReinterpretationOne of the foundational concepts dịch - 5.4.4 Repurposing and ReinterpretationOne of the foundational concepts Việt làm thế nào để nói

5.4.4 Repurposing and Reinterpretat

5.4.4 Repurposing and Reinterpretation
One of the foundational concepts for the use of data for analytics is the possibility of finding interesting patterns that can lead to actionable insight, and you must keep in mind that any acquired dataset may be used for any potential purpose at any time in the future. However, this strategy of data reuse can also backfire. Repeated copying and repurposing leads to a greater degree of separation between data producer and data consumer. With each successive reuse, the data consumers yet again must reinterpret what the data means. Eventually, any inherent semantics associated with the data when it is created evaporates.
Governance will also mean establishing some limits around the scheme for repurposing. New policies may be necessary when it comes to determining what data to acquire and what to ignore, which concepts to capture and which ones should be trashed, the volume of data to be retained and for how long, and other qualitative data management and custodianship policies.

5.4.5 Data Enrichment and Enhancement
It is hard to consider any need for data governance or quality for large acquired datasets without discussing alternatives for data cleansing and correction. The plain truth is that in general you will have no control over the quality and validity of data that is acquired from outside the organization. Validation rules can be used to score the usability of the data based on end-user requirements, but if those scores are below the level of acceptability and you still want to do the analysis, you basically have these choices:
1. Don’t use the data at all.
2. Use the data in its “unacceptable” state and modulate your users’ expectations in relation to the validity score.
3. Change the data to a more acceptable form.
This choice might not be as drastic as you might think. If the business application requires accuracy and precision in the data, attempting to use unacceptable data will introduce a risk that the results may not be trustworthy. On the other hand, if you are analyzing extremely large datasets for curious and interesting patterns or to identify relationships among many different entities, there is some leeway for executing the process in the presence of a small number of errors. A minimal percentage of data flaws will not significantly skew the results.
As an example, large online retailers want to drive increased sale through relationship analysis, as well as look at sales correlations within sales “market baskets” (the collection of items purchased by an individual at one time). When processing millions of (or orders of magnitude more) transactions a day, a minimal number of inconsistencies, incomplete records, or errors are likely to be irrelevant. However, should incorrect values be an impediment to the analysis and making changes does not significantly alter the data from its original form other than in a positive and expected way, data enhancement and enrichment may be a reasonable alternative. A good example is address standardization. Address locations may be incomplete or even incorrect (e.g., the zip code may be incorrect). Standardizing an address’s format and applying corrections is a consistent way only to improve the data.
The same could be said for linking extracted entities to known identity profiles using algorithms that match identities with high probability. Making that link enhances the analysis through the sharing of profile information for extracted entities. A similar process can be used in connection with our defined reference metadata hierarchies and taxonomies: standardizing references to items or concepts in relation to a taxonomic order lets your application treat cars, automobiles, vans, minivans, SUVs, trucks, and RVs as vehicles, at least for certain analytical purposes.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
5.4.4 Repurposing and ReinterpretationOne of the foundational concepts for the use of data for analytics is the possibility of finding interesting patterns that can lead to actionable insight, and you must keep in mind that any acquired dataset may be used for any potential purpose at any time in the future. However, this strategy of data reuse can also backfire. Repeated copying and repurposing leads to a greater degree of separation between data producer and data consumer. With each successive reuse, the data consumers yet again must reinterpret what the data means. Eventually, any inherent semantics associated with the data when it is created evaporates.Governance will also mean establishing some limits around the scheme for repurposing. New policies may be necessary when it comes to determining what data to acquire and what to ignore, which concepts to capture and which ones should be trashed, the volume of data to be retained and for how long, and other qualitative data management and custodianship policies.5.4.5 Data Enrichment and EnhancementIt is hard to consider any need for data governance or quality for large acquired datasets without discussing alternatives for data cleansing and correction. The plain truth is that in general you will have no control over the quality and validity of data that is acquired from outside the organization. Validation rules can be used to score the usability of the data based on end-user requirements, but if those scores are below the level of acceptability and you still want to do the analysis, you basically have these choices:1. Don’t use the data at all.
2. Use the data in its “unacceptable” state and modulate your users’ expectations in relation to the validity score.
3. Change the data to a more acceptable form.
This choice might not be as drastic as you might think. If the business application requires accuracy and precision in the data, attempting to use unacceptable data will introduce a risk that the results may not be trustworthy. On the other hand, if you are analyzing extremely large datasets for curious and interesting patterns or to identify relationships among many different entities, there is some leeway for executing the process in the presence of a small number of errors. A minimal percentage of data flaws will not significantly skew the results.
As an example, large online retailers want to drive increased sale through relationship analysis, as well as look at sales correlations within sales “market baskets” (the collection of items purchased by an individual at one time). When processing millions of (or orders of magnitude more) transactions a day, a minimal number of inconsistencies, incomplete records, or errors are likely to be irrelevant. However, should incorrect values be an impediment to the analysis and making changes does not significantly alter the data from its original form other than in a positive and expected way, data enhancement and enrichment may be a reasonable alternative. A good example is address standardization. Address locations may be incomplete or even incorrect (e.g., the zip code may be incorrect). Standardizing an address’s format and applying corrections is a consistent way only to improve the data.
The same could be said for linking extracted entities to known identity profiles using algorithms that match identities with high probability. Making that link enhances the analysis through the sharing of profile information for extracted entities. A similar process can be used in connection with our defined reference metadata hierarchies and taxonomies: standardizing references to items or concepts in relation to a taxonomic order lets your application treat cars, automobiles, vans, minivans, SUVs, trucks, and RVs as vehicles, at least for certain analytical purposes.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
5.4.4 đặt lại mục tiêu và tái diễn giải
Một trong những khái niệm nền tảng cho việc sử dụng các dữ liệu để phân tích là khả năng tìm kiếm các mẫu thú vị mà có thể dẫn đến cái nhìn sâu sắc hành động, và bạn phải nhớ rằng bất kỳ dữ liệu thu được có thể được sử dụng cho bất kỳ mục đích tiềm năng tại bất kỳ thời gian trong tương lai. Tuy nhiên, chiến lược này của tái sử dụng dữ liệu cũng có thể gây phản tác dụng. Lặp đi lặp lại việc sao chép và đặt lại mục tiêu dẫn đến một mức độ lớn của sự tách biệt giữa sản xuất dữ liệu và dữ liệu của người tiêu dùng. Với mỗi tái sử dụng kế tiếp, người tiêu dùng dữ liệu một lần nữa phải diễn giải lại những gì các dữ liệu có nghĩa. Cuối cùng, bất kỳ ngữ nghĩa vốn có liên quan đến các dữ liệu khi nó được tạo ra bốc hơi.
Quản trị cũng có nghĩa là sẽ thành lập một số giới hạn xung quanh đề án cho đặt lại mục tiêu. Các chính sách mới có thể cần thiết khi nói đến việc xác định những dữ liệu để có được và những gì để bỏ qua, mà khái niệm để nắm bắt và những người thân mà nên được vào thùng rác, khối lượng dữ liệu được để lại và trong bao lâu, và quản lý dữ liệu định tính và giám hộ các chính sách khác . 5.4.5 làm giàu dữ liệu và Enhancement Thật khó để xem xét bất cứ nhu cầu quản trị dữ liệu hoặc chất lượng cho bộ dữ liệu thu được lớn mà không thảo luận các phương án để làm sạch và sửa dữ liệu. Sự thật đơn giản là nói chung bạn sẽ không kiểm soát được chất lượng và tính hợp lệ của dữ liệu được thu thập từ bên ngoài tổ chức. Quy tắc xác nhận có thể được sử dụng để ghi bàn khả năng sử dụng các dữ liệu dựa trên các yêu cầu của người dùng cuối, nhưng nếu những điểm số dưới mức chấp nhận được và bạn vẫn muốn làm những phân tích, về cơ bản bạn có những lựa chọn: 1. Không sử dụng các dữ liệu ở tất cả. 2. Sử dụng các dữ liệu trong trạng thái "không thể chấp nhận" của mình và điều chỉnh kỳ vọng của người dùng liên quan đến số điểm hợp lệ. 3. Thay đổi dữ liệu vào một hình thức chấp nhận hơn. Sự lựa chọn này có thể không phải là mạnh mẽ như bạn nghĩ. Nếu các ứng dụng kinh doanh đòi hỏi độ chính xác và độ chính xác trong các dữ liệu, cố gắng sử dụng các dữ liệu không thể chấp nhận sẽ giới thiệu một nguy cơ rằng các kết quả có thể không đáng tin cậy. Mặt khác, nếu bạn đang phân tích các bộ dữ liệu vô cùng lớn cho các mẫu tò mò và thú vị hoặc để xác định mối quan hệ giữa nhiều thực thể khác nhau, có một số mất nhiều thời gian để thực hiện quá trình trong sự hiện diện của một số nhỏ các lỗi. Một tỷ lệ tối thiểu của các lỗ hổng dữ liệu sẽ không nghiêng đáng kể kết quả. Như một ví dụ, các nhà bán lẻ trực tuyến lớn muốn lái xe tăng bán thông qua phân tích mối quan hệ, cũng như nhìn vào doanh số bán hàng trong mối tương quan "giỏ đi chợ" (bộ sưu tập của các mặt hàng được mua bởi một cá nhân cùng một lúc). Khi chế biến hàng triệu (hoặc đơn đặt hàng của các cường độ nhiều hơn) các giao dịch một ngày, một số lượng tối thiểu của sự mâu thuẫn, hồ sơ không đầy đủ hoặc sai sót có thể sẽ là không thích hợp. Tuy nhiên, nên giá trị không chính xác là một trở ngại cho việc phân tích và đưa ra những thay đổi không làm thay đổi đáng kể các dữ liệu từ hình thức ban đầu của nó khác hơn là theo một cách tích cực và dự kiến, tăng cường và làm giàu dữ liệu có thể là một lựa chọn hợp lý. Một ví dụ tốt là tiêu chuẩn hóa địa chỉ. Địa chỉ địa điểm có thể không đầy đủ hoặc thậm chí không chính xác (ví dụ, mã zip có thể không chính xác). Chuẩn hóa định dạng của một địa chỉ và việc áp dụng sửa chữa chỉ là một cách phù hợp để cải thiện các dữ liệu. Điều này cũng có thể nói cho liên kết thực thể chiết xuất đến các cấu danh tiếng sử dụng các thuật toán phù hợp với bản sắc với xác suất cao. Làm liên kết tăng cường phân tích thông qua việc chia sẻ thông tin hồ sơ cho các đơn vị trích xuất. Một quá trình tương tự có thể được sử dụng trong kết nối với các hệ thống phân cấp siêu dữ liệu tham chiếu được xác định và phân loại: tiêu chuẩn hóa tài liệu tham khảo cho các mục hoặc các khái niệm liên quan đến một trật tự phân loại cho phép bạn áp dụng điều trị xe, ô tô, xe tải, xe tải nhỏ, xe SUV, xe tải và RV như xe cộ, ít nhất là cho mục đích phân tích nhất định.








đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: