5.4 DỮ LIỆU LỚN GIÁM SÁT: KHÁI NIỆM QUAN TRỌNG NĂMKết luận là rằng các phương pháp tiêu chuẩn để quản trị dữ liệu trong đó dữ liệu chính sách được xác định bởi một hội đồng quản trị nội bộ kiểm soát trực tiếp của khả năng sử dụng của datasets không thể phổ biến áp dụng cho dữ liệu lớn ứng dụng. Và chưa có chắc chắn là một nhu cầu cho một số loại giám sát có thể đảm bảo rằng các datasets là có thể sử dụng và kết quả phân tích là đáng tin cậy. Một cách để giải quyết sự cần thiết cho dữ liệu chất lượng và tính nhất quán là để tận dụng các khái niệm về chính sách dữ liệu dựa vào các đặc tính chất lượng thông tin quan trọng đối với dự án lớn dữ liệu.Điều này có nghĩa là xem xét dự định sử dụng của các kết quả của những phân tích và làm thế nào không có khả năng thực hiện bất kỳ hình thức nào của các điều khiển trên các nguồn của lưu lượng sản xuất thông tin có thể được giảm nhẹ bởi người dùng bên tiêu thụ. Cách tiếp cận này yêu cầu một số các khái niệm then chốt cho dữ liệu học viên và chủ doanh nghiệp quá trình để ghi nhớ:• quản lý người tiêu dùng mong đợi dữ liệu;• xác định kích thước chất lượng dữ liệu quan trọng;• Giám sát sự nhất quán của dữ liệu siêu dữ liệu và tham khảo làm cơ sở để thực thể tách;• repurposing và reinterpretation của dữ liệu;• dữ liệu làm giàu và nâng cao khi có thể.5.4.1 quản lý sự mong đợi dữ liệu tiêu dùngCó thể có nhiều người sử dụng tiêu thụ các kết quả của quang phổ của ứng dụng phân tích dữ liệu lớn. Nhiều người trong số các ứng dụng này sử dụng một giao lộ của datasets có sẵn. Phân tích ứng dụng có nghĩa vụ phải được thiết kế để cung cấp các kiến thức hữu dụng để tạo ra hoặc cải thiện giá trị. Chất lượng của thông tin phải được liên quan trực tiếp đến cách quy trình kinh doanh là hoặc là dự kiến sẽ được cải thiện bằng cách bỏ qua vấn đề dữ liệu dẫn đến tác động tiêu cực không mong muốn hoặc tốt hơn chất lượng dữ liệu, và có thể có các mức độ khác nhau của lãi suất trong khẳng định mức độ khả năng sử dụng và acceptability cho datasets mua lại bởi các bên khác nhau.Điều này có nghĩa, cho phạm vi của dự án phân tích dữ liệu lớn khác nhau, bạn phải xác định những mong đợi tập thể người dùng bằng cách tham gia của người tiêu dùng khác nhau lớn dữ liệu Analytics để thảo luận về làm thế nào chất lượng các khía cạnh của đầu vào dữ liệu mà có thể ảnh hưởng đến kết quả tính toán. Một số ví dụ bao gồm:• datasets được ra khỏi đồng bộ từ một quan điểm thời gian (ví dụ như, một số liệu đề cập đến giao dịch ngày nay đang được so sánh với giá cả dữ liệu từ hôm qua);• không có tất cả các datasets có cần thiết để thực hiện phân tích;• không biết nếu phần tử dữ liệu giá trị mà ăn các thuật toán Lấy từ datasets khác nhau chia sẻ cùng một độ chính xác (ví dụ:, doanh thu mỗi phút vs doanh thu mỗi giờ);• không biết nếu các giá trị được gán cho tương tự tên thuộc tính dữ liệu thực sự chia sẻ ý nghĩa cơ bản tương tự (ví dụ, là một khách hàng"" người đã trả tiền cho sản phẩm của chúng tôi hoặc người được quyềnđể hỗ trợ khách hàng?).Tham gia của người tiêu dùng cho các yêu cầu là một quá trình cuộc thảo luận với người dùng cuối được biết đến, cùng với một số mức độ suy đoán và dự đoán của các hồ bơi của người sử dụng cuối tiềm năng là ai, những gì họ có thể muốn làm gì với một tập dữ liệu, và tương ứng, mức kỳ vọng của họ là gì. Sau đó, nó là quan trọng để thiết lập như thế nào những kỳ vọng có thể được đo và theo dõi, cũng như các hành động khắc phục hậu quả thực tế có thể được thực hiện.5.4.2 xác định kích thước quan trọng của chất lượng dữ liệuMột bước quan trọng là để xác định kích thước của chất lượng dữ liệu có liên quan đến kinh doanh và sau đó phân biệt những người chỉ có thể đo lường từ những người có thể đo lường và kiểm soát. Sự phân biệt này là quan trọng, vì bạn có thể sử dụng các biện pháp để đánh giá khả năng sử dụng khi bạn không thể phát huy kiểm soát và để thực hiện chỉnh sửa hoặc Cập Nhật khi bạn có quyền kiểm soát. Trong cả hai trường hợp, đây là một số kích thước đo chất lượng của thông tin được sử dụng để phân tích dữ liệu lớn:• Nhất quán thời điểm hóa thạch: đo các đặc tính thời gian của datasets được sử dụng trong phân tích dữ liệu lớn để xem cho dù họ được liên kết từ một quan điểm thời gian.• Kịp thời: đo nếu dòng dữ liệu được phân phối theo sự mong đợi của người tiêu dùng cuối cùng.• Thu: đo cho dù các datasets được Cập Nhật.• Đầy đủ: đo rằng tất cả các dữ liệu có sẵn.• Nhất quán chính xác: đánh giá nếu các đơn vị đo liên kết với mỗi nguồn dữ liệu chia sẻ cùng một độ chính xác và nếu những đơn vị được đúng cách hài hòa nếu không.• Duy nhất identifiability: tập trung vào khả năng duy nhất xác định các thực thể trong dòng datasets và dữ liệu và liên kết các tổ chức để các hệ thống được biết đến của ghi lại thông tin.• Nhất quán ngữ nghĩa: hoạt động siêu dữ liệu này có thể kết hợp một bảng thuật ngữ của điều kiện kinh doanh, phân cấp và phân loại cho khái niệm kinh doanh, và mối quan hệ trên khái niệm phân loại cho tiêu chuẩn hóa cách thực thể xác định trong dữ liệu có cấu trúc và không có cấu trúc được gắn thẻ để chuẩn bị cho việc sử dụng dữ liệu.5.4.3 thống nhất của siêu dữ liệu và dữ liệu tham khảo để thực thể táchPhân tích dữ liệu lớn gần giống được kết hợp với các khái niệm về phân tích văn bản, phụ thuộc vào ngữ cảnh ngữ nghĩa phân tích văn bản trực tuyến và kết quả là sự thực thể khái niệm nhận dạng và khai thác. Nhưng trước khi bạn có thể mong muốn loại phân tích, bạn cần phải đất của bạn định nghĩa trong các ngữ nghĩa rõ ràng cho dữ liệu thường được sử dụng tham khảo và các đơn vị của biện pháp, cũng như xác định bí danh được sử dụng để đề cập đến những ý tưởng tương tự hoặc tương tự.Phân tích các mối quan hệ và kết nối trong dữ liệu văn bản là chìa khóa để nhận dạng thực thể trong văn bản có cấu trúc. Nhưng vì sự đa dạng của các loại dữ liệu mà span nguồn có cấu trúc và không có cấu trúc, một trong những phải được nhận thức của mức độ mà không có cấu trúc văn bản là replete với sắc thái, biến thể, và ý nghĩa đôi. Có rất nhiều ví dụ của mơ hồ này, chẳng hạn như tham chiếu đến một chiếc xe, một minivan, một chiếc SUV, một chiếc xe tải, một roadster, cũng như tên công ty của nhà sản xuất, thực hiện, hoặc mô hình-tất cả các đề cập đến một ô tô.Những khái niệm được nhúng trong giá trị trong một bối cảnh, và được thể hiện như là thẻ siêu dữ liệu, từ khóa, và thư mục thường được công nhận theo các điều khoản drive làm thế nào tìm kiếm tối ưu hóa thuật toán kết hợp khái niệm với nội dung. Nhận dạng thực thể và khai thác phụ thuộc vào sự khác biệt giữa từ và cụm từ thực hiện các mức độ cao của "có nghĩa là" (chẳng hạn như tên người, doanh nghiệp tên, địa điểm, hoặc với số lượng) từ những người được sử dụng để thiết lập kết nối và mối quan hệ, chủ yếu là nhúng trong ngôn ngữ của văn bản.Khi khối lượng dữ liệu mở rộng, có phải là một số quá trình nhất định nghĩa (và do đó kiểm soát) qua khái niệm biến thể trong dòng nguồn dữ liệu. Giới thiệu tên miền khái niệm và phân cấp có thể giúp với ngữ nghĩa nhất quán, đặc biệt là khi so sánh dữ liệu đến từ nhiềudòng nguồn dữ liệu.Được nhận thức được bối cảnh đó mang ý nghĩa; như không có khác nhau suy luận về khái niệm dữ liệu và các mối quan hệ, bạn có thể làm cho dựa trên việc xác định các khái niệm thực thể được biết đến trong tên miền dữ liệu tham khảo của bạn và như thế nào đóng chúng được tìm thấy trong nguồn dữ liệu hoặc dòng. Nhưng kể từ khi cùng một cụm từ và cụm từ có thể có ý nghĩa khác nhau tùy thuộc vào khu vực bầu cử tham gia tạo nội dung, nó một lần nữa làm nổi bật sự cần thiết cho độ chính xác trong ngữ nghĩa liên quan đến khái niệm chiết xuất từ nguồn dữ liệu và suối.
đang được dịch, vui lòng đợi..