Khai thác dữ liệu chỉ đơn giản là lọc thông qua số lượng lớn các dữ liệu thô cho thông tin hữu ích cho các doanh nghiệp một lợi thế cạnh tranh. Thông tin này được tạo thành từ các mô hình có ý nghĩa và xu hướng đó đã được trong các dữ liệu mà trước đây không nhìn thấy.
Các công cụ phổ biến nhất được sử dụng khi khai thác mỏ là trí thông minh nhân tạo (AI), công nghệ AI cố gắng để làm việc theo cách bộ não con người làm việc, bằng cách làm thông minh đoán, học bằng cách ví dụ, và sử dụng các lập luận suy. Một số phương pháp AI phổ biến hơn được sử dụng trong khai thác dữ liệu bao gồm các mạng thần kinh, clustering, và cây quyết định.
Mạng Neural nhìn vào các quy tắc của việc sử dụng dữ liệu, mà là dựa trên các kết nối hoặc tìm thấy trên một mẫu thiết lập của dữ liệu. Kết quả là, các phần mềm liên tục phân tích giá trị và so sánh nó với các yếu tố khác, và nó so sánh các yếu tố lặp đi lặp lại cho đến khi nó tìm thấy những mẫu nổi bật. Những mô hình được gọi là quy tắc, phần mềm sau đó tìm kiếm những mẫu khác dựa trên những quy tắc hoặc gửi ra một báo động khi một giá trị kích hoạt là hit.
Clustering chia dữ liệu thành các nhóm dựa trên các tính năng tương tự hoặc các dãy số liệu hạn chế. Cụm hồ quang được sử dụng khi dữ liệu không được dán nhãn trong một cách đó là thuận lợi để khai thác. Ví dụ, một công ty bảo hiểm mà muốn tìm các trường hợp gian lận sẽ không có hồ sơ của nó được gắn nhãn là lừa đảo hay không lừa đảo. Nhưng sau khi phân tích mẫu trong cụm; các phần mềm khai thác có thể bắt đầu để tìm ra các quy tắc mà chỉ để mà tuyên bố có thể sẽ là sai.
Quyết định cây, giống như cụm, tách dữ liệu thành các tập con và sau đó phân tích các tập con để phân chia chúng thành các tập con hơn nữa, và như vậy (cho một hơn vài cấp độ), Các tập con thức sao cho đủ rằng quá trình khai thác mỏ có thể tìm thấy các mẫu thú vị và mối quan hệ trong dữ liệu nhỏ.
Một khi dữ liệu được khai thác được xác định, nó phải được tẩy sạch. Cleansing dữ liệu giải phóng từ các thông tin trùng lặp và dữ liệu sai. Tiếp theo, các dữ liệu cần được lưu trữ trong một định dạng thống nhất trong danh mục có liên quan hoặc các lĩnh vực. Công cụ khai thác có thể làm việc với tất cả các loại lưu trữ dữ liệu, từ kho dữ liệu lớn để cơ sở dữ liệu máy tính để bàn nhỏ để các tập tin phẳng. Kho dữ liệu và siêu thị dữ liệu là phương pháp lưu trữ liên quan đến việc lưu trữ một lượng lớn dữ liệu trong một cách mà làm cho nó dễ dàng để truy cập khi cần thiết.
Khi quá trình này hoàn tất, phần mềm khai thác ra một báo cáo. Một nhà phân tích đi qua báo cáo để xem nếu tiếp tục làm việc cần phải được thực hiện, chẳng hạn như các thông số tinh chế, bằng cách sử dụng các công cụ phân tích dữ liệu khác để kiểm tra dữ liệu, hoặc thậm chí phá dỡ các dữ liệu nếu nó không sử dụng được. Nếu không có công việc nào được yêu cầu, số tiền thu được báo cáo người quyết định cho hành động thích hợp.
Sức mạnh của khai thác dữ liệu đang được sử dụng cho nhiều mục đích khác, chẳng hạn như phân tích các quyết định của Tòa án Tối cao, phát hiện các mẫu trong chăm sóc sức khỏe, kéo câu chuyện về đối thủ cạnh tranh từ khắp nơi, giải quyết các vướng mắc trong quá trình sản xuất, và phân tích trình tự trong cấu trúc di truyền của con người, có thực sự là không có giới hạn cho các loại hình kinh doanh hoặc lĩnh vực nghiên cứu, nơi khai thác dữ liệu có thể có lợi.
đang được dịch, vui lòng đợi..
