Kết quả là, các phần mềm liên tục phân tích giá trị và so sánh nó với các yếu tố khác, và nó so sánh các yếu tố lặp đi lặp lại cho đến khi nó tìm thấy những mẫu nổi bật. Những mô hình được gọi là quy tắc, phần mềm sau đó tìm kiếm những mẫu khác dựa trên những quy tắc hay gửi ra một báo động khi một giá trị kích hoạt được nhấn.
Clustering chia dữ liệu thành các nhóm dựa trên các tính năng tương tự hoặc các dãy số liệu hạn chế. Cụm hồ quang được sử dụng khi dữ liệu không được dán nhãn trong một cách đó là thuận lợi để khai thác. Ví dụ, một công ty bảo hiểm mà muốn tìm các trường hợp gian lận sẽ không có hồ sơ của mình được dán nhãn là lừa đảo hay không lừa đảo. Nhưng sau khi phân tích mẫu trong cụm; các phần mềm khai thác có thể bắt đầu để tìm ra các quy tắc mà chỉ để mà tuyên bố có thể sẽ là sai.
cây quyết định, như cụm, tách dữ liệu thành các tập con và sau đó phân tích các tập con để phân chia chúng thành các tập con nữa, và như vậy (cho một hơn vài cấp độ), Các tập con cuối cùng là sau đó đủ thấy quá trình khai thác mỏ có thể tìm thấy các mẫu thú vị và mối quan hệ trong dữ liệu nhỏ.
Một khi dữ liệu được khai thác được xác định, nó phải được làm sạch. Cleansing dữ liệu giải phóng từ các thông tin trùng lặp và các dữ liệu sai. Tiếp theo, các dữ liệu cần được lưu trữ trong một định dạng thống nhất trong danh mục có liên quan hoặc các lĩnh vực. Công cụ khai thác có thể làm việc với tất cả các loại lưu trữ dữ liệu, từ kho dữ liệu lớn để cơ sở dữ liệu máy tính để bàn nhỏ để các tập tin phẳng. Kho dữ liệu và siêu thị dữ liệu là phương pháp lưu trữ liên quan đến việc lưu trữ một lượng lớn dữ liệu trong một cách mà làm cho nó dễ dàng để truy cập khi cần thiết.
Khi quá trình này hoàn tất, phần mềm khai thác ra một báo cáo. Một nhà phân tích đi qua báo cáo cho thấy nếu tiếp tục làm việc cần phải được thực hiện, chẳng hạn như các thông số tinh chỉnh, sử dụng các công cụ phân tích dữ liệu khác để kiểm tra dữ liệu, hoặc thậm chí tháo dỡ các dữ liệu nếu nó không sử dụng được. Nếu không có công việc nào được yêu cầu, số tiền thu được báo cáo người quyết định cho hành động thích hợp.
Sức mạnh của khai thác dữ liệu đang được sử dụng cho nhiều mục đích khác, chẳng hạn như phân tích các quyết định của Tòa án Tối cao, phát hiện các mẫu trong chăm sóc sức khỏe, kéo câu chuyện về đối thủ cạnh tranh từ truyền khắp nơi, giải quyết các vướng mắc trong quá trình sản xuất, và phân tích trình tự trong cấu trúc di truyền của con người, có thực sự là không có giới hạn cho các loại hình kinh doanh hoặc lĩnh vực nghiên cứu, nơi khai thác dữ liệu có thể có lợi.
đang được dịch, vui lòng đợi..