khai thác dữ liệu chỉ đơn giản là lọc qua một lượng lớn dữ liệu thô cho thông tin hữu ích cung cấp cho doanh nghiệp một lợi thế cạnh tranh. thông tin này được tạo thành từ các mô hình và xu hướng đã có trong dữ liệu mà trước đây không nhìn thấy có ý nghĩa.
công cụ phổ biến nhất được sử dụng khi khai thác khoáng sản là trí tuệ nhân tạo (ai), ai công nghệ cố gắng làm việc theo cách bộ não con người hoạt động,bằng cách dự đoán thông minh, học tập bằng ví dụ, và sử dụng lập luận suy diễn. một số phương pháp phổ biến hơn ai được sử dụng trong khai thác dữ liệu bao gồm các mạng thần kinh, clustering, và cây quyết định.
Mạng thần kinh nhìn vào các quy tắc của việc sử dụng dữ liệu, mà là dựa trên các kết nối hoặc tìm thấy trên một mẫu thiết lập dữ liệu. kết quả là,các phần mềm liên tục phân tích giá trị và so sánh nó với các yếu tố khác, và nó so sánh những yếu tố này lặp đi lặp lại cho đến khi nó tìm thấy mô hình mới nổi. các mô hình được gọi là quy tắc, các phần mềm sau đó tìm kiếm các mô hình khác dựa trên những quy tắc hoặc gửi ra báo động khi một giá trị kích hoạt là hit.
Phân nhóm chia dữ liệu thành các nhóm dựa trên các tính năng tương tự hoặc các phạm vi dữ liệu hạn chế.cụm hồ quang được sử dụng khi dữ liệu không được dán nhãn một cách thuận lợi để khai thác mỏ. Ví dụ, một công ty bảo hiểm mà muốn tìm thấy trường hợp gian lận sẽ không có hồ sơ của mình được dán nhãn là lừa đảo hay không gian lận. nhưng sau khi phân tích mẫu trong cụm; phần mềm khai thác có thể bắt đầu để tìm ra các quy tắc mà chỉ để mà tuyên bố có thể sẽ là sai.
Cây quyết định,như cụm, tách dữ liệu thành các tập con và sau đó phân tích các tập con phân chia chúng thành các tập con hơn nữa, và như vậy (cho một vài mức độ nhiều hơn), các tập con cuối cùng là sau đó đủ nhỏ để quá trình khai thác có thể tìm thấy mô hình thú vị và mối quan hệ trong dữ liệu.
Một khi dữ liệu được khai thác được xác định, nó phải được tẩy sạch.làm sạch dữ liệu giải phóng nó từ các thông tin trùng lặp và dữ liệu sai. tiếp theo, các dữ liệu cần được lưu trữ trong một định dạng thống nhất trong danh mục có liên quan hoặc các lĩnh vực. công cụ khai thác có thể làm việc với tất cả các loại dữ liệu lưu trữ, từ kho dữ liệu lớn cơ sở dữ liệu máy tính để bàn nhỏ hơn để các tập tin phẳng.kho dữ liệu và siêu thị dữ liệu là phương pháp lưu trữ có liên quan đến lưu trữ một lượng lớn dữ liệu trong một cách mà làm cho nó dễ dàng để truy cập khi cần thiết.
Khi quá trình hoàn tất, phần mềm khai thác tạo ra một báo cáo. một nhà phân tích đi qua báo cáo cho thấy nếu tiếp tục làm việc cần phải được thực hiện, chẳng hạn như các thông số tinh chỉnh, sử dụng các công cụ phân tích dữ liệu khác để kiểm tra dữ liệu,hoặc thậm chí tháo dỡ các dữ liệu nếu nó không sử dụng được. nếu không có công việc tiếp theo là cần thiết, báo cáo tiền thu được để các nhà sản xuất quyết định cho hành động thích hợp.
Sức mạnh của khai thác dữ liệu đang được sử dụng cho nhiều mục đích, chẳng hạn như phân tích các quyết định của tòa án tối cao, phát hiện mô hình chăm sóc sức khỏe, kéo câu chuyện về đối thủ cạnh tranh từ truyền khắp nơi, giải quyết vướng mắc trong quá trình sản xuất,và phân tích trình tự trong trang điểm di truyền của con người, có thực sự là không có giới hạn các loại hình kinh doanh hoặc khu vực nghiên cứu nơi khai thác dữ liệu có thể có lợi.
đang được dịch, vui lòng đợi..