Các thành phần khai thác dữ liệu của trình KDD thường bao gồm việc lặp đi lặp lại lặp đi lặp lại ứng dụng của phương pháp khai thác dữ liệu cụ thể. Điều nàyphần trình bày tổng quan về chínhmục tiêu của dữ liệu khai thác mỏ, một mô tả về cácphương pháp được sử dụng để giải quyết các mục tiêu này, và mộtMô tả ngắn gọn của các thuật toán khai thác dữ liệu kết hợp những phương pháp này.Các kiến thức phát hiện mục tiêu được định nghĩabằng cách sử dụng dự định của hệ thống. Chúng tôi có thểphân biệt hai loại mục tiêu: (1) xác minhvà phát hiện ra (2). Với quy trình xác minh, Hệ thống được giới hạn để xác minh giả thuyết của người dùng. Với phát hiện, Hệ thống autonomouslytìm thấy các mô hình mới. Chúng tôi tiếp tục chia nhỏ cáckhám phá mục tiêu vào dự đoán, nơi hệ thống tìm thấy mô hình dự đoán tương laihành vi của một số tổ chức, và mô tả,nơi hệ thống tìm thấy mẫu cho các trình bày cho người dùng trong một con người-dễ hiểuhình thức. Trong bài này, chúng tôi được chủ yếu liên quan với khai thác dữ liệu theo định hướng khám phá. Khai thác dữ liệu liên quan đến phù hợp các mô hình, hoặcxác định các mô hình từ, quan sát thấy dữ liệu.Các mô hình được trang bị chơi vai trò của suy rakiến thức: cho dù các mô hình phản ánh hữu íchhoặc thú vị kiến thức là một phần của quá trình KDD tổng thể, tương tác, nơi chủ quanbản án của con người là thường yêu cầu. Haiformalisms toán học chủ yếu được sử dụng trongMô hình phù hợp: (1) thống kê và (2) hợp lý.Cách tiếp cận thống kê cho phép cho các hiệu ứng nondeterministic trong các mô hình, trong khi một mô hình hợp lý là hoàn toàn xác định. Chúng tôi tập trungchủ yếu vào các phương pháp thống kê dữ liệukhai thác mỏ, mà có xu hướng rộng rãi nhấtsử dụng cơ sở cho các ứng dụng khai thác dữ liệu thực tế được đưa ra sự hiện diện điển hình của sự không chắc chắn trong thế giới thực tạo ra dữ liệu quá trình. Hầu hết các phương pháp khai thác dữ liệu được dựa trêncố gắng và thử nghiệm kỹ thuật từ máyhọc tập, công nhận mẫu, và số liệu thống kê:phân loại, cụm, hồi qui, và như vậyngày. Các mảng của các thuật toán khác nhau dướimỗi người trong số các đề mục thường có thể được bối rối cho cả các novice và các kinh nghiệmphân tích dữ liệu. Nó nên nhấn mạnh củaCác phương pháp khai thác dữ liệu nhiều quảng cáo trênCác tài liệu, thực sự là chỉ có một vài kỹ thuật cơ bản. Thực tế cơ bảnMô hình đại diện được sử dụng bởi một phương pháp cụ thể thường xuất phát từ một thành phần của một số ít nổi tiếng lựa chọn: đa thức, splines, hạt nhân và các cơ sởchức năng, chức năng ngưỡng-Boolean, vàvv.. Vì vậy, thuật toán có xu hướng khác nhau chủ yếu trong các tiêu chí tốt đẹp phù hợp được sử dụng đểđánh giá mô hình phù hợp với, hoặc phương pháp tìm kiếmđược sử dụng để tìm một thích hợp. Trong chúng tôi tổng quan ngắn gọn về các phương pháp khai thác dữ liệu, chúng tôi cố gắng đặc biệt để truyền đạt ý niệmHầu hết (nếu không phải tất cả) các phương pháp có thể được xemnhư tiện ích mở rộng hoặc lai của một vài nguyên tắc và kỹ thuật cơ bản. Chúng tôi lần đầu tiên thảo luận về các phương pháp chính của khai thác dữ liệu và sau đó hiển thịCác phương pháp khai thác dữ liệu có thể được xemnhư là bao gồm của ba chính thuật toánthành phần: (1) mô hình đại diện, (2)Mô hình đánh giá, và (3) tìm kiếm. Trong các cuộc thảo luận của KDD và phương pháp khai thác dữ liệu,chúng tôi sử dụng một ví dụ đơn giản để làm cho một số cáckhái niệm cụ thể hơn. Hình 2 cho thấy một tập đơn giản hai chiều nhân tạo dữ liệu bao gồm 23 trường hợp. Mỗi điểm trên biểu đồ đại diện cho một người đã được đưa ra một khoản cho vaybởi một ngân hàng cụ thể ở một số thời gian trong quá khứ.Trục ngang đại diện cho thu nhập củangười; trục dọc đại diện cho tổng số nợ cá nhân của người (thế chấp, xeCác khoản thanh toán, và như vậy). Các dữ liệu đãXếp hạng thành hai lớp học: (1) các x đại diện cho người sử dụng có cài đặt sẵn trên của họcho vay và (2) các o's đại diện cho người cócho vay trong tình trạng tốt với các ngân hàng. Do đó,Điều này thiết lập dữ liệu nhân tạo đơn giản có thể đại diện cho mộtlịch sử các tập hợp dữ liệu có thể chứa hữu íchkiến thức từ điểm nhìn của cácNgân hàng làm cho các khoản cho vay. Lưu ý rằng trong thực tếỨng dụng KDD, có rất nhiều thông thườngThêm kích thước (như một số hàng trăm) và nhiều dữ liệu hơn chỉ (nhiềuhàng ngàn hoặc thậm chí hàng triệu).
đang được dịch, vui lòng đợi..
