giải thuật quy tắc ing và Hiệp hội có thể vượt quá 4GB được cung cấp bởi truyền thốngtuần tự máy chủ.5 kết luậnBài báo này trình bày một tổng quan về các giải thuật song song cho hai của các phổ biếnsử dụng kỹ thuật khai thác dữ liệu: phân loại và các Hiệp hội. Vấn đề chính chẳng hạn nhưtải cân bằng, sự chú ý đến địa phương, giải nén tối đa concurrency, tránhđiểm nóng trong ganh đua, và giảm thiểu chi phí parallelization là cũng giống nhưTrung tâm của các công thức song song khi chúng để truyền thống khoa họcsong song thuật toán. Trong thực tế, trong nhiều trường hợp, hạt nhân cơ bản là giống hệt nhauthuật toán được biết đến, chẳng hạn như thưa thớt ma trận-vector sản phẩm.Ngày, công thức song song của nhiều cảm ứng quyết định-cây và asso-ciation quy tắc phát hiện thuật toán là hợp lý cũng hiểu. Tương đối ít hơncông việc đã được thực hiện trên các thuật toán song song cho các kỹ thuật khai thác dữ liệu khácchẳng hạn như clustering, thuật toán phân loại dựa trên nguyên tắc, phát hiện độ lệch, vàhồi quy. Một số khu vực có thể tiếp tục nghiên cứu bao gồm parallelization của nhiềunổi lên các thuật toán khai thác dữ liệu nối tiếp mới và cải tiến, hơn nữa phân tích vàCác cải tiến của các thuật toán sẵn có cho khả năng mở rộng và hiệu quả, thiết kế nhắm mục tiêuchia sẻ bộ nhớ và phân phối bộ nhớ máy được trang bị với sym - chia sẻ.số liệu multiprocessors, và tích hợp các giải thuật song song với par - hiệu quảCác hệ thống cơ sở dữ liệu allel.Thuật toán khai thác dữ liệu hiệu suất cao và các công cụ cần thiết cho khai thác mỏquy mô lớn dữ liệu bộ mà phát sinh trong một loạt các ứng dụng. Bài báo này trình bàymột ứng dụng có thể, tức là, lớn tập hợp dữ liệu được thu thập bởi trái đất quan sát vệ tinhmà cần phải được xử lý để hiểu rõ hơn về phạm vi toàn cầu thay đổi trong sinh quyểnquy trình và các mẫu. Các ví dụ khác của các ứng dụng quan trọng của khai thác dữ liệubao gồm sự hiểu biết gen chức năng trong lĩnh vực gen, các loạicủa ngôi sao và Thiên Hà trong lĩnh vực vật lý thiên văn, và sử dụng dữ liệu thu được thông quaGiám sát mạng lưới giao thông để phát hiện hoạt động bất hợp pháp mạng. Chìa khóa kỹ thuậtthách thức trong khai thác các bộ dữ liệu bao gồm (i) cao khối lượng, chiều vàheterogeneity; (ii) các khía cạnh nhất của dữ liệu; (iii) có thể sai lệchlớp phân phối; (iv) sự phân phối dữ liệu; (v) sự phức tạptrong chuyển đổi nguyên thu thập dữ liệu vào tính năng cao cấp. Dữ liệu hiệu suất caokhai thác mỏ là điều cần thiết để phân tích các dữ liệu phát triển và cung cấp cho các nhà phân tích với auto-mated công cụ tạo điều kiện cho một số các bước cần thiết cho giả thuyết thế hệvà đánh giá.
đang được dịch, vui lòng đợi..
