Trừu tượng. Thời gian gần đây đã thấy sự tăng trưởng bùng nổ trong availabil-
ity của các loại dữ liệu khác nhau. Nó đã dẫn đến một hội chưa từng có
tunity để phát triển các kỹ thuật hướng dữ liệu tự động của chiết xuất hữu ích
kiến thức. Khai thác dữ liệu, một bước quan trọng trong quá trình này của tri thức
phát hiện, bao gồm các phương pháp khám phá thú vị, không tầm thường, và
mô hình ẩn hữu ích trong các dữ liệu [SAD + 93, CHY96]. Các lĩnh vực dữ liệu
khai thác xây dựng dựa trên ý tưởng từ các lĩnh vực khác nhau như học máy,
nhận dạng mẫu, thống kê, hệ thống cơ sở dữ liệu, và dữ liệu trực quan.
Tuy nhiên, các kỹ thuật được phát triển trong các lĩnh vực truyền thống thường UN
phù hợp do một số đặc điểm độc đáo của dữ liệu ngày nay -sets, chẳng hạn như
kích thước của chúng rất lớn, cao-chiều, và không đồng nhất. Có một
điều cần thiết để phát triển các thuật toán song song hiệu quả khai thác dữ liệu khác nhau
kỹ thuật. Tuy nhiên, thiết kế thuật toán như vậy là thách thức, và các
trọng tâm chính của bài báo là một mô tả về công thức song song của
hai thuật toán khai thác dữ liệu quan trọng: phát hiện luật kết hợp,
và cảm ứng của cây quyết định để phân loại. Chúng tôi cũng thảo luận vắn tắt
một ứng dụng khai thác dữ liệu để phân tích các bộ dữ liệu lớn thu thập
bằng cách quan sát trái đất vệ tinh mà cần phải được xử lý tốt hơn để hiểu
nổi những thay đổi quy mô toàn cầu trong quá trình sinh quyển và các mẫu.
1 Giới thiệu
lần gần đây đã thấy sự tăng trưởng bùng nổ trong sự sẵn có của các loại khác nhau
của dữ liệu. Nó đã dẫn đến một cơ hội chưa từng có để phát triển tự động
kỹ thuật hướng dữ liệu chiết xuất kiến thức bổ ích. Khai thác dữ liệu, một trọng
bước quan trong tiến trình khám phá tri thức, bao gồm các phương pháp khám phá
mô hình thú vị, không tầm thường, và ẩn hữu ích trong các dữ liệu [SAD + 93,
CHY96].? Công trình này được hỗ trợ bởi NSF CCR-9972519, do NASA tài trợ # NCC 2 năm 1231,
theo hợp đồng Văn phòng Nghiên cứu Quân đội DA / DAAG55-98-1-0441, được DOE cấp
LLNL / DOE B347714, và bởi Performance Computing Trung tâm Nghiên cứu cao Quân đội
hợp tác xã số thỏa thuận DAAD19-01-2-0014. Truy cập vào cơ sở tính toán
được cung cấp bởi AHPCRC và Viện Supercomputer Minnesota. Liên quan đến
giấy tờ có sẵn thông qua WWW tại URL: http://www.cs.umn.edu/~kumar
đang được dịch, vui lòng đợi..