The data-mining component of the KDD process often involves repeated i dịch - The data-mining component of the KDD process often involves repeated i Việt làm thế nào để nói

The data-mining component of the KD

The data-mining component of the KDD process often involves repeated iterative application of particular data-mining methods. This
section presents an overview of the primary
goals of data mining, a description of the
methods used to address these goals, and a
brief description of the data-mining algorithms that incorporate these methods.
The knowledge discovery goals are defined
by the intended use of the system. We can
distinguish two types of goals: (1) verification
and (2) discovery. With verification,the system is limited to verifying the user’s hypothesis. With discovery,the system autonomously
finds new patterns. We further subdivide the
discovery goal into prediction,where the system finds patterns for predicting the future
behavior of some entities, and description,
where the system finds patterns for presentation to a user in a human-understandable
form. In this article, we are primarily concerned with discovery-oriented data mining.
Data mining involves fitting models to, or
determining patterns from, observed data.
The fitted models play the role of inferred
knowledge: Whether the models reflect useful
or interesting knowledge is part of the overall, interactive KDD process where subjective
human judgment is typically required. Two
primary mathematical formalisms are used in
model fitting: (1) statistical and (2) logical.
The statistical approach allows for nondeterministic effects in the model, whereas a logical model is purely deterministic. We focus
primarily on the statistical approach to data
mining, which tends to be the most widely
used basis for practical data-mining applications given the typical presence of uncertainty in real-world data-generating processes.
Most data-mining methods are based on
tried and tested techniques from machine
learning, pattern recognition, and statistics:
classification, clustering, regression, and so
on. The array of different algorithms under
each of these headings can often be bewildering to both the novice and the experienced
data analyst. It should be emphasized that of
the many data-mining methods advertised in
the literature, there are really only a few fundamental techniques. The actual underlying
model representation being used by a particular method typically comes from a composition of a small number of well-known options: polynomials, splines, kernel and basis
functions, threshold-Boolean functions, and
so on. Thus, algorithms tend to differ primarily in the goodness-of-fit criterion used to
evaluate model fit or in the search method
used to find a good fit.
In our brief overview of data-mining methods, we try in particular to convey the notion
that most (if not all) methods can be viewed
as extensions or hybrids of a few basic techniques and principles. We first discuss the primary methods of data mining and then show
that the data- mining methods can be viewed
as consisting of three primary algorithmic
components: (1) model representation, (2)
model evaluation, and (3) search. In the discussion of KDD and data-mining methods,
we use a simple example to make some of the
notions more concrete. Figure 2 shows a simple two-dimensional artificial data set consisting of 23 cases. Each point on the graph represents a person who has been given a loan
by a particular bank at some time in the past.
The horizontal axis represents the income of
the person; the vertical axis represents the total personal debt of the person (mortgage, car
payments, and so on). The data have been
classified into two classes: (1) the x’s represent persons who have defaulted on their
loans and (2) the o’s represent persons whose
loans are in good status with the bank. Thus,
this simple artificial data set could represent a
historical data set that can contain useful
knowledge from the point of view of the
bank making the loans. Note that in actual
KDD applications, there are typically many
more dimensions (as many as several hundreds) and many more data points (many
thousands or even millions).
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Các thành phần khai thác dữ liệu của trình KDD thường bao gồm việc lặp đi lặp lại lặp đi lặp lại ứng dụng của phương pháp khai thác dữ liệu cụ thể. Điều nàyphần trình bày tổng quan về chínhmục tiêu của dữ liệu khai thác mỏ, một mô tả về cácphương pháp được sử dụng để giải quyết các mục tiêu này, và mộtMô tả ngắn gọn của các thuật toán khai thác dữ liệu kết hợp những phương pháp này.Các kiến thức phát hiện mục tiêu được định nghĩabằng cách sử dụng dự định của hệ thống. Chúng tôi có thểphân biệt hai loại mục tiêu: (1) xác minhvà phát hiện ra (2). Với quy trình xác minh, Hệ thống được giới hạn để xác minh giả thuyết của người dùng. Với phát hiện, Hệ thống autonomouslytìm thấy các mô hình mới. Chúng tôi tiếp tục chia nhỏ cáckhám phá mục tiêu vào dự đoán, nơi hệ thống tìm thấy mô hình dự đoán tương laihành vi của một số tổ chức, và mô tả,nơi hệ thống tìm thấy mẫu cho các trình bày cho người dùng trong một con người-dễ hiểuhình thức. Trong bài này, chúng tôi được chủ yếu liên quan với khai thác dữ liệu theo định hướng khám phá. Khai thác dữ liệu liên quan đến phù hợp các mô hình, hoặcxác định các mô hình từ, quan sát thấy dữ liệu.Các mô hình được trang bị chơi vai trò của suy rakiến thức: cho dù các mô hình phản ánh hữu íchhoặc thú vị kiến thức là một phần của quá trình KDD tổng thể, tương tác, nơi chủ quanbản án của con người là thường yêu cầu. Haiformalisms toán học chủ yếu được sử dụng trongMô hình phù hợp: (1) thống kê và (2) hợp lý.Cách tiếp cận thống kê cho phép cho các hiệu ứng nondeterministic trong các mô hình, trong khi một mô hình hợp lý là hoàn toàn xác định. Chúng tôi tập trungchủ yếu vào các phương pháp thống kê dữ liệukhai thác mỏ, mà có xu hướng rộng rãi nhấtsử dụng cơ sở cho các ứng dụng khai thác dữ liệu thực tế được đưa ra sự hiện diện điển hình của sự không chắc chắn trong thế giới thực tạo ra dữ liệu quá trình. Hầu hết các phương pháp khai thác dữ liệu được dựa trêncố gắng và thử nghiệm kỹ thuật từ máyhọc tập, công nhận mẫu, và số liệu thống kê:phân loại, cụm, hồi qui, và như vậyngày. Các mảng của các thuật toán khác nhau dướimỗi người trong số các đề mục thường có thể được bối rối cho cả các novice và các kinh nghiệmphân tích dữ liệu. Nó nên nhấn mạnh củaCác phương pháp khai thác dữ liệu nhiều quảng cáo trênCác tài liệu, thực sự là chỉ có một vài kỹ thuật cơ bản. Thực tế cơ bảnMô hình đại diện được sử dụng bởi một phương pháp cụ thể thường xuất phát từ một thành phần của một số ít nổi tiếng lựa chọn: đa thức, splines, hạt nhân và các cơ sởchức năng, chức năng ngưỡng-Boolean, vàvv.. Vì vậy, thuật toán có xu hướng khác nhau chủ yếu trong các tiêu chí tốt đẹp phù hợp được sử dụng đểđánh giá mô hình phù hợp với, hoặc phương pháp tìm kiếmđược sử dụng để tìm một thích hợp. Trong chúng tôi tổng quan ngắn gọn về các phương pháp khai thác dữ liệu, chúng tôi cố gắng đặc biệt để truyền đạt ý niệmHầu hết (nếu không phải tất cả) các phương pháp có thể được xemnhư tiện ích mở rộng hoặc lai của một vài nguyên tắc và kỹ thuật cơ bản. Chúng tôi lần đầu tiên thảo luận về các phương pháp chính của khai thác dữ liệu và sau đó hiển thịCác phương pháp khai thác dữ liệu có thể được xemnhư là bao gồm của ba chính thuật toánthành phần: (1) mô hình đại diện, (2)Mô hình đánh giá, và (3) tìm kiếm. Trong các cuộc thảo luận của KDD và phương pháp khai thác dữ liệu,chúng tôi sử dụng một ví dụ đơn giản để làm cho một số cáckhái niệm cụ thể hơn. Hình 2 cho thấy một tập đơn giản hai chiều nhân tạo dữ liệu bao gồm 23 trường hợp. Mỗi điểm trên biểu đồ đại diện cho một người đã được đưa ra một khoản cho vaybởi một ngân hàng cụ thể ở một số thời gian trong quá khứ.Trục ngang đại diện cho thu nhập củangười; trục dọc đại diện cho tổng số nợ cá nhân của người (thế chấp, xeCác khoản thanh toán, và như vậy). Các dữ liệu đãXếp hạng thành hai lớp học: (1) các x đại diện cho người sử dụng có cài đặt sẵn trên của họcho vay và (2) các o's đại diện cho người cócho vay trong tình trạng tốt với các ngân hàng. Do đó,Điều này thiết lập dữ liệu nhân tạo đơn giản có thể đại diện cho mộtlịch sử các tập hợp dữ liệu có thể chứa hữu íchkiến thức từ điểm nhìn của cácNgân hàng làm cho các khoản cho vay. Lưu ý rằng trong thực tếỨng dụng KDD, có rất nhiều thông thườngThêm kích thước (như một số hàng trăm) và nhiều dữ liệu hơn chỉ (nhiềuhàng ngàn hoặc thậm chí hàng triệu).
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Các thành phần khai thác dữ liệu của quá trình KDD thường liên quan đến ứng dụng lặp đi lặp lại lặp đi lặp lại của các phương pháp khai thác dữ liệu cụ thể. Điều này
phần trình bày một cái nhìn tổng quan của chính
mục tiêu khai thác dữ liệu, mô tả về các
phương pháp được sử dụng để giải quyết các mục tiêu này, và một
mô tả ngắn gọn về các thuật toán khai thác dữ liệu mà kết hợp những phương pháp này.
Các mục tiêu khám phá tri thức được xác định
bởi mục đích sử dụng hệ thống. Chúng ta có thể
phân biệt hai loại mục tiêu: (1) xác minh
và (2) khám phá. Với xác minh, hệ thống được giới hạn để xác minh giả thuyết của người dùng. Với phát hiện, hệ thống một cách tự
phát hiện các mẫu mới. Chúng tôi tiếp tục chia nhỏ các
mục tiêu phát hiện vào dự đoán, nơi mà hệ thống tìm thấy mô hình để dự đoán tương lai
hành vi của một số tổ chức và mô tả,
nơi mà hệ thống tìm thấy mô hình để trình bày cho một người dùng trong một con người hiểu
hình thức. Trong bài viết này, chúng tôi chủ yếu quan tâm phát hiện định hướng khai thác dữ liệu.
Khai thác dữ liệu liên quan đến mô hình phù hợp, hoặc
mô hình xác định từ, quan sát dữ liệu.
Các mô hình được trang bị chơi vai trò của suy luận
kiến thức: Cho dù các mô hình phản ánh hữu ích
kiến thức hoặc thú vị là một phần của tổng thể, tương tác quá trình KDD nơi chủ quan
phán xét ​​con người thường được yêu cầu. Hai
formalisms toán học tiểu học được sử dụng trong
mô hình phù hợp:. (1) thống kê và (2) hợp lý
Các phương pháp thống kê cho phép tác động không xác định trong mô hình, trong khi một mô hình hợp lý là hoàn toàn xác định. Chúng tôi tập trung
chủ yếu vào các phương pháp thống kê số liệu
khai thác mỏ, mà có xu hướng là rộng rãi nhất
cơ sở được sử dụng cho các ứng dụng khai thác dữ liệu thực tế cho sự hiện diện điển hình của sự không chắc chắn trong quá trình dữ liệu tạo ra trong thế giới thực.
Hầu hết các phương pháp khai thác dữ liệu dựa trên
thử và thử nghiệm các kỹ thuật từ máy
học tập, nhận dạng mẫu, và thống kê:
phân loại, phân nhóm, hồi quy, và do đó
trên. Các mảng của các thuật toán khác nhau theo
từng đề mục thường có thể gây hoang mang cho cả người mới và những kinh nghiệm
phân tích dữ liệu. Cần nhấn mạnh rằng trong
các phương pháp khai thác dữ liệu nhiều quảng cáo trong
y văn, có thực sự chỉ là một vài kỹ thuật cơ bản. Các thực tế cơ bản
đại diện mô hình đang được sử dụng bởi một phương pháp đặc biệt thường xuất phát từ một thành phần của một số lượng nhỏ các tùy chọn nổi tiếng: đa thức, splines, hạt nhân và cơ sở
chức năng, chức năng ngưỡng-Boolean, và
như vậy. Như vậy, thuật toán có xu hướng khác nhau chủ yếu ở các tiêu chí tốt lành-of-fit sử dụng để
đánh giá các mô hình phù hợp hoặc trong các phương pháp tìm kiếm
sử dụng để tìm một phù hợp.
Trong tổng quan ngắn gọn của chúng ta về các phương pháp khai thác dữ liệu, chúng tôi cố gắng đặc biệt để truyền đạt các khái niệm
mà hầu hết (nếu không phải tất cả) các phương pháp có thể được xem
như là phần mở rộng hoặc lai của một số kỹ thuật cơ bản và nguyên tắc. Đầu tiên chúng ta thảo luận về các phương pháp cơ bản của khai thác dữ liệu và sau đó chứng
rằng các phương pháp khai thác đĩa dữ liệu có thể được xem
như gồm ba thuật toán chính
thành phần: (1) mô hình đại diện, (2)
đánh giá mô hình, và (3) tìm kiếm. Trong các cuộc thảo luận của KDD và phương pháp khai thác dữ liệu,
chúng tôi sử dụng một ví dụ đơn giản để làm cho một số các
khái niệm cụ thể hơn. Hình 2 cho thấy một tập hợp dữ liệu nhân tạo hai chiều đơn giản bao gồm 23 trường hợp. Mỗi điểm trên biểu đồ đại diện cho một người đã được đưa ra một khoản vay
của một ngân hàng cụ thể vào một thời điểm trong quá khứ.
Các trục ngang đại diện cho thu nhập của
người đó; trục dọc thể hiện tổng nợ cá nhân của người (thế chấp, xe
thanh toán, vv). Các dữ liệu đã được
phân loại thành hai nhóm: (1) của x đại diện cho những người đã vỡ của họ
cho vay và (2) của o đại diện cho người có
các khoản vay đang ở trạng thái tốt với ngân hàng. Như vậy,
bộ dữ liệu nhân tạo đơn giản này có thể đại diện cho một
tập hợp dữ liệu lịch sử mà có thể chứa hữu ích
kiến thức từ điểm nhìn của các
ngân hàng hoạt động cho vay. Lưu ý rằng trong thực tế
ứng dụng KDD, có thường nhiều
kích thước hơn (như nhiều như vài trăm) và nhiều điểm dữ liệu hơn (nhiều
ngàn hoặc thậm chí hàng triệu).
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: