Mining Frequent Itemsets from Uncertain DataChun-Kit Chui1, Ben Kao1,  dịch - Mining Frequent Itemsets from Uncertain DataChun-Kit Chui1, Ben Kao1,  Việt làm thế nào để nói

Mining Frequent Itemsets from Uncer

Mining Frequent Itemsets from Uncertain Data
Chun-Kit Chui1, Ben Kao1, and Edward Hung2
1 Department of Computer Science, The University of Hong Kong,
Pokfulam, Hong Kong
{ckchui,kao}@cs.hku.hk
2 Department of Computing, Hong Kong Polytechnic University,
Kowloon, Hong Kong
csehung@comp.polyu.edu.hk
Abstract. We study the problem of mining frequent itemsets from uncertain
data under a probabilistic framework. We consider transactions
whose items are associated with existential probabilities and give a formal
definition of frequent patterns under such an uncertain data model.
We show that traditional algorithms for mining frequent itemsets are
either inapplicable or computationally inefficient under such a model.
A data trimming framework is proposed to improve mining efficiency.
Through extensive experiments, we show that the data trimming technique
can achieve significant savings in both CPU cost and I/O cost.
1 Introduction
Association analysis is one of the most important data-mining model. As an
example, in market-basket analysis, a dataset consists of a number of tuples,
each contains the items that a customer has purchased in a transaction. The
dataset is analyzed to discover associations among different items. An important
step in the mining process is the extraction of frequent itemsets, or sets of items
that co-occur in a major fraction of the transactions. Besides market-basket
analysis, frequent itemsets mining is also a core component in other variations
of association analysis, such as association-rule mining [1] and sequential-pattern
mining [2].
All previous studies on association analysis assume a data model under which
transactions capture doubtless facts about the items that are contained in each
transaction. In many applications, however, the existence of an item in a transaction
is best captured by a likelihood measure or a probability. As an example,
a medical dataset may contain a table of patient records (tuples), each of which
contains a set of symptoms and/or illnesses that a patient suffers (items). Applying
association analysis on such a dataset allows us to discover any potential
correlations among the symptoms and illnesses. In many cases, symptoms, being
subjective observations, would best be represented by probabilities that indicate
This research is supported by Hong Kong Research Grants Council Grant HKU
7134/06E.
Z.-H. Zhou, H. Li, and Q. Yang (Eds.): PAKDD 2007, LNAI 4426, pp. 47–58, 2007.
c Springer-Verlag Berlin Heidelberg 2007
48 C.-K. Chui, B. Kao, and E. Hung
Table 1. A diagnosis dataset
Patient ID Depression Eating Disorder
1 90% 80%
2 40% 70%
their presence in the patients’ tuples. Table 1 shows an example patient dataset.
A probability value in such a dataset might be obtained by a personal assessment
conducted by a physician, or it could be derived based on historical data
statistics. (For example, a patient who shows positive reaction to Test A has
a 70% probability of suffering from illness B.) Another example of uncertain
datasets is pattern recognition applications. Given a satellite picture, image processing
techniques can be applied to extract features that indicate the presence
or absence of certain target objects (such as bunkers). Due to noises and limited
resolution, the presence of a feature in a spatial area is often uncertain and
expressed as a probability [3]. Here, we can model a spatial region as an object,
and the features (that have non-zero probabilities of being present in a region)
as the items of that object. The dataset can thus be considered as a collection of
tuples/transactions, each contains a set of items (features) that are associated
with the probabilities of being present. Applying association analysis on such
a dataset allows us to identify closely-related features. Such knowledge is very
useful in pattern classification [4] and image texture analysis [5].
In this paper we consider datasets that are collections of transactional records.
Each record contains a set of items that are associated with existential probabilities.
As we have mentioned, a core step in many association analysis techniques
is the extraction of frequent itemsets. An itemset is considered frequent if it appears
in a large-enough portion of the dataset. The occurrence frequency is often
expressed in terms of a support count. For datasets that contain uncertain items,
however, the definition of support needs to be redefined. As we will discuss later,
due to the probabilistic nature of the datasets, the occurrence frequency of an
itemset should be captured by an expected support instead of a traditional support
count. We will explain the Possible Worlds interpretation of an uncertain
dataset [6] and we will discuss how expected supports can be computed by a
simple modification of the well-known Apriori algorithm [1].
Since the existence of an item in a transaction is indicated by a probability,
an advantage of the existential uncertain data model is that it allows more information
to be captured by the dataset. Consider again the example patient
dataset. If we adopt a binary data model, then each symptom/illness can either
be present (1) or absent (0) in a patient record. Under the binary model, data
analysts will be forced to set a threshold value for each symptom/illness to quantize
the probabilities into either 1 or 0. In other words, information about those
(marginally) low values is discarded. The uncertain data model, however, allows
such information be retained and be available for analysis. The disadvantage of
retaining such information is that the size of the dataset would be much larger
Mining Frequent Itemsets from Uncertain Data 49
than that under the quantized binary model. This is particularly true if most
of the existential probabilities are very small. Consequently, mining algorithms
will run a lot slower on such large datasets. In this paper we propose an efficient
technique for mining existential uncertain datasets, which exploit the statistical
properties of low-valued items. Through experiments, we will show that the
proposed technique is very efficient in terms of both CPU cost and I/O cost.
The rest of this paper is organized as follows. Section 2 describes the Possible
Worlds interpretation of existential uncertain data and defines the expected support
measure. Section 3 discusses a simple modification of the Apriori algorithm
to mine uncertain data and explains why such a modification does not lead to
an efficient algorithm. Section 4 presents a data trimming technique to improve
mining efficiency. Section 5 presents some experimental results and discusses
some observations. We conclude the study in Section 6.
2 Problem Definition
In our data model, an uncertain dataset D consists of d transactions t1, . . . , td.
A transaction ti contains a number of items. Each item x in ti is associated
with a non-zero probability Pti (x), which indicates the likelihood that item x
is present in transaction ti. There are thus two possibilities of the world. In
one case, item x is present in transaction ti; in another case, item x is not
in ti. Let us call these two possibilities the two possible worlds, W1 and W2,
respectively.We do not know which world is the real world but we do know, from
the dataset, the probability of each world being the true world. In particular, if
we let P(Wi) be the probability that world Wi being the true world, then we
have P(W1) = Pti (x) and P(W2) = 1−Pti(x). We can extend this idea to cover
cases in which transaction ti contains other items. For example, let item y be
another item in ti with probability Pti (y). If the observation of item x and item y
are independently done1, then there are four possible worlds. The probability of
the world in which ti contains both items x and y, for example, is Pti (x) ·Pti (y).
We can further extend the idea to cover datasets that contains more than one
transaction. Figure 1 illustrates the 16 possible worlds derived from the patient
records shown in Table 1. In traditional frequent itemset mining, the support
count of an itemset X is defined as the number of transactions that contain
X. For an uncertain dataset, such a support value is undefined since we do not
know in the real world whether a transaction contains X with certainty. We can,
however, determine the support of X with respect to any given possible world.
Let us consider the worlds shown in Figure 1, the supports of itemset AB in
world W1 and W6 are 2 and 1, respectively. If we can determine the probability
of each possible world and the support of an itemset X in each world, we can
determine the expected support of X.
Definition 1. An itemset X is frequent if and only if its expected support not
less than ρs · d, where ρs is a user-specified support threshold.
1 For example, we can consider that different symptoms are diagnosed by independent
medical tests.
50 C.-K. Chui, B. Kao, and E. Hung
W1
A B
t1 ✔ ✔
t2 ✔ ✔
W2
A B
t1 ✔ ✔
t2 ✔ ✘
W3
A B
t1 ✔ ✔
t2 ✘ ✔
W4
A B
t1 ✔ ✘
t2 ✔ ✔
W5
A B
t1 ✘ ✔
t2 ✔ ✔
W6
A B
t1 ✔ ✔
t2 ✘ ✘
W7
A B
t1 ✘ ✘
t2 ✔ ✔
W8
A B
t1 ✔ ✘
t2 ✔ ✘
W9
A B
t1 ✘ ✔
t2 ✘ ✔
W10
A B
t1 ✘ ✔
t2 ✔ ✘
W11
A B
t1 ✔ ✘
t2 ✘ ✔
W12
A B
t1 ✘ ✘
t2 ✔ ✘
W13
A B
t1 ✘ ✘
t2 ✘ ✔
W14
A B
t1 ✘ ✔
t2 ✘ ✘
W15
A B
t1 ✔ ✘
t2 ✘ ✘
W16
A B
t1 ✘ ✘
t2 ✘ ✘
Fig. 1. 16 Possible Worlds derived from dataset with 2 transactions and 2 items
Given a world Wi and an itemset X, let us define P(Wi) be the probability of
world Pi and S(X,Wi) be the support count of X in world Wi. Furthermore, we
use Ti,j to denote the set of items that the jth transaction, i.e., tj, contains in the
world Wi. If we assume that items’ existential probabilities in transactions are
determined through independent observations2, then P(Wi) and the expected
support Se(X) of X are given by the following formulae:
P(Wi) =
d

j=1



x∈Ti,j
Ptj (x) · 
y∈Ti,j
(1 − Ptj (y))


, and (1)
Se(X) =
|W|

i=1
P(Wi) ×
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Mining Frequent Itemsets from Uncertain Data
Chun-Kit Chui1, Ben Kao1, and Edward Hung2
1 Department of Computer Science, The University of Hong Kong,
Pokfulam, Hong Kong
{ckchui,kao}@cs.hku.hk
2 Department of Computing, Hong Kong Polytechnic University,
Kowloon, Hong Kong
csehung@comp.polyu.edu.hk
Abstract. We study the problem of mining frequent itemsets from uncertain
data under a probabilistic framework. We consider transactions
whose items are associated with existential probabilities and give a formal
definition of frequent patterns under such an uncertain data model.
We show that traditional algorithms for mining frequent itemsets are
either inapplicable or computationally inefficient under such a model.
A data trimming framework is proposed to improve mining efficiency.
Through extensive experiments, we show that the data trimming technique
can achieve significant savings in both CPU cost and I/O cost.
1 Introduction
Association analysis is one of the most important data-mining model. As an
example, in market-basket analysis, a dataset consists of a number of tuples,
each contains the items that a customer has purchased in a transaction. The
dataset is analyzed to discover associations among different items. An important
step in the mining process is the extraction of frequent itemsets, or sets of items
that co-occur in a major fraction of the transactions. Besides market-basket
analysis, frequent itemsets mining is also a core component in other variations
of association analysis, such as association-rule mining [1] and sequential-pattern
mining [2].
All previous studies on association analysis assume a data model under which
transactions capture doubtless facts about the items that are contained in each
transaction. In many applications, however, the existence of an item in a transaction
is best captured by a likelihood measure or a probability. As an example,
a medical dataset may contain a table of patient records (tuples), each of which
contains a set of symptoms and/or illnesses that a patient suffers (items). Applying
association analysis on such a dataset allows us to discover any potential
correlations among the symptoms and illnesses. In many cases, symptoms, being
subjective observations, would best be represented by probabilities that indicate
This research is supported by Hong Kong Research Grants Council Grant HKU
7134/06E.
Z.-H. Zhou, H. Li, and Q. Yang (Eds.): PAKDD 2007, LNAI 4426, pp. 47–58, 2007.
c Springer-Verlag Berlin Heidelberg 2007
48 C.-K. Chui, B. Kao, and E. Hung
Table 1. A diagnosis dataset
Patient ID Depression Eating Disorder
1 90% 80%
2 40% 70%
their presence in the patients’ tuples. Table 1 shows an example patient dataset.
A probability value in such a dataset might be obtained by a personal assessment
conducted by a physician, or it could be derived based on historical data
statistics. (For example, a patient who shows positive reaction to Test A has
a 70% probability of suffering from illness B.) Another example of uncertain
datasets is pattern recognition applications. Given a satellite picture, image processing
techniques can be applied to extract features that indicate the presence
or absence of certain target objects (such as bunkers). Due to noises and limited
resolution, the presence of a feature in a spatial area is often uncertain and
expressed as a probability [3]. Here, we can model a spatial region as an object,
and the features (that have non-zero probabilities of being present in a region)
as the items of that object. The dataset can thus be considered as a collection of
tuples/transactions, each contains a set of items (features) that are associated
with the probabilities of being present. Applying association analysis on such
a dataset allows us to identify closely-related features. Such knowledge is very
useful in pattern classification [4] and image texture analysis [5].
In this paper we consider datasets that are collections of transactional records.
Each record contains a set of items that are associated with existential probabilities.
As we have mentioned, a core step in many association analysis techniques
is the extraction of frequent itemsets. An itemset is considered frequent if it appears
in a large-enough portion of the dataset. The occurrence frequency is often
expressed in terms of a support count. For datasets that contain uncertain items,
however, the definition of support needs to be redefined. As we will discuss later,
due to the probabilistic nature of the datasets, the occurrence frequency of an
itemset should be captured by an expected support instead of a traditional support
count. We will explain the Possible Worlds interpretation of an uncertain
dataset [6] and we will discuss how expected supports can be computed by a
simple modification of the well-known Apriori algorithm [1].
Since the existence of an item in a transaction is indicated by a probability,
an advantage of the existential uncertain data model is that it allows more information
to be captured by the dataset. Consider again the example patient
dataset. If we adopt a binary data model, then each symptom/illness can either
be present (1) or absent (0) in a patient record. Under the binary model, data
analysts will be forced to set a threshold value for each symptom/illness to quantize
the probabilities into either 1 or 0. In other words, information about those
(marginally) low values is discarded. The uncertain data model, however, allows
such information be retained and be available for analysis. The disadvantage of
retaining such information is that the size of the dataset would be much larger
Mining Frequent Itemsets from Uncertain Data 49
than that under the quantized binary model. This is particularly true if most
of the existential probabilities are very small. Consequently, mining algorithms
will run a lot slower on such large datasets. In this paper we propose an efficient
technique for mining existential uncertain datasets, which exploit the statistical
properties of low-valued items. Through experiments, we will show that the
proposed technique is very efficient in terms of both CPU cost and I/O cost.
The rest of this paper is organized as follows. Section 2 describes the Possible
Worlds interpretation of existential uncertain data and defines the expected support
measure. Section 3 discusses a simple modification of the Apriori algorithm
to mine uncertain data and explains why such a modification does not lead to
an efficient algorithm. Section 4 presents a data trimming technique to improve
mining efficiency. Section 5 presents some experimental results and discusses
some observations. We conclude the study in Section 6.
2 Problem Definition
In our data model, an uncertain dataset D consists of d transactions t1, . . . , td.
A transaction ti contains a number of items. Each item x in ti is associated
with a non-zero probability Pti (x), which indicates the likelihood that item x
is present in transaction ti. There are thus two possibilities of the world. In
one case, item x is present in transaction ti; in another case, item x is not
in ti. Let us call these two possibilities the two possible worlds, W1 and W2,
respectively.We do not know which world is the real world but we do know, from
the dataset, the probability of each world being the true world. In particular, if
we let P(Wi) be the probability that world Wi being the true world, then we
have P(W1) = Pti (x) and P(W2) = 1−Pti(x). We can extend this idea to cover
cases in which transaction ti contains other items. For example, let item y be
another item in ti with probability Pti (y). If the observation of item x and item y
are independently done1, then there are four possible worlds. The probability of
the world in which ti contains both items x and y, for example, is Pti (x) ·Pti (y).
We can further extend the idea to cover datasets that contains more than one
transaction. Figure 1 illustrates the 16 possible worlds derived from the patient
records shown in Table 1. In traditional frequent itemset mining, the support
count of an itemset X is defined as the number of transactions that contain
X. For an uncertain dataset, such a support value is undefined since we do not
know in the real world whether a transaction contains X with certainty. We can,
however, determine the support of X with respect to any given possible world.
Let us consider the worlds shown in Figure 1, the supports of itemset AB in
world W1 and W6 are 2 and 1, respectively. If we can determine the probability
of each possible world and the support of an itemset X in each world, we can
determine the expected support of X.
Definition 1. An itemset X is frequent if and only if its expected support not
less than ρs · d, where ρs is a user-specified support threshold.
1 For example, we can consider that different symptoms are diagnosed by independent
medical tests.
50 C.-K. Chui, B. Kao, and E. Hung
W1
A B
t1 ✔ ✔
t2 ✔ ✔
W2
A B
t1 ✔ ✔
t2 ✔ ✘
W3
A B
t1 ✔ ✔
t2 ✘ ✔
W4
A B
t1 ✔ ✘
t2 ✔ ✔
W5
A B
t1 ✘ ✔
t2 ✔ ✔
W6
A B
t1 ✔ ✔
t2 ✘ ✘
W7
A B
t1 ✘ ✘
t2 ✔ ✔
W8
A B
t1 ✔ ✘
t2 ✔ ✘
W9
A B
t1 ✘ ✔
t2 ✘ ✔
W10
A B
t1 ✘ ✔
t2 ✔ ✘
W11
A B
t1 ✔ ✘
t2 ✘ ✔
W12
A B
t1 ✘ ✘
t2 ✔ ✘
W13
A B
t1 ✘ ✘
t2 ✘ ✔
W14
A B
t1 ✘ ✔
t2 ✘ ✘
W15
A B
t1 ✔ ✘
t2 ✘ ✘
W16
A B
t1 ✘ ✘
t2 ✘ ✘
Fig. 1. 16 Possible Worlds derived from dataset with 2 transactions and 2 items
Given a world Wi and an itemset X, let us define P(Wi) be the probability of
world Pi and S(X,Wi) be the support count of X in world Wi. Furthermore, we
use Ti,j to denote the set of items that the jth transaction, i.e., tj, contains in the
world Wi. If we assume that items’ existential probabilities in transactions are
determined through independent observations2, then P(Wi) and the expected
support Se(X) of X are given by the following formulae:
P(Wi) =
d

j=1



x∈Ti,j
Ptj (x) · 
y∈Ti,j
(1 − Ptj (y))


, and (1)
Se(X) =
|W|

i=1
P(Wi) ×
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Khai thác tập phổ biến từ không chắc chắn liệu
Chun-Kit Chui1, Ben Kao1, và Edward Hung2
cục 1 Khoa học máy tính, Đại học Hồng Kông,
Pokfulam, Hồng Kông
{ckchui, kao} @ cs.hku.hk
2 khoa tin học, Hồng Đại học Bách khoa Kông,
Kowloon, Hồng Kông
csehung@comp.polyu.edu.hk
Tóm tắt. Chúng tôi nghiên cứu các vấn đề khai thác tập phổ biến từ chắc chắn
dữ liệu trong một khuôn khổ xác suất. Chúng tôi xem xét các giao dịch
mà các mặt hàng có liên quan đến xác suất tồn tại và đưa ra một hình thức
định nghĩa của mô hình thường xuyên dưới như một mô hình dữ liệu không chắc chắn.
Chúng tôi thấy rằng các thuật toán truyền thống khai thác tập phổ biến là
một trong hai không thể áp dụng hoặc không hiệu quả tính toán theo một mô hình như vậy.
Một khung dữ liệu là cắt tỉa đề xuất để nâng cao hiệu quả khai thác.
Thông qua thí nghiệm rộng rãi, chúng ta thấy rằng các dữ liệu kỹ thuật cắt tỉa
có thể đạt được tiết kiệm đáng kể chi phí cả CPU và I / O chi phí.
1 Giới thiệu
phân tích Hiệp hội là một trong những mô hình khai thác dữ liệu quan trọng nhất. Như một
ví dụ, trong phân tích thị trường giỏ, một bộ dữ liệu bao gồm một số các bộ dữ liệu,
mỗi dòng chứa các mặt hàng mà khách hàng đã mua trong một giao dịch. Các
số liệu được phân tích để phát hiện ra các hiệp hội giữa các hạng mục khác nhau. Một quan trọng
bước trong quá trình khai thác khoáng sản là khai thác tập phổ biến, hay tập hợp các mục
đó cùng xảy ra trong một phần chủ yếu của giao dịch. Bên cạnh đó thị trường giỏ
phân tích, khai thác tập phổ biến cũng là một thành phần cốt lõi trong các biến thể khác
của phân tích liên hệ, như hiệp hội quy tắc khai thác [1] và tuần tự mô hình
khai thác khoáng sản [2].
Tất cả các nghiên cứu trước đây về phân tích kết hợp giả định một mô hình dữ liệu mà
chụp giao dịch không nghi ngờ sự thật về các mặt hàng được chứa trong mỗi
giao dịch. Trong nhiều ứng dụng, tuy nhiên, sự tồn tại của một mục trong một giao dịch
là tốt nhất bị bắt bởi một thước đo khả năng hoặc một xác suất. Như một ví dụ,
một bộ dữ liệu y tế có thể chứa một bảng hồ sơ bệnh án (tuple), mỗi trong số đó
có chứa một tập hợp các triệu chứng và / hoặc các bệnh mà bệnh nhân bị (bài). Áp dụng
phân tích sự liên kết trên một tập dữ liệu đó cho phép chúng tôi để khám phá tiềm năng bất kỳ
mối tương quan giữa các triệu chứng và bệnh tật. Trong nhiều trường hợp, triệu chứng, được
quan sát chủ quan, tốt nhất sẽ được đại diện bởi xác suất mà chỉ
nghiên cứu này được hỗ trợ bởi Hồng Kông Hội đồng học bổng nghiên cứu Grant HKU
7134 / 06E.
Z.-H. Zhou, H. Li, và Q. Yang (Eds.):.. PAKDD 2007, LNAI 4426, pp 47-58, 2007
? c Springer-Verlag Berlin Heidelberg 2007
48 C.-K. Chui, B. Kao, và E. Hùng
Bảng 1. Một bộ dữ liệu chẩn đoán
bệnh nhân ID Depression Eating Disorder
1 90% 80%
2 40% 70%
hiện diện của họ trong bộ dữ liệu của bệnh nhân. Bảng 1 cho thấy một ví dụ bộ dữ liệu bệnh nhân.
Một giá trị xác suất trong một bộ dữ liệu như vậy có thể thu được bằng cách đánh giá cá nhân
được thực hiện bởi một bác sĩ, hoặc nó có thể được bắt nguồn dựa trên dữ liệu lịch sử
, thống kê. (Ví dụ, một bệnh nhân cho thấy phản ứng tích cực để thử nghiệm A có
một xác suất 70% bị bệnh B.) Một ví dụ khác không chắc chắn
là bộ dữ liệu các ứng dụng nhận dạng mẫu. Với một hình ảnh vệ tinh, xử lý hình ảnh
kỹ thuật có thể được áp dụng để trích xuất các tính năng mà chỉ ra sự hiện diện
hay vắng mặt của các đối tượng mục tiêu nào đó (chẳng hạn như lô cốt). Do hạn chế tiếng ồn và
độ phân giải, sự hiện diện của một tính năng trong một vùng không gian là thường không chắc chắn và
thể hiện như một xác suất [3]. Ở đây, chúng ta có thể mô hình một khu vực không gian như một đối tượng,
và các tính năng (có xác suất khác không của hiện diện trong một khu vực)
như các mặt hàng của đối tượng đó. Các bộ dữ liệu do đó có thể được coi là một bộ sưu tập các
bộ / giao dịch, mỗi dòng chứa một số mặt hàng (đặc điểm) có liên quan
với các xác suất của việc hiện tại. Áp dụng phân tích sự liên kết trên như
một bộ dữ liệu cho phép xác định các tính năng liên quan chặt chẽ. Kiến thức như vậy là rất
hữu ích trong mô hình phân loại [4] và phân tích kết cấu hình ảnh [5].
Trong bài báo này, chúng tôi xem xét các bộ dữ liệu là tập hợp các bản ghi giao dịch.
Mỗi hồ sơ có chứa một tập hợp các mặt hàng có liên quan đến xác suất tồn tại.
Như chúng tôi đã đề cập , một bước cốt lõi trong nhiều kỹ thuật phân tích liên kết
là việc khai thác tập phổ biến. Một itemset được coi là thường xuyên nếu nó xuất hiện
trong một phần lớn đủ của các bộ dữ liệu. Các tần số xảy ra thường được
biểu diễn dưới dạng một số hỗ trợ. Đối với các bộ dữ liệu chứa các mặt hàng không chắc chắn,
tuy nhiên, định nghĩa về hỗ trợ cần được xác định lại. Như chúng ta sẽ thảo luận sau đó,
do tính chất xác suất của các bộ dữ liệu, tần số xuất hiện của một
tập phổ biến nên được chụp bởi một hỗ trợ dự kiến thay vì một sự hỗ trợ truyền thống
đếm. Chúng tôi sẽ giải thích thế giới giải thích có thể không chắc chắn của một
bộ dữ liệu [6] và chúng tôi sẽ thảo luận về cách thức hỗ trợ dự kiến có thể được tính toán bởi một
thay đổi đơn giản của thuật toán Apriori nổi tiếng [1].
Vì sự tồn tại của một mục trong một giao dịch được chỉ định bởi một xác suất,
một lợi thế của mô hình dữ liệu không chắc chắn tồn tại là nó cho phép thêm thông tin
để được chụp bởi các bộ dữ liệu. Xem xét lại các ví dụ bệnh nhân
bộ dữ liệu. Nếu chúng ta áp dụng một mô hình dữ liệu nhị phân, sau đó mỗi triệu chứng / bệnh có thể hoặc là
có mặt (1) hoặc không có (0) trong một hồ sơ bệnh nhân. Theo mô hình nhị phân, dữ liệu
phân tích sẽ bị buộc phải thiết lập một giá trị ngưỡng cho mỗi triệu chứng / bệnh để quantize
xác suất thành hoặc là 1 hoặc 0. Nói cách khác, thông tin về những người
(nhẹ) giá trị thấp sẽ bị loại bỏ. Các mô hình dữ liệu không chắc chắn, tuy nhiên, cho phép
các thông tin đó được giữ lại và có sẵn để phân tích. Những bất lợi của
giữ lại những thông tin đó là kích thước của các bộ dữ liệu sẽ lớn hơn
Khai thác tập phổ biến từ không chắc chắn liệu 49
hơn theo mô hình nhị phân lượng tử hóa. Điều này đặc biệt đúng nếu nhất
của các xác suất tồn tại là rất nhỏ. Do đó, các thuật toán khai thác mỏ
sẽ chạy chậm hơn rất nhiều trên các tập dữ liệu lớn như vậy. Trong bài báo này chúng tôi đề xuất một hiệu quả
kỹ thuật cho khai thác bộ dữ liệu không chắc chắn tồn tại, trong đó khai thác các thống kê
thuộc tính của các mặt hàng có giá trị thấp. Qua thực nghiệm, chúng tôi sẽ cho thấy rằng các
kỹ thuật được đề xuất là rất hiệu quả cả về chi phí CPU và tôi chi phí / O.
Phần còn lại của bài viết này được tổ chức như sau. Phần 2 mô tả có thể
giải thích thế giới của dữ liệu không chắc chắn tồn tại và định nghĩa hỗ trợ dự kiến
biện pháp. Phần 3 thảo luận về một thay đổi đơn giản của thuật toán Apriori
mỏ dữ liệu chắc chắn và giải thích lý do tại sao một điều chỉnh đó không dẫn đến
một thuật toán hiệu quả. Phần 4 trình bày một kỹ thuật cắt tỉa dữ liệu để nâng cao
hiệu quả khai thác. Phần 5 trình bày một số kết quả thực nghiệm và thảo luận về
một số quan sát. Chúng tôi kết luận nghiên cứu tại mục 6.
Vấn đề 2 Định nghĩa
Trong mô hình dữ liệu của chúng tôi, một tập dữ liệu D chắc chắn bao gồm d giao dịch t1,. . . , Td.
Một ti giao dịch có chứa một số mặt hàng. Mỗi mục x trong ti được gắn liền
với một phi xác suất bằng không PTI (x), trong đó cho biết khả năng item x
có mặt trong ti giao dịch. Có như vậy, hai khả năng của thế giới. Trong
một trường hợp, mục x có mặt trong ti giao dịch; trong trường hợp khác, mục x không phải là
trong ti. Hãy để chúng tôi gọi hai khả năng này hai thế giới có thể, W1 và W2,
respectively.We không biết thế giới là thế giới thực nhưng chúng tôi biết, từ
các tập dữ liệu, xác suất của mỗi thế giới là thế giới thực sự. Đặc biệt, nếu
chúng ta để cho P (Wi) là xác suất mà thế giới Wi là thế giới thật, sau đó chúng ta
có P (W1) = PTI (x) và P (W2) = 1-PTI (x). Chúng tôi có thể mở rộng ý tưởng này để bao gồm
các trường hợp trong đó ti giao dịch có chứa các mặt hàng khác. Ví dụ, chúng ta hãy item y là
một mục trong ti với xác suất PTI (y). Nếu quan sát của item x và y item
là độc lập done1, sau đó có bốn thế giới có thể. Xác suất của
thế giới, trong đó có cả mặt hàng ti x và y, ví dụ, là PTI (x) · PTI (y).
Chúng tôi có thể tiếp tục mở rộng các ý tưởng để trang trải các bộ dữ liệu có chứa nhiều hơn một
giao dịch. Hình 1 minh họa 16 thế giới có thể có nguồn gốc từ các bệnh nhân
ghi hiển thị trong Bảng 1. Trong khai thác tập phổ biến truyền thống, sự hỗ trợ
của một số itemset X được định nghĩa là số lượng giao dịch có chứa
X. Đối với một bộ dữ liệu chắc chắn, một giá trị hỗ trợ như vậy là không xác định vì chúng ta không
biết trong thế giới thực một giao dịch có chứa X một cách chắc chắn. Chúng tôi có thể,
tuy nhiên, xác định sự hỗ trợ của X đối với bất kỳ trên thế giới có thể được đưa ra với.
Chúng ta hãy xem xét thế giới thể hiện trong hình 1, sự hỗ trợ của tập phổ biến AB trong
thế giới W1 và W6 là 2 và 1, tương ứng. Nếu chúng ta có thể xác định xác suất
của mỗi thế giới có thể và sự hỗ trợ của một itemset X ở mỗi thế giới, chúng ta có thể
xác định sự hỗ trợ dự kiến của X.
Định nghĩa 1. Một itemset X là thường xuyên nếu và chỉ nếu hỗ trợ dự kiến của nó không
ít hơn ρs · d, nơi ρs là một ngưỡng hỗ trợ người dùng chỉ định.
1 Ví dụ, chúng ta có thể xem xét các triệu chứng khác nhau được chẩn đoán bằng cách độc lập
kiểm tra y tế.
50 C.-K. Chui, B. Kao, và E. Hưng
W1
AB
t1 ✔ ✔
✔ ✔ t2
W2
AB
t1 ✔ ✔
✔ ✘ t2
W3
AB
t1 ✔ ✔
t2 ✘ ✔
W4
AB
t1 ✔ ✘
t2 ✔ ✔
W5
AB
t1 ✘ ✔
✔ ✔ t2
W6
AB
t1 ✔ ✔
t2 ✘ ✘
W7
AB
t1 ✘ ✘
t2 ✔ ✔
W8
AB
t1 ✔ ✘
t2 ✔ ✘
W9
AB
t1 ✘ ✔
t2 ✘ ✔
W10
AB
t1 ✘ ✔
✔ ✘ t2
W11
AB
t1 ✔ ✘
t2 ✘ ✔
W12
AB
t1 ✘ ✘
t2 ✔ ✘
W13
AB
t1 ✘ ✘
t2 ✘ ✔
W14
AB
t1 ✘ ✔
t2 ✘ ✘
W15
AB
t1 ✔ ✘
t2 ✘ ✘
W16
AB
t1 ✘ ✘
t2 ✘ ✘
hình. 1. 16 Worlds có thể bắt nguồn từ bộ dữ liệu với 2 giao dịch và 2 mục
Cho một thế giới và Wi một itemset X, chúng ta hãy xác định P (Wi) là xác suất của
thế giới Pi và S (X, Wi) được tính hỗ trợ của X trong Wi thế giới. Hơn nữa, chúng tôi
sử dụng Ti, j để biểu thị tập hợp các mục mà giao dịch thứ j, tức là, tj, chứa trong
thế giới Wi. Nếu chúng ta giả định rằng xác suất tồn tại của các đối tượng trong các giao dịch được
xác định thông qua observations2 độc lập, sau đó P (Wi) và dự kiến
hỗ trợ Se (X) của X được cho bởi công thức sau:
P (Wi) =
d
?
k = 1


?
x∈Ti, j
Ptj (x) ·?
∈Ti y, j?
(1 - Ptj (y))


, và (1)
Se (X) =
| W |
?
i = 1
P (Wi) ×
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: