The computation is done by intersection of the TID sets of the frequen dịch - The computation is done by intersection of the TID sets of the frequen Việt làm thế nào để nói

The computation is done by intersec

The computation is done by intersection of the TID sets of the frequent k-itemsets to compute the TID sets of the corresponding (k + 1)-itemsets. This process repeats, with k incremented by 1 each time, until no frequent itemsets or candidate itemsets can be found.
Besides taking advantage of the Apriori property in the generation of candidate (k + 1)-itemset from frequent k-itemsets, another merit of this method is that there is no need to scan the database to find the support of (k + 1)-itemsets (for k ≥ 1). This is because the TID set of each k-itemset carries the complete information required for counting such support. However, the TID sets can be quite long, taking substantial memory space as well as computation time for intersecting the long sets.
To further reduce the cost of registering long TID sets, as well as the subsequent costs of intersections, we can use a technique called diffset, which keeps track of only the differences of the TID sets of a (k + 1)-itemset and a corresponding k-itemset. For instance, in Example 6.6 we have {I1} = {T100, T400, T500, T700, T800, T900} and {I1, I2} = {T100, T400, T800, T900}. The diffset between the two is diffset ({I1, I2}, {I1}) =
{T500, T700}. Thus, rather than recording the four TIDs that make up the intersection of
{I1} and {I2}, we can instead use diffset to record just two TIDs, indicating the difference between {I1} and {I1, I2}. Experiments show that in certain situations, such as when the data set contains many dense and long patterns, this technique can substantially reduce the total cost of vertical format mining of frequent itemsets.


6.2.6 Mining Closed and Max Patterns
In Section 6.1.2 we saw how frequent itemset mining may generate a huge number of frequent itemsets, especially when the min sup threshold is set low or when there exist long patterns in the data set. Example 6.2 showed that closed frequent itemsets9 can substantially reduce the number of patterns generated in frequent itemset mining while preserving the complete information regarding the set of frequent itemsets. That is, from the set of closed frequent itemsets, we can easily derive the set of frequent itemsets and their support. Thus, in practice, it is more desirable to mine the set of closed frequent itemsets rather than the set of all frequent itemsets in most cases.
“How can we mine closed frequent itemsets?” A naïve approach would be to first mine the complete set of frequent itemsets and then remove every frequent itemset that is a proper subset of, and carries the same support as, an existing frequent itemset. However, this is quite costly. As shown in Example 6.2, this method would have to first derive 2100 − 1 frequent itemsets to obtain a length-100 frequent itemset, all before it could begin to eliminate redundant itemsets. This is prohibitively expensive. In fact, there exist
only a very small number of closed frequent itemsets in Example 6.2’s data set.
A recommended methodology is to search for closed frequent itemsets directly dur- ing the mining process. This requires us to prune the search space as soon as we

9Remember that X is a closed frequent itemset in a data set S if there exists no proper super-itemset Y
such that Y has the same support count as X in S, and X satisfies minimum support.

0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Tính toán được thực hiện bởi các giao điểm của bộ TID k thường xuyên-itemsets để tính toán bộ TID tương ứng (k + 1)-itemsets. Quá trình này lặp đi lặp lại, với k incremented bởi 1 mỗi thời gian, cho đến khi không có thường xuyên itemsets hay itemsets ứng cử viên có thể được tìm thấy.Bên cạnh đó lợi dụng các tài sản Apriori trong thế hệ của ứng cử viên (k + 1) - itemset từ thường xuyên k-itemsets, một ưu điểm của phương pháp này là rằng không có cần phải quét cơ sở dữ liệu để tìm kiếm sự hỗ trợ của (k + 1) - itemsets (cho k ≥ 1). Điều này là bởi vì bộ TID mỗi itemset k mang đầy đủ thông tin cần thiết cho tính hỗ trợ như vậy. Tuy nhiên, bộ TID có thể khá dài, việc đáng kể bộ nhớ không gian cũng như tính toán thời gian cho giao nhau bộ dài.Để giảm bớt chi phí đăng ký lâu TID bộ, cũng như các chi phí tiếp theo của nút giao thông, chúng tôi có thể sử dụng một kỹ thuật được gọi là diffset, theo dõi của chỉ là những khác biệt về bộ TID một (k + 1)-itemset và một k-itemset tương ứng. Ví dụ: trong ví dụ 6.6 hiện có {I1} = {T100, T400, T500, T700, T800, T900} và {I1, I2} = {T100, T400, T800, T900}. Diffset giữa hai là diffset ({I1, I2}, {I1}) ={T500, T700}. Vì vậy, thay vì ghi âm TIDs 4 tạo nên các giao điểm của{I1} và {I2}, chúng tôi có thể thay vì sử dụng diffset để ghi lại chỉ hai TIDs, chỉ ra sự khác biệt giữa {I1} và {I1, I2}. Thí nghiệm cho thấy rằng trong các tình huống nhất định, chẳng hạn như khi tập hợp dữ liệu chứa nhiều mẫu dày và dài, kỹ thuật này có thể làm giảm đáng kể tổng chi phí khai thác định dạng thẳng đứng của itemsets thường xuyên.6.2.6 khai thác mô hình khép kín và tối đaTrong phần 6.1.2 chúng tôi đã thấy làm thế nào thường xuyên itemset khai thác có thể tạo ra một số lượng lớn các itemsets thường xuyên, đặc biệt là khi ngưỡng sup min được đặt thấp hoặc khi có tồn tại lâu dài các mẫu trong bộ dữ liệu. Ví dụ 6.2 cho thấy rằng itemsets9 thường xuyên đóng cửa có thể đáng kể giảm số lượng các mô hình được tạo ra trong khai thác mỏ itemset thường xuyên trong khi bảo quản đầy đủ thông tin liên quan đến các thiết lập của itemsets thường xuyên. Có nghĩa là, từ các thiết lập của itemsets thường xuyên đóng cửa, chúng tôi có thể dễ dàng lấy được bộ itemsets thường xuyên và hỗ trợ của họ. Vì vậy, trong thực tế, nó là hơn mong muốn để khai thác tập đóng itemsets thường xuyên hơn là các thiết lập của tất cả các itemsets thường xuyên trong hầu hết trường hợp."Làm thế nào có thể chúng tôi đóng cửa thường xuyên itemsets?" Một cách tiếp cận ngây thơ sẽ lần đầu tiên khai thác bộ hoàn chỉnh các itemsets thường xuyên và sau đó loại bỏ mọi itemset thường xuyên là một nhóm nhỏ thích hợp, và mang cùng hỗ trợ như là một thường xuyên itemset sẵn có. Tuy nhiên, điều này là khá tốn kém. Như minh hoạ trong ví dụ 6.2, phương pháp này sẽ có lần đầu tiên lấy được 2100 − 1 thường xuyên itemsets để có được một itemset thường xuyên chiều dài-100, tất cả trước khi nó có thể bắt đầu để loại bỏ dư thừa itemsets. Điều này là tốn đắt. Trong thực tế, có tồn tạichỉ một số rất nhỏ của itemsets thường xuyên đóng cửa trong tập dữ liệu ví dụ 6.2.Một phương pháp được đề nghị là để tìm kiếm đóng cửa thường xuyên itemsets trực tiếp dur-ing khai thác quá trình. Điều này đòi hỏi chúng ta để prune không gian tìm kiếm ngay sau khi chúng tôi9Remember rằng X là một itemset thường xuyên đóng cửa trong một tập hợp dữ liệu S nếu có tồn tại không có Y super-itemset thích hợpnhư vậy Y đã cùng hỗ trợ đếm như X trong S, và X thỏa mãn hỗ trợ tối thiểu.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Việc tính toán được thực hiện bằng giao điểm của các bộ TID của thường xuyên k-tập phổ biến để tính toán các bộ TID của tương ứng (k + 1) -itemsets. Quá trình này lặp đi lặp lại, với k tăng thêm 1 mỗi lần, cho đến khi không tập phổ biến hoặc tập phổ biến ứng cử viên có thể được tìm thấy.
Bên cạnh đó lợi dụng tài sản Apriori trong thế hệ của ứng viên (k + 1) -itemset từ thường xuyên k-tập phổ biến, công đức khác của phương pháp này là không có nhu cầu để quét các cơ sở dữ liệu để tìm sự hỗ trợ của (k + 1) -itemsets (k ≥ 1). Điều này là do các bộ TID của mỗi k-itemset mang đầy đủ thông tin cần thiết để tính hỗ trợ như vậy. Tuy nhiên, các bộ TID có thể khá lâu, lấy không gian bộ nhớ đáng kể cũng như thời gian tính toán cho giao nhau các bộ dài.
Để giảm hơn nữa chi phí đăng ký bộ TID dài, cũng như các chi phí tiếp theo của nút giao thông, chúng ta có thể sử dụng một kỹ thuật gọi diffset, mà theo dõi các chỉ sự khác nhau của các bộ TID của một (k + 1) -itemset và k-itemset tương ứng. Ví dụ, trong ví dụ 6.6, chúng tôi có {I1} = {T100, T400, T500, T700, T800, T900} và {I1, I2} = {T100, T400, T800, T900}. Các diffset giữa hai là diffset ({I1, I2}, {I1}) =
{T500, T700}. Như vậy, thay vì ghi bốn TIDs tạo nên các giao điểm của
{I1} và {} I2, chúng ta có thể sử dụng thay thế diffset để ghi lại chỉ hai TIDs, cho thấy sự khác biệt giữa {I1} và {I1, I2}. Các thí nghiệm cho thấy, trong những tình huống nhất định, chẳng hạn như khi tập dữ liệu có chứa nhiều mẫu dày và dài, kỹ thuật này có thể làm giảm đáng kể tổng chi phí khai thác định dạng theo chiều dọc của tập phổ biến.


6.2.6 Khai thác Closed và Max Patterns
Trong phần 6.1.2, chúng tôi thấy như thế nào thường xuyên khai thác tập phổ biến có thể tạo ra một số lượng lớn các tập phổ biến, đặc biệt là khi các ngưỡng min sup được thiết lập thấp hoặc khi có tồn tại mô hình dài trong tập dữ liệu. Ví dụ 6.2 cho thấy đóng thường xuyên itemsets9 có thể làm giảm đáng kể số lượng các mô hình tạo ra trong khai thác tập phổ biến trong khi vẫn giữ các thông tin đầy đủ về các thiết lập của tập phổ biến. Đó là, từ tập các tập phổ biến đóng, chúng ta có thể dễ dàng lấy được các thiết lập của tập phổ biến và hỗ trợ của họ. Vì vậy, trong thực tế, đó là mong muốn nhiều hơn để khai thác các thiết lập của tập phổ biến đóng hơn là tập tất cả các tập phổ biến trong hầu hết các trường hợp.
"Làm thế nào chúng ta có thể khai thác đóng tập phổ biến?" Một cách tiếp cận ngây thơ sẽ là mỏ đầu tiên các bộ hoàn chỉnh của tập phổ biến và sau đó loại bỏ tất cả các tập phổ biến đó là một tập hợp con đúng, và thực sự hỗ trợ tương tự như, một tập phổ biến hiện nay. Tuy nhiên, điều này là khá tốn kém. Như thể hiện trong ví dụ 6.2, phương pháp này sẽ phải đầu tiên lấy được 2100-1 tập phổ biến để có được một chiều dài 100 tập phổ biến, tất cả trước khi nó có thể bắt đầu để loại bỏ tập phổ biến dư thừa. Đây là tốn kém. Trong thực tế, có tồn tại
chỉ có một số lượng rất nhỏ của tập phổ biến đóng trong tập dữ liệu Ví dụ 6.2 của.
Một phương pháp được khuyến cáo là để tìm kiếm các tập phổ biến đóng trực tiếp dur- ing quá trình khai thác. Điều này đòi hỏi chúng ta phải tỉa không gian tìm kiếm ngay khi chúng tôi

9Remember rằng X là một tập phổ biến đóng trong một bộ dữ liệu S nếu có tồn tại không thích hợp siêu itemset Y
như rằng Y có tính hỗ trợ tương tự như X trong S và X thỏa mãn hỗ trợ tối thiểu.

đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: