Pattern Representation  1. Data s

Pattern Representation

 1. Data structures for pattern representation
 2. Proximity measures
 3. Size of patterns
 4. Abstractions of the data set
 5. Feature extraction
 Fisher’s linear discriminant
 Principal component analysis (PCA)
 6. Feature selection
 7. Evaluation of classifiers

 A pattern is a physical object or an abstraction notion.
 Depending on the classification problem, distinguishing features of the patterns are used. These features are called attributes.
 A pattern is the representation of an object by the values taken by the attributes.
 The choice of attributes and representation of patterns is
very important step in pattern classification.
 A good representation is one which make use of discriminating attributes and also reduces the computational burden in pattern classification.

Patterns as vectors
 Each element of the vector can represent one attribute of the
pattern.
 Example: Spherical objects, (30, 1) represents a spherical object with 30 units of weight and 1 unit diameter.
A set of patterns.
1.0, 1.0, 1 1.0, 2.0, 1 2.0, 1.0, 1
2.0, 2.0, 1 4.0, 1.0, 2 5.0, 1.0, 2
4.0, 2.0, 2 5.0, 2.0, 2 1.0, 4.0, 2
1.0, 5.0, 2 2.0, 4.0, 2 2.0, 5.0, 2
4.0, 4.0, 1 5.0, 5.0, 1 4.0, 5.0, 1
5.0, 4.0, 1
The third element gives the class of the pattern.

 The string may be view as a sentence in a language.
 Example 1: a DNA sequence or protein sequence.
 A gene can be defined as a region of the chromosomal DNA constructed with 4 nitrogenous bases: adeline, guanine, cytosine and thymine, which are referred to by A, G, C and T.
 A gene data is arranged in a sequence, such as: GAAGTCCAG…

25.1750
25.2250
25.2500
25.2500
25.2750
25.3250

A time series is a sequence of real numbers measured at equal time intervals.
Examples: Financial

25.3500
25.3500
25.4000
25.4000
25.3250
25.2250
25.2000
25.1750
..
..
24.6250
24.6750
24.6750
24.6250
24.6250

29

28

27

26

25

24

23
0 50 100 150 200 250 300 350 400 450 500

time series, scientific
time series

24.6250

Figure 2.1 A time series about prices of a stock

24.6750
24.7500

 Patterns can be represented as a logical description of
the form
(x1 = a1…a2)  (x2 = b1…b2)  …
where x1 and x2 are the attributes of the pattern and ai
and bi are the values taken by the attribute.
 This description consists of a conjunction of logical description.
 Example:
(color = red  white)  (make = leather)  (shape =
sphere)
to represent a cricket ball.

Trees are popular data structures for representing patterns and patterns classes. Each node in the tree may represent one or more patterns.
The R-tree and k-d tree are example of this.

The R-tree represents patterns in a tree structure which splits space into hierarchically nested and possibly overlapping minimum bounding rectangles (MBRs).

We can further recursively group MBRs into larger MBRs….

Figure 2.2 Minimum Bounding Regions

Each node of an R-tree has a number of entries. A non-leaf node stores a way of identifying the node and the MBR of all entries of nodes which are its descendants.

R10 R11

Figure 2.3 R-tree

R12

Data nodes containing points

 Some of important operations on an R-tree are update (insertion, deletion) of the tree to reflect the necessary changes and searching of the tree to locate the nearest neighbors of a given pattern.
 Insertion and deletion algorithms use the MBRs from the nodes to ensure that the nearby elements are placed in the same leaf node.
 Search exploits the MBRs to decide whether or not to search inside a node. In this way, most of the nodes in the tree need not be searched.

 In order to classify patterns, they need to compared against each other and against a standard.
 When a new pattern is present and we need to classify it, the proximity of this pattern to the patterns in the training set is to be found.
 In unsupervised learning, it’s required to find some groups in the data so that patterns which are similar are put together.
 A number of similarity and dissimilarity measures can be used.

 A distance measure is used to find the dissimilarity between pattern representations. Patterns which are more similar should be closer.
 A distance function could be a metric or a non-metric.
 A metric is a measure for which the following properties
hold:
1. Positive reflexivity: d(x,x) = 0
2. Symmetric: d(x, y) = d(y, x)
3. Triangular inequality: d(x, y)  d(x, z) + d(z, y)

 The popular distance metric called the Minkowski metric is of the form

d m ( X ,Y )


 | xk
 k 1

 yk

1
m  m
| 


When m = 1 it is called the Manhattan distance or L1
distance.
The most popular is the Euclidean distance or the L2
distance when m = 2.

d 2 ( X ,Y ) 

 Example: X = (4, 1, 3) and Y = (2, 5, 1), the Euclidean distance:

d 2 ( X ,Y )   4.9

Weighted Distance Measure
The weighted distance metric is of the for

Pattern Representation

 1. Data structures for pattern representation
 2. Proximity measures
 3. Size of patterns
 4. Abstractions of the data set
 5. Feature extraction
 Fisher’s linear discriminant
 Principal component analysis (PCA)
 6. Feature selection
 7. Evaluation of classifiers

 A pattern is a physical object or an abstraction notion.
 Depending on the classification problem, distinguishing features of the patterns are used. These features are called attributes.
 A pattern is the representation of an object by the values taken by the attributes.
 The choice of attributes and representation of patterns is
very important step in pattern classification.
 A good representation is one which make use of discriminating attributes and also reduces the computational burden in pattern classification.
 
 
Patterns as vectors
 Each element of the vector can represent one attribute of the
pattern.
 Example: Spherical objects, (30, 1) represents a spherical object with 30 units of weight and 1 unit diameter.
A set of patterns.
1.0, 1.0, 1 1.0, 2.0, 1 2.0, 1.0, 1
2.0, 2.0, 1 4.0, 1.0, 2 5.0, 1.0, 2
4.0, 2.0, 2 5.0, 2.0, 2 1.0, 4.0, 2
1.0, 5.0, 2 2.0, 4.0, 2 2.0, 5.0, 2
4.0, 4.0, 1 5.0, 5.0, 1 4.0, 5.0, 1
5.0, 4.0, 1 
The third element gives the class of the pattern.

 The string may be view as a sentence in a language.
 Example 1: a DNA sequence or protein sequence.
 A gene can be defined as a region of the chromosomal DNA constructed with 4 nitrogenous bases: adeline, guanine, cytosine and thymine, which are referred to by A, G, C and T.
 A gene data is arranged in a sequence, such as: GAAGTCCAG…

25.1750
25.2250
25.2500
25.2500
25.2750
25.3250
 
A time series is a sequence of real numbers measured at equal time intervals.
Examples: Financial

25.3500
25.3500
25.4000
25.4000
25.3250
25.2250
25.2000
25.1750
..
..
24.6250
24.6750
24.6750
24.6250
24.6250

23
0 50 100 150 200 250 300 350 400 450 500
 
time series, scientific
time series
 
24.6250
 
Figure 2.1 A time series about prices of a stock
 
 24.6750 
24.7500

 Patterns can be represented as a logical description of
the form
(x1 = a1…a2)  (x2 = b1…b2)  …
where x1 and x2 are the attributes of the pattern and ai
and bi are the values taken by the attribute.
 This description consists of a conjunction of logical description.
 Example:
(color = red  white)  (make = leather)  (shape =
sphere)
to represent a cricket ball.

Trees are popular data structures for representing patterns and patterns classes. Each node in the tree may represent one or more patterns.
The R-tree and k-d tree are example of this.

The R-tree represents patterns in a tree structure which splits space into hierarchically nested and possibly overlapping minimum bounding rectangles (MBRs).

We can further recursively group MBRs into larger MBRs….

Figure 2.2 Minimum Bounding Regions

Each node of an R-tree has a number of entries. A non-leaf node stores a way of identifying the node and the MBR of all entries of nodes which are its descendants.

R10 R11

Figure 2.3 R-tree
 
R12
 
Data nodes containing points

 Some of important operations on an R-tree are update (insertion, deletion) of the tree to reflect the necessary changes and searching of the tree to locate the nearest neighbors of a given pattern.
 Insertion and deletion algorithms use the MBRs from the nodes to ensure that the nearby elements are placed in the same leaf node.
 Search exploits the MBRs to decide whether or not to search inside a node. In this way, most of the nodes in the tree need not be searched.

 In order to classify patterns, they need to compared against each other and against a standard.
 When a new pattern is present and we need to classify it, the proximity of this pattern to the patterns in the training set is to be found.
 In unsupervised learning, it’s required to find some groups in the data so that patterns which are similar are put together.
 A number of similarity and dissimilarity measures can be used.

 A distance measure is used to find the dissimilarity between pattern representations. Patterns which are more similar should be closer.
 A distance function could be a metric or a non-metric.
 A metric is a measure for which the following properties
hold:
1. Positive reflexivity: d(x,x) = 0
2. Symmetric: d(x, y) = d(y, x)
3. Triangular inequality: d(x, y)  d(x, z) + d(z, y)

 The popular distance metric called the Minkowski metric is of the form

d m ( X ,Y )


 | xk
 k 1

 yk
 
1
m  m
| 


When m = 1 it is called the Manhattan distance or L1
distance.
The most popular is the Euclidean distance or the L2
distance when m = 2.

d 2 ( X ,Y ) 

 Example: X = (4, 1, 3) and Y = (2, 5, 1), the Euclidean distance:

d 2 ( X ,Y )   4.9

Weighted Distance Measure
The weighted distance metric is of the for

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Mô hình đại diện  1. Cấu trúc dữ liệu cho mô hình đại diện 2. Các biện pháp vùng lân cận 3. Kích thước của mô hình 4. Abstractions của tập hợp dữ liệu 5. Khai thác tính năng Fisher biệt thức tuyến tính Chính phân tích thành phần (PCA) 6. Lựa chọn tính năng 7. Đánh giá của máy phân loại  A mô hình là một đối tượng vật lý hoặc một khái niệm trừu tượng. tùy thuộc vào vấn đề phân loại, phân biệt các tính năng của các mô hình được sử dụng. Các tính năng này được gọi là các thuộc tính. A mô hình là đại diện của một đối tượng của các giá trị của thuộc tính. Sự lựa chọn của các thuộc tính và đại diện của mô hình làbước rất quan trọng trong mô hình phân loại. Một đại diện tốt là một trong những mà làm cho việc sử dụng thuộc tính phân biệt đối xử và cũng làm giảm gánh nặng tính toán trong mô hình phân loại. Mô hình như vector Từng thành phần của vector có thể đại diện cho một trong những thuộc tính của cácMô hình. Ví dụ: các đối tượng hình cầu, (30, 1) đại diện cho một đối tượng hình cầu với 30 đơn vị trọng lượng và đường kính 1 đơn vị.Một tập hợp các mô hình.1.0, 1.0, 1 1.0, 2.0, 1 2.0, 1.0, 12.0, 2.0, 1 4.0, 1.0, 2 5.0, 1.0, 24,0, 2.0, 2 5.0, 2.0, 2 1.0, 4.0, 21.0, 5.0, 2 2.0, 4.0, 2 2.0, 5.0, 24.0, 4.0, 1 5.0, 5.0, 1 4.0, 5.0, 15.0, 4.0, 1 Các yếu tố thứ ba cho các lớp học của các mô hình.  Chuỗi có thể là xem như là một câu trong một ngôn ngữ. Ví dụ 1: một trình tự ADN hoặc protein chuỗi. A gen có thể được định nghĩa là một vùng của nhiễm sắc thể ADN được xây dựng với 4 căn cứ nitrogenous: adeline, guanine, cytosine và thymine, được gọi bởi A, G, C và T. dữ liệu gen được sắp xếp theo thứ tự, chẳng hạn như: GAAGTCCAG... 25.175025.225025.250025.250025.275025.3250 Một loạt các thời gian là một chuỗi số thực đo ở khoảng thời gian bằng nhau.Ví dụ: tài chính 25.350025.350025.400025.400025.325025.225025.200025.1750....24.625024.675024.675024.625024.6250 292827262524230 50 100 150 200 250 300 350 400 450 500 Chuỗi thời gian, khoa họcChuỗi thời gian 24.6250 Hình 2.1 A thời gian series về mức giá của một cổ phiếu 24.6750 24.7500  Mẫu có thể được biểu diễn như là một mô tả hợp lýCác hình thức(x1 = a1... a2)  (x2 = b1... b2) ...nơi x1 và x2 là các thuộc tính của các mô hình và aivà bi được các giá trị của thuộc tính. Mô tả này bao gồm một kết hợp của các mô tả hợp lý. Ví dụ:(color = red  trắng)  (làm cho = da)  (dạng =hình cầu)đại diện cho một quả bóng cricket. Cây là cấu trúc dữ liệu phổ biến nhất đại diện cho các mẫu và mô hình lớp học. Mỗi nút trong cây có thể đại diện cho một hoặc nhiều mẫu.R-cây và cây k-d là ví dụ về điều này.R-cây đại diện cho các mô hình trong một cấu trúc cây mà chia tách space thành hierarchically lồng nhau và có thể chồng chéo tối thiểu các giáp ranh các hình chữ nhật (MBRs).Chúng tôi có thể tiếp tục đệ quy nhóm MBRs thành lớn hơn MBRs...Hình 2.2 tối thiểu các giáp ranh khu vực Mỗi nút một R-cây này có một số mục. Một nút lá cửa hàng một cách để xác định các nút và MBR của tất cả các mục nút mà là hậu duệ của nó.R10 R11 Con số 2,3 R-cây R12 Dữ liệu các nút có chứa điểm  một số các hoạt động quan trọng trên một R-cây đang Cập Nhật (chèn, xóa) của cây để phản ánh những thay đổi cần thiết và tìm kiếm của cây để xác định vị trí những người hàng xóm gần nhất của một khuôn mẫu nhất định. Các giải thuật chèn và xóa sử dụng MBRs từ các nút để đảm bảo rằng các yếu tố gần đó được đặt trong các nút lá cùng. Tìm khai thác MBRs để quyết định có hay không để tìm kiếm bên trong một nút. Bằng cách này, hầu hết các nút trong cây không cần được tìm kiếm.  để phân loại các mô hình, họ cần phải so sánh với nhau và chống lại một tiêu chuẩn. Khi một mô hình mới có mặt và chúng ta cần phải phân loại nó, gần gũi của mô hình này với các mô hình trong các thiết lập đào tạo là để được tìm thấy. không có giám sát học tập, nó cần thiết để tìm một số nhóm trong dữ liệu, do đó mẫu tương tự được đặt lại với nhau. Một số giống nhau và dissimilarity các biện pháp có thể được sử dụng.  A khoảng cách đo được sử dụng để tìm dissimilarity giữa các mẫu đại diện. Mô hình tương tự như nhiều nên gần gũi hơn. A hàm khoảng cách có thể là một thước đo không số liệu. A metric là một biện pháp mà các thuộc tính sautổ chức:1. tích cực reflexivity: d(x,x) = 02. đối xứng: d (x, y) = d (y, x)3. tam giác bất đẳng thức: d (x, y)  d (x, z) + d (z, y)  Hệ mét khoảng cách phổ biến được gọi là Minkowski metric là các hình thức d m (X, Y)  | XK k 1  yk 1m  m|  Khi m = 1, nó được gọi là khoảng cách Manhattan hoặc L1khoảng cách.Phổ biến nhất là khoảng cách Euclide hoặc L2khoảng cách khi m = 2.d 2 (X, Y)   Ví dụ: X = (4, 1, 3) và Y = (2, 5, 1), khoảng cách Euclid:d 2 (X, Y)   4.9Thước đo khoảng cách trọngThước đo khoảng cách trọng là của các đối

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Pattern Đại diện  1. Cấu trúc dữ liệu cho biểu mẫu  2. Gần đo  3. Kích thước của mẫu  4. Abstractions của tập dữ liệu  5. khai thác năng tuyến tính biệt thức  Fisher  Phân tích thành phần chính (PCA) lựa chọn  6. Tính năng  7. Đánh giá phân loại  một mô hình là một đối tượng vật lý hoặc một khái niệm trừu tượng.  Tùy thuộc vào vấn đề phân loại, tính năng phân biệt của mô hình được sử dụng. Những tính năng này được gọi là các thuộc tính.  Một mô hình là các đại diện của một đối tượng bằng các giá trị được thực hiện bởi các thuộc tính.  Sự lựa chọn của các thuộc tính và các đại diện của mẫu là bước rất quan trọng trong mô hình phân loại.  Một biểu diễn tốt là một trong đó sử dụng phân biệt các thuộc tính và cũng làm giảm gánh nặng tính toán trong mô hình phân loại. Patterns là vectơ  Mỗi phần tử của vector có thể đại diện cho một thuộc tính của mô hình.  Ví dụ: đối tượng quả cầu, (30, 1) đại diện cho một đối tượng hình cầu với 30 đơn vị trọng lượng và 1 đơn vị đường kính. Một tập các mô hình. 1.0, 1.0, 1 1.0, 2.0, 1 2.0, 1.0, 1 2.0, 2.0, 1 4.0, 1.0, 2 5.0, 1.0, 2 4.0, 2.0, 2 5.0, 2.0, 2 1.0 , 4.0, 2 1.0, 5.0, 2 2.0, 4.0, 2 2.0, 5.0, 2 4.0, 4.0, 1 5.0, 5.0, 1 4.0, 5.0, 1 5.0, 4.0, 1 Yếu tố thứ ba cung cấp cho các lớp của mô hình.  các chuỗi có thể được xem như một câu trong một ngôn ngữ.  Ví dụ 1:. một chuỗi DNA hoặc protein chuỗi  một gen có thể được định nghĩa là một vùng của DNA nhiễm sắc thể được xây dựng với 4 đạm căn cứ: Adeline, guanine, cytosine và thymine, được gọi bằng A, G, C và T.  một dữ liệu gen được sắp xếp theo một trình tự, chẳng hạn như: GAAGTCCAG ... 25,1750 25,2250 25,2500 25,2500 25,2750 25,3250 một chuỗi thời gian là một chuỗi các số thực đo tại bằng thời gian khoảng thời gian. Ví dụ : Financial 25,3500 25,3500 25,4000 25,4000 25,3250 25,2250 25,2000 25,1750 .. .. 24,6250 24,6750 24,6750 24,6250 24,6250 29 28 27 26 25 24 23 0 50 100 150 200 250 300 350 400 450 500 chuỗi thời gian, khoa học theo chuỗi thời gian 24,6250 Hình 2.1 Một chuỗi thời gian về giá của một cổ phiếu 24,6750 24,7500  các mẫu có thể được biểu diễn như là một mô tả logic của dạng (x1 = a1 ... a2)  (x2 = b1 ... b2)  ... nơi x1 và x2 là các thuộc tính của các mô hình và ai và bi là các giá trị thực hiện bởi các thuộc tính.  Mô tả này bao gồm một kết hợp của mô tả logic.  Ví dụ: (color = red  trắng)  (làm = da)  (hình dạng = cầu) để đại diện cho một quả bóng cricket. Cây dữ liệu phổ biến cấu trúc để biểu diễn các mô hình và mô hình lớp học. Mỗi nút trong cây có thể đại diện cho một hoặc nhiều mẫu. R-tree và cây kd là một ví dụ về điều này. R-cây đại diện cho các mẫu trong một cấu trúc cây mà chia không gian thành hệ thống dọc lồng nhau và có thể chồng chéo hình chữ nhật bounding tối thiểu (MBRs). chúng tôi có thể tiếp tục đệ quy MBRs nhóm vào MBRs lớn hơn .... Hình 2.2 Bounding vùng tối thiểu Mỗi nút của R-tree có một số mục. Một nút lá không lưu trữ một cách để xác định các nút và MBR của tất cả các mục của nút đó là hậu duệ của nó. R10 R11 Hình 2.3 R-tree R12 nút dữ liệu có chứa điểm  Một số hoạt động quan trọng trên R-tree được cập nhật ( chèn, xóa) của cây để phản ánh những thay đổi cần thiết và tìm kiếm của cây để xác định vị trí các láng giềng gần nhất của một mô hình nhất định.  Chen và xóa các thuật toán sử dụng MBRs từ các nút để đảm bảo rằng các yếu tố gần đó được đặt trong lá cùng nút.  Tìm kiếm khai thác MBRs để quyết định có hay không để tìm kiếm bên trong một nút. Bằng cách này, hầu hết các nút trong cây không cần phải tìm kiếm.  Để để phân loại mô hình, họ cần phải so sánh với nhau và chống lại một tiêu chuẩn.  Khi một mô hình mới là hiện tại và chúng ta cần phải phân loại nó, gần nhau của mô hình này để các mẫu trong tập huấn luyện là để được tìm thấy.  trong học không giám sát, nó cần thiết để tìm thấy một số nhóm trong các dữ liệu để mô hình mà là tương tự được đặt lại với nhau.  Một số biện pháp tương tự và không giống nhau có thể được sử dụng.  Một biện pháp khoảng cách được sử dụng để tìm sự khác nhau giữa các thể hiện mô hình. Patterns mà là tương tự nên có thêm gần gũi hơn.  Một hàm khoảng cách có thể là một số liệu hoặc không thuộc hệ mét.  Một số liệu là một biện pháp mà các thuộc tính sau giữ: 1. Phản xạ tích cực: d (x, x) = 0 2. đối xứng: d (x, y) = d (y, x) 3. Tam giác bất đẳng thức: d (x, y)  d (x, z) + d (z, y)  Khoảng cách số liệu phổ biến được gọi là số liệu Minkowski có dạng d m (X, Y)   | xk  k 1  yk 1 m  m |   Khi m = 1 nó được gọi là khoảng cách Manhattan hoặc L1 khoảng cách. Phổ biến nhất là khoảng cách Euclide hay L2 khoảng cách khi m = 2. d 2 (X, Y)   Ví dụ: X = (4, 1, 3) và Y = (2, 5, 1), khoảng cách Euclide: d 2 (X, Y)   4,9 weighted cách đo khoảng cách số liệu có trọng là của cho

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.