Pattern Đại diện 1. Cấu trúc dữ liệu cho biểu mẫu 2. Gần đo 3. Kích thước của mẫu 4. Abstractions của tập dữ liệu 5. khai thác năng tuyến tính biệt thức Fisher Phân tích thành phần chính (PCA) lựa chọn 6. Tính năng 7. Đánh giá phân loại một mô hình là một đối tượng vật lý hoặc một khái niệm trừu tượng. Tùy thuộc vào vấn đề phân loại, tính năng phân biệt của mô hình được sử dụng. Những tính năng này được gọi là các thuộc tính. Một mô hình là các đại diện của một đối tượng bằng các giá trị được thực hiện bởi các thuộc tính. Sự lựa chọn của các thuộc tính và các đại diện của mẫu là bước rất quan trọng trong mô hình phân loại. Một biểu diễn tốt là một trong đó sử dụng phân biệt các thuộc tính và cũng làm giảm gánh nặng tính toán trong mô hình phân loại. Patterns là vectơ Mỗi phần tử của vector có thể đại diện cho một thuộc tính của mô hình. Ví dụ: đối tượng quả cầu, (30, 1) đại diện cho một đối tượng hình cầu với 30 đơn vị trọng lượng và 1 đơn vị đường kính. Một tập các mô hình. 1.0, 1.0, 1 1.0, 2.0, 1 2.0, 1.0, 1 2.0, 2.0, 1 4.0, 1.0, 2 5.0, 1.0, 2 4.0, 2.0, 2 5.0, 2.0, 2 1.0 , 4.0, 2 1.0, 5.0, 2 2.0, 4.0, 2 2.0, 5.0, 2 4.0, 4.0, 1 5.0, 5.0, 1 4.0, 5.0, 1 5.0, 4.0, 1 Yếu tố thứ ba cung cấp cho các lớp của mô hình. các chuỗi có thể được xem như một câu trong một ngôn ngữ. Ví dụ 1:. một chuỗi DNA hoặc protein chuỗi một gen có thể được định nghĩa là một vùng của DNA nhiễm sắc thể được xây dựng với 4 đạm căn cứ: Adeline, guanine, cytosine và thymine, được gọi bằng A, G, C và T. một dữ liệu gen được sắp xếp theo một trình tự, chẳng hạn như: GAAGTCCAG ... 25,1750 25,2250 25,2500 25,2500 25,2750 25,3250 một chuỗi thời gian là một chuỗi các số thực đo tại bằng thời gian khoảng thời gian. Ví dụ : Financial 25,3500 25,3500 25,4000 25,4000 25,3250 25,2250 25,2000 25,1750 .. .. 24,6250 24,6750 24,6750 24,6250 24,6250 29 28 27 26 25 24 23 0 50 100 150 200 250 300 350 400 450 500 chuỗi thời gian, khoa học theo chuỗi thời gian 24,6250 Hình 2.1 Một chuỗi thời gian về giá của một cổ phiếu 24,6750 24,7500 các mẫu có thể được biểu diễn như là một mô tả logic của dạng (x1 = a1 ... a2) (x2 = b1 ... b2) ... nơi x1 và x2 là các thuộc tính của các mô hình và ai và bi là các giá trị thực hiện bởi các thuộc tính. Mô tả này bao gồm một kết hợp của mô tả logic. Ví dụ: (color = red trắng) (làm = da) (hình dạng = cầu) để đại diện cho một quả bóng cricket. Cây dữ liệu phổ biến cấu trúc để biểu diễn các mô hình và mô hình lớp học. Mỗi nút trong cây có thể đại diện cho một hoặc nhiều mẫu. R-tree và cây kd là một ví dụ về điều này. R-cây đại diện cho các mẫu trong một cấu trúc cây mà chia không gian thành hệ thống dọc lồng nhau và có thể chồng chéo hình chữ nhật bounding tối thiểu (MBRs). chúng tôi có thể tiếp tục đệ quy MBRs nhóm vào MBRs lớn hơn .... Hình 2.2 Bounding vùng tối thiểu Mỗi nút của R-tree có một số mục. Một nút lá không lưu trữ một cách để xác định các nút và MBR của tất cả các mục của nút đó là hậu duệ của nó. R10 R11 Hình 2.3 R-tree R12 nút dữ liệu có chứa điểm Một số hoạt động quan trọng trên R-tree được cập nhật ( chèn, xóa) của cây để phản ánh những thay đổi cần thiết và tìm kiếm của cây để xác định vị trí các láng giềng gần nhất của một mô hình nhất định. Chen và xóa các thuật toán sử dụng MBRs từ các nút để đảm bảo rằng các yếu tố gần đó được đặt trong lá cùng nút. Tìm kiếm khai thác MBRs để quyết định có hay không để tìm kiếm bên trong một nút. Bằng cách này, hầu hết các nút trong cây không cần phải tìm kiếm. Để để phân loại mô hình, họ cần phải so sánh với nhau và chống lại một tiêu chuẩn. Khi một mô hình mới là hiện tại và chúng ta cần phải phân loại nó, gần nhau của mô hình này để các mẫu trong tập huấn luyện là để được tìm thấy. trong học không giám sát, nó cần thiết để tìm thấy một số nhóm trong các dữ liệu để mô hình mà là tương tự được đặt lại với nhau. Một số biện pháp tương tự và không giống nhau có thể được sử dụng. Một biện pháp khoảng cách được sử dụng để tìm sự khác nhau giữa các thể hiện mô hình. Patterns mà là tương tự nên có thêm gần gũi hơn. Một hàm khoảng cách có thể là một số liệu hoặc không thuộc hệ mét. Một số liệu là một biện pháp mà các thuộc tính sau giữ: 1. Phản xạ tích cực: d (x, x) = 0 2. đối xứng: d (x, y) = d (y, x) 3. Tam giác bất đẳng thức: d (x, y) d (x, z) + d (z, y) Khoảng cách số liệu phổ biến được gọi là số liệu Minkowski có dạng d m (X, Y) | xk k 1 yk 1 m m | Khi m = 1 nó được gọi là khoảng cách Manhattan hoặc L1 khoảng cách. Phổ biến nhất là khoảng cách Euclide hay L2 khoảng cách khi m = 2. d 2 (X, Y) Ví dụ: X = (4, 1, 3) và Y = (2, 5, 1), khoảng cách Euclide: d 2 (X, Y) 4,9 weighted cách đo khoảng cách số liệu có trọng là của cho
đang được dịch, vui lòng đợi..
