Các wavelet rời rạc (DWT) là một kỹ thuật xử lý tín hiệu tuyến tính rằng,
khi áp dụng cho một vector dữ liệu X, biến nó thành một vector số lượng khác nhau, X
0
, các
hệ số wavelet. Hai vectơ có cùng chiều dài. Khi áp dụng kỹ thuật này
để giảm dữ liệu, chúng tôi xem xét từng tuple như là một vector dữ liệu n-chiều, đó
là, X = (x1, x2, ..., xn), miêu tả n các phép đo được thực hiện trên cơ sở dữ liệu tuple từ n
attributes.3
"làm thế nào kỹ thuật này có thể hữu ích để giảm dữ liệu nếu dữ liệu wavelet chuyển là
chiều dài tương tự như các dữ liệu ban đầu?" sự hữu ích nằm trong thực tế rằng các wavelet
dữ liệu chuyển đổi có thể được rút ngắn. Một xấp xỉ nén các dữ liệu có thể được
giữ lại bằng cách lưu trữ chỉ là một phần nhỏ trong những mạnh nhất của các hệ số wavelet.
Ví dụ, tất cả các hệ số wavelet lớn hơn một ngưỡng định người sử dụng có thể được
giữ lại. Tất cả các hệ số khác được thiết lập là 0. do đó kết quả của biểu diễn dữ liệu là
rất thưa thớt, do đó hoạt động có thể tận dụng lợi thế của dữ liệu thưa thớt là tính toán
rất nhanh nếu thực hiện trong không gian wavelet. Kỹ thuật này còn có tác dụng loại bỏ
tiếng ồn mà không làm mịn ra các tính năng chính của dữ liệu, làm cho nó có hiệu quả cho các dữ liệu
3
Trong ký hiệu của chúng tôi, bất kỳ biến đại diện cho một vector được thể hiện trong phông chữ nghiêng đậm; đo miêu tả
các vector được thể hiện trong phông chữ in nghiêng.
HAN 10 ch03-083-124-9780123814791 2011/06/01 03:16 Trang 101 # 19
3.4 Dữ liệu giảm 101
làm sạch là tốt. Cho một tập các hệ số, một xấp xỉ của các dữ liệu ban đầu có thể được
xây dựng bằng cách áp dụng các nghịch đảo của DWT sử dụng.
Các DWT có liên quan chặt chẽ đến sự đổi Fourier rời rạc (DFT), một xử lý tín hiệu
kỹ thuật liên quan đến sin và cosin. Tuy nhiên, nhìn chung, các DWT đạt được tốt hơn
nén lossy. Đó là, nếu cùng một số các hệ số được giữ lại cho một DWT và
một DFT của một vector dữ liệu nhất định, phiên bản DWT sẽ cung cấp một xấp xỉ chính xác hơn
của dữ liệu gốc. Do đó, đối với một xấp xỉ tương đương, DWT đòi hỏi ít
không gian hơn DFT. Không giống như các DFT, wavelets khá cục bộ trong không gian, góp phần
vào việc bảo tồn các chi tiết của địa phương.
Chỉ có một DFT, nhưng vẫn có một số gia đình của DWTs. Hình 3.4 cho thấy
một số gia đình wavelet. Biến đổi wavelet phổ biến bao gồm các Haar-2, Daubechies-4,
và Daubechies-6. Các thủ tục chung để áp dụng một wavelet rời rạc sử dụng
một thuật toán kim tự tháp thứ bậc mà giảm một nửa lượng dữ liệu ở mỗi lần lặp, kết quả nhanh
tốc độ tính toán. Phương pháp này là như sau:
1. Chiều dài, L, của vector dữ liệu đầu vào phải được một sức mạnh nguyên 2. Tình trạng này
có thể được đáp ứng bằng việc đệm vector dữ liệu với số không cần thiết (L ≥ n).
2. Mỗi biến đổi liên quan đến việc áp dụng hai chức năng. Việc đầu tiên áp dụng một số làm mịn dữ liệu,
chẳng hạn như một khoản tiền hay bình quân gia quyền. Việc thứ hai thực hiện một sự khác biệt trọng,
có tác dụng để đưa ra các tính năng chi tiết của dữ liệu.
3. Hai chức năng này được áp dụng cho các cặp điểm dữ liệu trong X, có nghĩa là, để tất cả các cặp
số (x2i
, x2i + 1). Điều này dẫn đến hai bộ dữ liệu có độ dài L / 2. Nhìn chung,
các đại diện cho một phiên bản được làm nhẵn hoặc tần số thấp của các dữ liệu đầu vào và highfrequency
nội dung của nó, tương ứng.
4. Hai chức năng được đệ quy áp dụng cho các bộ dữ liệu thu được trong các trước
vòng lặp, cho đến khi các bộ dữ liệu kết quả thu được có chiều dài 2.
5. Giá trị được lựa chọn từ các bộ dữ liệu thu được trong các lần lặp lại trước đó được chỉ định
các hệ số wavelet của dữ liệu chuyển đổi.
0 2 4 6
0,8
0,6
0,4
0,2
0,0
1,0 0,5 0,0 0,5
(một) Haar-2 (b) Daubechies-4
1.0 1.5 2.0
0.6
0.4
0.2
0.0
Hình 3.4 Ví dụ về gia đình wavelet. Số bên cạnh một tên wavelet là số biến mất
khoảnh khắc của wavelet. Đây là một tập hợp các mối quan hệ toán học rằng các hệ số phải
đáp ứng và có liên quan đến số lượng các hệ số.
HAN 10 ch03-083-124-9780123814791 2011/06/01 03:16 Page 102 # 20
102 Chương 3 dữ liệu tiền xử lý
tương đương, một phép nhân ma trận có thể được áp dụng cho các dữ liệu đầu vào để
có được các hệ số wavelet, nơi ma trận sử dụng phụ thuộc vào DWT nhất định. Các
ma trận phải trực giao, có nghĩa là các cột là đơn vị vectơ và lẫn nhau
trực giao, để nghịch đảo ma trận chỉ là transpose của nó. Mặc dù chúng tôi không có
phòng để thảo luận về nó ở đây, khách sạn này cho phép việc xây dựng lại các dữ liệu từ
các tập dữ liệu mịn và trơn khác biệt. Bằng cách phân ma trận sử dụng vào một sản phẩm của
một vài ma trận thưa thớt, kết quả "nhanh DWT" thuật toán có độ phức tạp O (n) cho
một vector đầu vào có độ dài n.
Biến đổi Wavelet có thể được áp dụng cho dữ liệu đa chiều như một khối dữ liệu . Điều này
được thực hiện bằng cách đầu tiên áp dụng các biến đổi đến chiều đầu tiên, sau đó đến lần thứ hai, và do đó
trên. Các tính toán phức tạp có liên quan là tuyến tính đối với số lượng tế bào với
trong khối lập phương. Biến đổi Wavelet cho kết quả tốt trên thưa thớt hoặc sk
đang được dịch, vui lòng đợi..
