Các vấn đề của việc tìm kiếm bất thường (bất thường, tiểu thuyết, lệch lạc, bất thường) chuỗi thời gian gần đây đã thu hút nhiều sự chú ý. Các khu vực thường được khám phá như chuỗi thời gian bất thường
, ví dụ, chẩn đoán lỗi, phát hiện xâm nhập, và làm sạch dữ liệu. Tuy nhiên, có những ứng dụng thú vị nhưng không phổ biến nhiều khác quá. Ví dụ, gần đây một
bài báo cho thấy rằng việc tìm kiếm chuỗi thời gian bất thường trong bộ dữ liệu tài chính có thể được sử dụng để cho phép
đa dạng hóa danh mục đầu tư, do đó rất cần thiết cho việc giảm danh mục đầu tư
biến động [100].
20
Mặc dù tầm quan trọng của nó, là phát hiện của chuỗi thời gian bất thường vẫn còn tương đối không được tra cứu khi dữ liệu nằm trên lưu trữ ngoài. Hầu hết các phương pháp tiếp cận hiện chứng minh hiệu quả
phát hiện các bất thường ví dụ, giả sử rằng chuỗi thời gian ở bàn tay có thể phù hợp trong chính
bộ nhớ. Tuy nhiên, đối với nhiều ứng dụng này không phải là trường hợp. Ví dụ, multiterabyte bộ dữ liệu chuỗi thời gian là các chỉ tiêu trong thiên văn học [66], trong khi khối lượng hàng ngày của
các truy vấn web đăng nhập của công cụ tìm kiếm thậm chí còn lớn hơn. Đối mặt với các dữ liệu có quy mô như
các thuật toán hiện tại khu du lịch đến nhiều quét của các phương tiện truyền thông bên ngoài và do đó khó chữa.
Trong chương này, chúng tôi trình bày một đĩa thuật toán nhận thức hiệu quả và hiệu quả đối với khai thác khoáng sản theo chuỗi thời gian bất thường. Thuật toán là chính xác và chỉ đòi hỏi hai lần quét tuyến tính của đĩa với
một bộ đệm nhỏ của bộ nhớ chính. Hơn nữa, nó là đơn giản để thực hiện và không đòi hỏi phải
điều chỉnh nhiều thông số unintuitive. Các phương pháp giới thiệu được sử dụng để cung cấp thêm bằng chứng về các tiện ích của một định nghĩa cụ thể của chuỗi thời gian bất thường, cụ thể là, các
loạt mâu thuẫn thời gian. Hiệu quả của các định nghĩa bất hòa được chứng minh cho các khu vực
khác nhau như thiên văn học, khai thác truy vấn web, giám sát video, vv Cuối cùng, chúng tôi cho thấy
hiệu quả của thuật toán đề xuất trên tập dữ liệu mà rất nhiều đơn đặt hàng của các cường độ lớn hơn
so với bất cứ điều gì khác cố gắng trong văn học . Đặc biệt chúng tôi cho thấy rằng thuật toán của chúng tôi có thể
giải quyết các bộ dữ liệu đa gigabyte có chứa hàng chục triệu của chuỗi thời gian chỉ trong một vài giờ.
21
đang được dịch, vui lòng đợi..