DIP 6620 mùa xuân năm 2004 Dự án cuối cùng giấy 1 Tóm tắt-Đây là một giấy xét của các thuật toán phù hợp với khối sử dụng cho đánh giá chuyển động trong nén video. Nó thực hiện và so sánh 7 loại khác nhau của các thuật toán khối kết hợp đa dạng từ các tiêts kiếm rất cơ bản cho các thuật toán thích nghi nhanh chóng gần đây như thích ứng Rood Pattern Search. Các thuật toán được đánh giá trong báo cáo này được chấp nhận rộng rãi bởi cộng đồng video nén và đã được sử dụng trong việc thực hiện các tiêu chuẩn khác nhau, dao động từ MPEG1 / H.261 để MPEG4 / H.263. Tờ báo cũng trình bày một giới thiệu rất ngắn gọn để toàn bộ dòng chảy của nén video. Index Terms- Khối khớp, ước lượng chuyển động, nén video, MPEG, H.261, H.263 I. GIỚI THIỆU ITH sự ra đời của thời đại đa phương tiện và sự lan truyền của Internet, lưu trữ video trên đĩa CD / DVD và video streaming đã đạt được rất nhiều phổ biến. ISO Moving Picture Experts Group (MPEG) video mã hóa liên quan đối với lưu trữ video nén trên các phương tiện vật lý như CD / DVD, nơi mà như Liên minh Viễn thông quốc tế (ITU) địa chỉ thời gian thực point-to-point hoặc thông tin liên lạc trên một đa điểm mạng lưới. Trước đây có lợi thế của việc có băng thông cao hơn để truyền dữ liệu. Trong cả hai tiêu chuẩn dòng chảy cơ bản của toàn bộ quá trình compressiondecompression phần lớn là giống nhau và được mô tả trong hình. 1. Đội mã hóa ước tính chuyển động trong khung hình hiện tại đối với một khung trước đó với. Một hình ảnh chuyển động bồi thường cho khung hiện tại sau đó được tạo ra mà được xây dựng bằng các khối hình ảnh từ khung trước đó. Các vector chuyển động cho các khối được sử dụng để ước lượng chuyển động được truyền đi, cũng như sự khác biệt của hình ảnh đền bù với khung hiện hành cũng được mã hóa JPEG và gửi đi. Các hình ảnh được mã hóa được gửi sau đó được giải mã ở các bộ mã hóa và được sử dụng như một khung tham chiếu cho các khung tiếp theo. Các bộ giải mã đảo ngược quá trình và tạo ra một khung hình đầy đủ. Toàn bộ ý tưởng đằng sau dự toán nén hình dựa trên là để tiết kiệm bit bằng cách gửi JPEG hình ảnh khác biệt được mã hóa mà vốn đã có ít năng lượng và có thể được nén cao so với bản thảo đã nhận được ngày 26 tháng Tư, năm 2004. Công trình này được thực hiện như một phần thực hiện để hoàn thành của lớp ECE 6620, xử lý hình ảnh kỹ thuật số, tại Đại học bang Utah. Aroh Barjatya là một sinh viên tốt nghiệp với nợ ECE tại Đại học bang Utah, Logan Utah. 84.322 (điện thoại: 435-881-1616; e-mail: arohb@cc.usu.edu). Gửi một khung hình đầy đủ được mã hóa JPEG. Motion JPEG, nơi mà tất cả các khung được mã hóa JPEG, đạt được bất cứ điều gì từ 10: 1 đến 15: 1 suất nén, nơi mà như MPEG có thể đạt được một tỷ lệ nén 30: 1 và cũng là hữu ích ở 100: 1 tỷ lệ [1] [2] [3]. Cần lưu ý rằng những hình ảnh đầu tiên luôn được gửi đầy đủ, và do đó, là một số khung hình khác có thể xảy ra ở một số khoảng thời gian thường xuyên (như mỗi khung thứ 6). Các tiêu chuẩn này không chỉ định này và điều này có thể thay đổi với mỗi video đang được gửi dựa trên sự năng động của video. Các hoạt động đói tính toán đắt tiền và tài nguyên nhất trong toàn bộ quá trình nén là ước lượng chuyển động. Do đó, lĩnh vực này đã được thấy các hoạt động nghiên cứu và lãi suất cao nhất trong hai thập kỷ qua. Bài viết này thực hiện và đánh giá các thuật toán khối hợp cơ bản từ giữa những năm 1980 đến các thuật toán phù hợp với khối nhanh chóng gần đây của năm 2002. Nó cũng trình bày một nghiên cứu tài liệu trong vài giấy tờ từ 3 năm qua. Các thuật toán đã được thực hiện là tiêts Search (ES), Ba Bước Search (TSS), New Ba Bước Search (NTSS), đơn giản và hiệu quả TSS (SES), Four Bước Search (4SS), Diamond Search (DS), và thích nghi Rood Pattern Search (ARPS). Phần II giải thích khối khớp nói chung và sau đó các thuật toán trên một cách chi tiết. Phần III so sánh chúng và trình bày một số kết quả mô phỏng. Phần IV là một cuộc khảo sát văn học của các thuật toán mới hơn, tiếp theo là tóm tắt và tài liệu tham khảo. Các thuật toán Khối Matching Đối Motion Estimation Aroh Barjatya, Member Sinh viên, IEEE W hình. 1. MPEG / H.26x video nén quá trình dòng chảy. DIP 6620 Dự án cuối cùng mùa xuân 2004 Giấy 2 II. BLOCK MATCHING thuật toán Các giả thiết cơ bản đằng sau ước lượng chuyển động là các mô hình tương ứng với đối tượng và nền tảng trong một khung di chuyển chuỗi video trong khung để hình thành các đối tượng tương ứng trên khung tiếp theo. Ý tưởng đằng sau khối hợp là để chia khung hiện tại vào một ma trận của các 'khối macro' mà sau đó được so sánh với khối tương ứng và các nước láng giềng lân cận của nó trong khung trước đó để tạo ra một vector mà quy định sự chuyển động của một khối vĩ mô từ một địa điểm khác trong khung trước đó. Phong trào này được tính cho tất cả các khối vĩ mô bao gồm một khung hình, tạo các chuyển động được ước tính trong khung hiện tại. Khu vực tìm kiếm cho một trận đấu khối vĩ mô tốt là hạn chế đến p pixel trên bốn chân bên của khối macro tương ứng trong khung trước đó. Đây 'p' được gọi là các tham số tìm kiếm. Chuyển động lớn hơn yêu cầu một p lớn hơn, và các tham số tìm kiếm lớn hơn các quá trình tính toán đắt tiền hơn dự toán chuyển động trở nên. Thông thường các khối vĩ mô được thực hiện như là một vuông mặt 16 điểm ảnh, và các thông số tìm kiếm p là 7 pixels. Ý tưởng này được thể hiện trong hình 2. Việc kết hợp của một khối macro với nhau dựa trên đầu ra của một hàm chi phí. Khối vĩ mô mà kết quả trong chi phí ít nhất là một trong đó phù hợp gần nhất với khối hiện nay. Có chức năng chi phí khác nhau, trong đó phổ biến nhất và ít tính toán đắt tiền là Mean Difference Absolute (MAD) cho bởi phương trình (i). Một chức năng chi phí là Mean Squared Error (MSE) cho bởi phương trình (ii). - = - = = - 1 0 1 0 2 1 N i N j iij j CR N MAD (i) () 21 0 1 0 2 1 - = - = = - N i N j iij j CR N MSE (ii). trong đó N là các bên của các Bock vĩ mô, Cij và Rij là các điểm ảnh được so sánh trong khối vĩ mô hiện tại và tham khảo khối macro, tương ứng Peak-signal- to-Noise-Ratio (PSNR) cho bởi phương trình (iii) đặc trưng của hình ảnh bù chuyển động được tạo ra bằng cách sử dụng các vector chuyển động và đồng hồ vĩ mô từ khung tham chiếu. () = MSE pLog SNR dữ liệu ban đầu của đỉnh cao giá trị toPeak 2 năm 1010 (iii ) A. Đầy đủ Search (ES) Thuật toán này, còn được gọi là Full Search, là thuật toán khối phù hợp với tính toán đắt tiền nhất của tất cả. Thuật toán này tính toán các hàm chi phí tại mỗi địa điểm có thể có trong cửa sổ tìm kiếm. Như là kết quả mà nó tìm thấy phù hợp nhất có thể và cung cấp cho các PSNR cao nhất trong bất kỳ thuật toán khối phù hợp. Khối nhanh các thuật toán phù hợp với cố gắng để đạt được cùng một PSNR ra một chút tính toán càng tốt. Tuy nhiên, nhược để ES là lớn hơn cửa sổ tìm kiếm được các tính toán nhiều hơn nó đòi hỏi. B. Ba Bước Search (TSS) Đây là một trong những nỗ lực đầu tiên tại khối nhanh các thuật toán phù hợp và ngày trở lại vào giữa năm 1980. Ý tưởng chung được thể hiện trong hình 3. Nó bắt đầu với vị trí tìm kiếm tại trung tâm và đặt 'bước kích thước' S = 4, cho một giá trị tham số tìm kiếm thông thường của 7. Sau đó nó tìm kiếm tại tám địa điểm +/- S điểm ảnh xung quanh vị trí (0,0). Từ những chín địa điểm tìm kiếm cho đến nay nó chọn một cho chi phí thấp nhất và làm cho nó là nguồn gốc tìm kiếm mới. Sau đó nó đặt mới kích thước bước S = S / 2, và lặp đi lặp lại tìm kiếm tương tự cho nhiều hơn hai lần lặp lại cho đến khi S = 1. Tại thời điểm mà nó tìm thấy vị trí có chức năng chi phí thấp nhất và khối vĩ mô tại địa điểm đó là phù hợp nhất. Các vector chuyển động tính toán sau đó được lưu truyền. Nó cung cấp cho một căn hộ giảm trong tính toán theo hệ số 9. Vì vậy mà hình. 2. Khối Matching một khối vĩ mô của phụ 16 pixel và một p thông số tìm kiếm của kích thước 7 pixel. Fig. 3. Ba Bước Tìm kiếm thủ tục. Các vector chuyển động là (5, -3). DIP 6620 mùa xuân năm 2004 cuối cùng dự án Giấy 3 cho p = 7, ES sẽ tính toán chi phí cho 225 khối macro trong khi TSS tính chi phí cho 25 khối macro. Ý tưởng đằng sau TSS là bề mặt lỗi do chuyển động trong mỗi khối macro là đơn thức. Một bề mặt đơn thức là một bề mặt bát hình như vậy mà trọng lượng tạo ra bởi các hàm chi phí tăng đều đều từ tối thiểu toàn cầu. C. New Ba Bước Search (NTSS) NTSS [4] cải thiện kết quả TSS bằng cách cung cấp một trung tâm kế hoạch tìm kiếm thiên vị và có quy định cho một nửa đường dừng lại để giảm chi phí tính toán. Đó là một trong những thuật toán nhanh chấp nhận rộng rãi và thường xuyên được sử dụng để thực hiện các tiêu chuẩn trước đó như MPEG 1 và H.261. TSS sử dụng một mô hình kiểm tra được phân bổ đồng đều cho phát hiện chuyển động và dễ bị mất tích chuyển động nhỏ. Quá trình NTSS được minh họa bằng đồ thị trong hình 4. Trong bước đầu tiên 16 điểm được kiểm tra thêm về nguồn gốc tìm kiếm cho trọng lượng thấp nhất bằng cách sử dụng một hàm chi phí. Trong số những địa điểm tìm kiếm bổ sung, 8 là một khoảng cách S = 4 đi (tương tự như TSS) và 8 khác đang ở S = 1 đi từ nguồn gốc tìm kiếm. Nếu chi phí thấp nhất là nguồn gốc sau đó tìm kiếm được dừng lại ngay ở đây và các vector chuyển động được thiết lập như là (0, 0). Nếu cân nặng thấp nhất là tại bất kỳ một trong những địa điểm tại 8 S = 1, sau đó chúng tôi thay đổi nguồn gốc của việc tìm kiếm đến thời điểm đó và kiểm tra trọng lượng liền kề với nó. Tùy thuộc vào thời điểm đó là chúng ta có thể kết thúc việc kiểm tra 5 điểm hoặc 3 điểm (Hình 7 (b) & (c)). Các vị trí đó cho trọng lượng thấp nhất là trận đấu gần nhất và vector chuyển động được đặt vào vị trí đó. Mặt khác nếu trọng lượng thấp nhất sau khi bước đầu tiên là một trong những địa điểm tại 8 S = 4, sau đó chúng tôi thực hiện theo các thủ tục TSS bình thường. Do đó mặc dù quá trình này có thể cần tối thiểu là 17 điểm để kiểm tra từng khối vĩ mô, nó cũng có những trường hợp xấu nhất của 33 địa điểm để kiểm tra. D. Đơn giản và hiệu quả tìm kiếm (SES) SES [5] là một phần mở rộng cho TSS và khai thác các giả định của bề mặt lỗi đơn thức. Ý tưởng chính đằng sau các thuật toán là đối với một bề mặt đơn thức không thể có hai mức tối thiểu theo hướng ngược nhau và do đó việc sửa chữa 8 điểm
đang được dịch, vui lòng đợi..
