DIP 6620 Spring 2004 Final Project Paper 1  Abstract—This paper is a r dịch - DIP 6620 Spring 2004 Final Project Paper 1  Abstract—This paper is a r Việt làm thế nào để nói

DIP 6620 Spring 2004 Final Project

DIP 6620 Spring 2004 Final Project Paper 1

Abstract—This paper is a review of the block matching algorithms used for motion estimation in video compression. It implements and compares 7 different types of block matching algorithms that range from the very basic Exhaustive Search to the recent fast adaptive algorithms like Adaptive Rood Pattern Search. The algorithms that are evaluated in this paper are widely accepted by the video compressing community and have been used in implementing various standards, ranging from MPEG1 / H.261 to MPEG4 / H.263. The paper also presents a very brief introduction to the entire flow of video compression.
Index Terms— Block matching, motion estimation, video compression, MPEG, H.261, H.263
I. INTRODUCTION ITH the advent of the multimedia age and the spread of Internet, video storage on CD/DVD and streaming video has been gaining a lot of popularity. The ISO Moving Picture Experts Group (MPEG) video coding standards pertain towards compressed video storage on physical media like CD/DVD, where as the International Telecommunications Union (ITU) addresses real-time point-to-point or multi-point communications over a network. The former has the advantage of having higher bandwidth for data transmission. In either standard the basic flow of the entire compressiondecompression process is largely the same and is depicted in Fig. 1. The encoding side estimates the motion in the current frame with respect to a previous frame. A motion compensated image for the current frame is then created that is built of blocks of image from the previous frame. The motion vectors for blocks used for motion estimation are transmitted, as well as the difference of the compensated image with the current frame is also JPEG encoded and sent. The encoded image that is sent is then decoded at the encoder and used as a reference frame for the subsequent frames. The decoder reverses the process and creates a full frame. The whole idea behind motion estimation based video compression is to save on bits by sending JPEG encoded difference images which inherently have less energy and can be highly compressed as compared to
Manuscript received April 26, 2004. This work was done as partial fulfillment for the completion of class ECE 6620, Digital Image Processing, at Utah State University. Aroh Barjatya is a graduate student with the ECE dept at Utah State University, Logan Utah. 84322 (phone: 435-881-1616; e-mail: arohb@cc.usu.edu).
sending a full frame that is JPEG encoded. Motion JPEG, where all frames are JPEG encoded, achieves anything between 10:1 to 15:1 compression ration, where as MPEG can achieve a compression ratio of 30:1 and is also useful at 100:1 ratio [1] [2] [3]. It should be noted that the first frame is always sent full, and so are some other frames that might occur at some regular interval (like every 6th frame). The standards do not specify this and this might change with every video being sent based on the dynamics of the video. The most computationally expensive and resource hungry operation in the entire compression process is motion estimation. Hence, this field has seen the highest activity and research interest in the past two decades. This paper implements and evaluates the fundamental block matching algorithms from the mid-1980s up to the recent fast block matching algorithms of year 2002. It also presents a literature review of few papers from the last 3 years. The algorithms that have been implemented are Exhaustive Search (ES), Three Step Search (TSS), New Three Step Search (NTSS), Simple and Efficient TSS (SES), Four Step Search (4SS), Diamond Search (DS), and Adaptive Rood Pattern Search (ARPS). Section II explains block matching in general and then the above algorithms in detail. Section III compares them and presents some simulation results. Section IV is a literature survey of the more recent algorithms, followed by summary and references.
Block Matching Algorithms For Motion Estimation
Aroh Barjatya, Student Member, IEEE
W Fig. 1. MPEG / H.26x video compression process flow.
DIP 6620 Spring 2004 Final Project Paper 2
II. BLOCK MATCHING ALGORITHMS The underlying supposition behind motion estimation is that the patterns corresponding to objects and background in a frame of video sequence move within the frame to form corresponding objects on the subsequent frame. The idea behind block matching is to divide the current frame into a matrix of ‘macro blocks’ that are then compared with corresponding block and its adjacent neighbors in the previous frame to create a vector that stipulates the movement of a macro block from one location to another in the previous frame. This movement calculated for all the macro blocks comprising a frame, constitutes the motion estimated in the current frame. The search area for a good macro block match is constrained up to p pixels on all fours sides of the corresponding macro block in previous frame. This ‘p’ is called as the search parameter. Larger motions require a larger p, and the larger the search parameter the more computationally expensive the process of motion estimation becomes. Usually the macro block is taken as a square of side 16 pixels, and the search parameter p is 7 pixels. The idea is represented in Fig 2. The matching of one macro block with another is based on the output of a cost function. The macro block that results in the least cost is the one that matches the closest to current block. There are various cost functions, of which the most popular and less computationally expensive is Mean Absolute Difference (MAD) given by equation (i). Another cost function is Mean Squared Error (MSE) given by equation (ii).
− = − = =− 1 0 1 0 2 1 N i N j iij j CR N MAD
(i)
( )21 0 1 0
2 1 − = − = =− N i N j iij j CR N MSE
(ii)
where N is the side of the macro bock, Cij and Rij are the pixels being compared in current macro block and reference macro block, respectively.
Peak-Signal-to-Noise-Ratio (PSNR) given by equation (iii) characterizes the motion compensated image that is created by using motion vectors and macro clocks from the reference frame.
( )

=
MSE
PLog SNR data original of value peak toPeak 2 1010
(iii)
A. Exhaustive Search (ES) This algorithm, also known as Full Search, is the most computationally expensive block matching algorithm of all. This algorithm calculates the cost function at each possible location in the search window. As a result of which it finds the best possible match and gives the highest PSNR amongst any block matching algorithm. Fast block matching algorithms try to achieve the same PSNR doing as little computation as possible. The obvious disadvantage to ES is that the larger the search window gets the more computations it requires. B. Three Step Search (TSS) This is one of the earliest attempts at fast block matching algorithms and dates back to mid 1980s. The general idea is represented in Figure 3. It starts with the search location at the center and sets the ‘step size’ S = 4, for a usual search parameter value of 7. It then searches at eight locations +/- S pixels around location (0,0). From these nine locations searched so far it picks the one giving least cost and makes it the new search origin. It then sets the new step size S = S/2, and repeats similar search for two more iterations until S = 1. At that point it finds the location with the least cost function and the macro block at that location is the best match. The calculated motion vector is then saved for transmission. It gives a flat reduction in computation by a factor of 9. So that
Fig. 2. Block Matching a macro block of side 16 pixels and a search parameter p of size 7 pixels.
Fig. 3. Three Step Search procedure. The motion vector is (5, -3).
DIP 6620 Spring 2004 Final Project Paper 3
for p = 7, ES will compute cost for 225 macro blocks whereas TSS computes cost for 25 macro blocks. The idea behind TSS is that the error surface due to motion in every macro block is unimodal. A unimodal surface is a bowl shaped surface such that the weights generated by the cost function increase monotonically from the global minimum.
C. New Three Step Search (NTSS) NTSS [4] improves on TSS results by providing a center biased searching scheme and having provisions for half way stop to reduce computational cost. It was one of the first widely accepted fast algorithms and frequently used for implementing earlier standards like MPEG 1 and H.261. The TSS uses a uniformly allocated checking pattern for motion detection and is prone to missing small motions. The NTSS process is illustrated graphically in Fig 4. In the first step 16 points are checked in addition to the search origin for lowest weight using a cost function. Of these additional search locations, 8 are a distance of S = 4 away (similar to TSS) and the other 8 are at S = 1 away from the search origin. If the lowest cost is at the origin then the search is stopped right here and the motion vector is set as (0, 0). If the lowest weight is at any one of the 8 locations at S = 1, then we change the origin of the search to that point and check for weights adjacent to it. Depending on which point it is we might end up checking 5 points or 3 points (Fig 7(b) & (c)). The location that gives the lowest weight is the closest match and motion vector is set to that location. On the other hand if the lowest weight after the first step was one of the 8 locations at S = 4, then we follow the normal TSS procedure. Hence although this process might need a minimum of 17 points to check every macro block, it also has the worst-case scenario of 33 locations to check.
D. Simple and Efficient Search (SES) SES [5] is another extension to TSS and exploits the assumption of unimodal error surface. The main idea behind the algorithm is that for a unimodal surface there cannot be two minimums in opposite directions and hence the 8 point fix
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
NHÚNG 6620 mùa xuân năm 2004 cuối cùng dự án giấy 1 Trừu tượng-giấy này là một bài đánh giá của khối kết hợp các thuật toán được sử dụng cho chuyển động dự toán trong nén video. Nó thực hiện và so sánh 7 loại khác nhau của khối kết hợp các thuật toán mà phạm vi từ tìm kiếm đầy đủ rất cơ bản để các thuật toán nhanh chóng thích nghi tại như Rood mô hình tìm kiếm thích ứng. Các thuật toán được đánh giá trong bài báo này được chấp nhận rộng rãi bởi video nén cộng đồng và đã được sử dụng trong việc thực hiện tiêu chuẩn khác nhau, khác nhau, từ MPEG1 / H.261 để MPEG4 / H.263. Giấy cũng trình bày một giới thiệu rất ngắn cho dòng chảy toàn bộ của nén video. Chỉ số điều khoản — Khối kết hợp, chuyển động dự toán, nén video, MPEG, H.261, H.263 I. giới thiệu ITH sự ra đời của tuổi đa phương tiện và sự lây lan của Internet, video lưu trữ trên đĩa CD/DVD và video trực tuyến đã đạt được rất nhiều phổ biến. Nhóm chuyên gia di chuyển hình ảnh ISO (MPEG) tiêu chuẩn mã hóa video liên quan tới nén video lưu trữ trên vật lý phương tiện truyền thông như đĩa CD/DVD, trong trường hợp như quốc tế liên minh Viễn thông (ITU) địa chỉ điểm-điểm thời gian thực hoặc đa điểm truyền thông qua mạng. Các cựu có lợi thế của việc có băng thông cao hơn để truyền dữ liệu. Trong tiêu chuẩn hoặc dòng chảy cơ bản của quá trình toàn bộ compressiondecompression là chủ yếu là giống nhau và được mô tả ở hình 1. Mã hóa bên ước tính chuyển động trong khung hiện tại đối với một khung hình trước. Một hình ảnh chuyển động bồi thường cho khung hình hiện thời sau đó tạo ra đó là xây dựng các khối của hình ảnh từ khung hình trước. Vector chuyển động cho khối được sử dụng cho chuyển động ước tính được truyền đi, cũng như sự khác biệt của hình ảnh bồi thường với khung hình hiện thời cũng là JPEG mã hóa và gửi. Hình ảnh được mã hóa được gửi sau đó giải mã tại các bộ mã hóa và được sử dụng như một khung tham khảo cho các khung hình tiếp theo. Các bộ giải mã đảo ngược quá trình và tạo ra một khung hình đầy đủ. Toàn bộ ý tưởng đằng sau chuyển động ước tính dựa nén video là để tiết kiệm bit bằng cách gửi hình ảnh JPEG mã hóa khác biệt mà vốn có năng lượng ít hơn và có thể được đánh giá cao nén như so với Bản thảo nhận được 26 tháng 4 năm 2004. Việc này được thực hiện như là một phần thực hiện để hoàn thành lớp ECE 6620, kỹ thuật số hình ảnh chế biến, tại Đại học bang Utah. Aroh Barjatya là một sinh viên tốt nghiệp với phòng ECE tại Utah State University, Logan Utah. 84322 (điện thoại: 435-881-1616; thư điện tử: arohb@cc.usu.edu). gửi một khung hình đầy đủ là JPEG mã hóa. Motion JPEG, nơi tất cả các khung là JPEG mã hóa, đạt được bất cứ điều gì giữa 10:1 để 15:1 nén suất ăn, nơi như MPEG có thể đạt được một tỷ lệ nén 30:1 và cũng là hữu ích tại 100: 1 lệ [1] [2] [3]. Cần lưu ý rằng khung đầu tiên là luôn luôn được gửi đầy đủ, và do đó là một số khung hình khác có thể xảy ra tại một số khoảng thời gian thông thường (như mỗi khung 6). Các tiêu chuẩn xác định điều này và điều này có thể thay đổi với mỗi video được gửi dựa trên các động thái của video. Đặt computationally đắt tiền và tài nguyên đói hoạt động trong quá trình nén toàn bộ là chuyển động dự toán. Do đó, lĩnh vực này đã thấy các hoạt động cao nhất và nghiên cứu quan tâm trong hai thập kỷ qua. Bài báo này thực hiện và đánh giá cơ bản khối kết hợp các thuật toán từ giữa thập niên 1980 đến các thuật toán phù hợp với khối nhanh tại năm 2002. Nó cũng trình bày một bài đánh giá văn học của các giấy tờ vài từ 3 năm qua. Các thuật toán đã được thực hiện là tìm kiếm đầy đủ (ES), ba bước tìm (TSS), mới ba bước tìm (NTSS), đơn giản và hiệu quả TSS (SES), bốn bước tìm (4S), tìm kim cương (DS) và thích nghi Rood mẫu tìm (ARPS). Phần II diễn tả khối kết hợp nói chung và sau đó trên các thuật toán chi tiết. Phần III so sánh chúng và trình bày một số kết quả mô phỏng. Phần IV là một cuộc khảo sát văn học của các thuật toán mới hơn, theo sau là bản tóm tắt và tài liệu tham khảo. Chặn kết hợp các thuật toán cho chuyển động dự toán Aroh Barjatya, sinh viên, IEEE W hình 1. MPEG / nén video H.26x xử lý dòng chảy. NHÚNG 6620 mùa xuân năm 2004 cuối cùng dự án giấy 2 II. khối kết hợp giải thuật giả thuyết tiềm ẩn đằng sau dự toán chuyển động là rằng các mô hình tương ứng với các đối tượng và nền tảng trong một khung của video trình tự di chuyển trong khung để tạo thành các đối tượng tương ứng trên khung tiếp theo. Ý tưởng đằng sau khối kết hợp là để chia khung hình hiện thời vào một ma trận của 'vĩ mô khối' mà sau đó được so sánh với khối tương ứng và láng giềng liền kề trong khung hình trước để tạo ra một vector quy định sự chuyển động của một vĩ mô khối từ một địa điểm khác trong khung hình trước. Phong trào này được tính cho tất cả các khối vĩ mô bao gồm một khung, cấu thành chuyển động ước tính trong khung hiện tại. Vùng tìm kiếm cho một trận đấu tốt vĩ mô khối đã được cố định lên đến p điểm ảnh trên bốn chân của cô bên của vĩ mô tương ứng khối trong khung hình trước. Này 'p' được gọi là tham số tìm kiếm. Chuyển động lớn hơn yêu cầu một p lớn hơn và lớn hơn tìm tham số đắt tiền hơn computationally quá trình chuyển động ước tính sẽ trở thành. Thường khối vĩ mô được thực hiện như một hình vuông của bên 16 điểm ảnh, và tìm tham số p là 7 điểm ảnh. Ý tưởng được thể hiện trong hình 2. Phù hợp với một vĩ mô khối với nhau dựa trên đầu ra của một hàm chi phí. Chặn vĩ mô mà kết quả trong ít nhất chi phí là một trong đó phù hợp với khối gần gũi nhất với hiện tại. Không có các chức năng khác nhau của chi phí, trong đó có phổ biến nhất và đắt tiền ít computationally là có nghĩa là tuyệt đối sự khác biệt (MAD) được đưa ra bởi phương trình (i). Một chi phí chức năng là có nghĩa là bình phương lỗi (MSE) được đưa ra bởi phương trình (ii). − = − = = − 1 0 1 0 2 1 N i N j iij j CR N MAD (i) () 21 0 1 02 1 − = − = = − N i N j iij j CR N MSE (ii) N là phía bên bock vĩ mô, Cij và Rij là các điểm ảnh được so sánh trong hiện tại vĩ mô khối và tham chiếu vĩ mô khối, tương ứng. Cao điểm-tín hiệu-để-tiếng ồn-tỷ lệ (PSNR) được đưa ra bởi phương trình (iii) đặc trưng hình ảnh chuyển động bồi thường được tạo ra bằng cách sử dụng chuyển động vector và vĩ mô đồng hồ từ hệ quy chiếu. ( )=MSEPLog SNR dữ liệu gốc của giá trị cao điểm toPeak 2 năm 1010 (iii) A. đầy đủ tìm (ES) thuật toán này, cũng được gọi là tìm kiếm đầy đủ, là đắt tiền nhất computationally khối kết hợp các thuật toán của tất cả. Thuật toán này sẽ tính toán chi phí chức năng ở mỗi vị trí có thể trong cửa sổ tìm kiếm. Kết quả là nó thấy phù hợp nhất có thể và cung cấp cho PSNR cao nhất giữa bất kỳ thuật toán phù hợp với khối. Thuật toán phù hợp với khối nhanh chóng cố gắng để đạt được cùng một PSNR làm như các tính toán ít nhất có thể. Những bất lợi rõ ràng để ES là lớn hơn cửa sổ tìm kiếm được thêm tính toán nó đòi hỏi. Sinh ba bước tìm (TSS) đây là một trong những nỗ lực đầu tiên tại khối nhanh kết hợp các thuật toán và ngày trở lại vào giữa thập niên 1980. Ý tưởng chung đại diện trong hình 3. Nó bắt đầu với vị trí tìm kiếm tại Trung tâm và bộ 'bước kích thước' S = 4, cho một giá trị tham số tìm kiếm thông thường của 7. Nó sau đó tìm kiếm tại các địa điểm tám + /-S pixel xung quanh địa điểm (0,0). Từ các địa điểm chín tìm kiếm cho đến nay nó chọn một cho ít nhất là chi phí và làm cho nó mới tìm nguồn gốc. Nó sau đó đặt kích thước bước mới S = S/2, và lặp đi lặp lại các tìm kiếm tương tự cho lặp đi lặp lại thêm hai cho đến khi S = 1. Vào thời điểm đó nó tìm thấy vị trí với các chức năng ít nhất là chi phí và khối vĩ mô tại vị trí đó là phù hợp nhất. Tính toán chuyển động vector sau đó được lưu truyền. Nó mang lại cho một sự giảm phẳng trong tính toán bởi một nhân tố của 9. Để Hình 2. Khối kết hợp một khối vĩ mô của bên 16 điểm ảnh và một p tham số tìm kích thước 7 pixel. Fig. 3. Three Step Search procedure. The motion vector is (5, -3). DIP 6620 Spring 2004 Final Project Paper 3 for p = 7, ES will compute cost for 225 macro blocks whereas TSS computes cost for 25 macro blocks. The idea behind TSS is that the error surface due to motion in every macro block is unimodal. A unimodal surface is a bowl shaped surface such that the weights generated by the cost function increase monotonically from the global minimum. C. New Three Step Search (NTSS) NTSS [4] improves on TSS results by providing a center biased searching scheme and having provisions for half way stop to reduce computational cost. It was one of the first widely accepted fast algorithms and frequently used for implementing earlier standards like MPEG 1 and H.261. The TSS uses a uniformly allocated checking pattern for motion detection and is prone to missing small motions. The NTSS process is illustrated graphically in Fig 4. In the first step 16 points are checked in addition to the search origin for lowest weight using a cost function. Of these additional search locations, 8 are a distance of S = 4 away (similar to TSS) and the other 8 are at S = 1 away from the search origin. If the lowest cost is at the origin then the search is stopped right here and the motion vector is set as (0, 0). If the lowest weight is at any one of the 8 locations at S = 1, then we change the origin of the search to that point and check for weights adjacent to it. Depending on which point it is we might end up checking 5 points or 3 points (Fig 7(b) & (c)). The location that gives the lowest weight is the closest match and motion vector is set to that location. On the other hand if the lowest weight after the first step was one of the 8 locations at S = 4, then we follow the normal TSS procedure. Hence although this process might need a minimum of 17 points to check every macro block, it also has the worst-case scenario of 33 locations to check. D. Simple and Efficient Search (SES) SES [5] is another extension to TSS and exploits the assumption of unimodal error surface. The main idea behind the algorithm is that for a unimodal surface there cannot be two minimums in opposite directions and hence the 8 point fix
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
DIP 6620 mùa xuân năm 2004 Dự án cuối cùng giấy 1 Tóm tắt-Đây là một giấy xét của các thuật toán phù hợp với khối sử dụng cho đánh giá chuyển động trong nén video. Nó thực hiện và so sánh 7 loại khác nhau của các thuật toán khối kết hợp đa dạng từ các tiêts kiếm rất cơ bản cho các thuật toán thích nghi nhanh chóng gần đây như thích ứng Rood Pattern Search. Các thuật toán được đánh giá trong báo cáo này được chấp nhận rộng rãi bởi cộng đồng video nén và đã được sử dụng trong việc thực hiện các tiêu chuẩn khác nhau, dao động từ MPEG1 / H.261 để MPEG4 / H.263. Tờ báo cũng trình bày một giới thiệu rất ngắn gọn để toàn bộ dòng chảy của nén video. Index Terms- Khối khớp, ước lượng chuyển động, nén video, MPEG, H.261, H.263 I. GIỚI THIỆU ITH sự ra đời của thời đại đa phương tiện và sự lan truyền của Internet, lưu trữ video trên đĩa CD / DVD và video streaming đã đạt được rất nhiều phổ biến. ISO Moving Picture Experts Group (MPEG) video mã hóa liên quan đối với lưu trữ video nén trên các phương tiện vật lý như CD / DVD, nơi mà như Liên minh Viễn thông quốc tế (ITU) địa chỉ thời gian thực point-to-point hoặc thông tin liên lạc trên một đa điểm mạng lưới. Trước đây có lợi thế của việc có băng thông cao hơn để truyền dữ liệu. Trong cả hai tiêu chuẩn dòng chảy cơ bản của toàn bộ quá trình compressiondecompression phần lớn là giống nhau và được mô tả trong hình. 1. Đội mã hóa ước tính chuyển động trong khung hình hiện tại đối với một khung trước đó với. Một hình ảnh chuyển động bồi thường cho khung hiện tại sau đó được tạo ra mà được xây dựng bằng các khối hình ảnh từ khung trước đó. Các vector chuyển động cho các khối được sử dụng để ước lượng chuyển động được truyền đi, cũng như sự khác biệt của hình ảnh đền bù với khung hiện hành cũng được mã hóa JPEG và gửi đi. Các hình ảnh được mã hóa được gửi sau đó được giải mã ở các bộ mã hóa và được sử dụng như một khung tham chiếu cho các khung tiếp theo. Các bộ giải mã đảo ngược quá trình và tạo ra một khung hình đầy đủ. Toàn bộ ý tưởng đằng sau dự toán nén hình dựa trên là để tiết kiệm bit bằng cách gửi JPEG hình ảnh khác biệt được mã hóa mà vốn đã có ít năng lượng và có thể được nén cao so với bản thảo đã nhận được ngày 26 tháng Tư, năm 2004. Công trình này được thực hiện như một phần thực hiện để hoàn thành của lớp ECE 6620, xử lý hình ảnh kỹ thuật số, tại Đại học bang Utah. Aroh Barjatya là một sinh viên tốt nghiệp với nợ ECE tại Đại học bang Utah, Logan Utah. 84.322 (điện thoại: 435-881-1616; e-mail: arohb@cc.usu.edu). Gửi một khung hình đầy đủ được mã hóa JPEG. Motion JPEG, nơi mà tất cả các khung được mã hóa JPEG, đạt được bất cứ điều gì từ 10: 1 đến 15: 1 suất nén, nơi mà như MPEG có thể đạt được một tỷ lệ nén 30: 1 và cũng là hữu ích ở 100: 1 tỷ lệ [1] [2] [3]. Cần lưu ý rằng những hình ảnh đầu tiên luôn được gửi đầy đủ, và do đó, là một số khung hình khác có thể xảy ra ở một số khoảng thời gian thường xuyên (như mỗi khung thứ 6). Các tiêu chuẩn này không chỉ định này và điều này có thể thay đổi với mỗi video đang được gửi dựa trên sự năng động của video. Các hoạt động đói tính toán đắt tiền và tài nguyên nhất trong toàn bộ quá trình nén là ước lượng chuyển động. Do đó, lĩnh vực này đã được thấy các hoạt động nghiên cứu và lãi suất cao nhất trong hai thập kỷ qua. Bài viết này thực hiện và đánh giá các thuật toán khối hợp cơ bản từ giữa những năm 1980 đến các thuật toán phù hợp với khối nhanh chóng gần đây của năm 2002. Nó cũng trình bày một nghiên cứu tài liệu trong vài giấy tờ từ 3 năm qua. Các thuật toán đã được thực hiện là tiêts Search (ES), Ba Bước Search (TSS), New Ba Bước Search (NTSS), đơn giản và hiệu quả TSS (SES), Four Bước Search (4SS), Diamond Search (DS), và thích nghi Rood Pattern Search (ARPS). Phần II giải thích khối khớp nói chung và sau đó các thuật toán trên một cách chi tiết. Phần III so sánh chúng và trình bày một số kết quả mô phỏng. Phần IV là một cuộc khảo sát văn học của các thuật toán mới hơn, tiếp theo là tóm tắt và tài liệu tham khảo. Các thuật toán Khối Matching Đối Motion Estimation Aroh Barjatya, Member Sinh viên, IEEE W hình. 1. MPEG / H.26x video nén quá trình dòng chảy. DIP 6620 Dự án cuối cùng mùa xuân 2004 Giấy 2 II. BLOCK MATCHING thuật toán Các giả thiết cơ bản đằng sau ước lượng chuyển động là các mô hình tương ứng với đối tượng và nền tảng trong một khung di chuyển chuỗi video trong khung để hình thành các đối tượng tương ứng trên khung tiếp theo. Ý tưởng đằng sau khối hợp là để chia khung hiện tại vào một ma trận của các 'khối macro' mà sau đó được so sánh với khối tương ứng và các nước láng giềng lân cận của nó trong khung trước đó để tạo ra một vector mà quy định sự chuyển động của một khối vĩ mô từ một địa điểm khác trong khung trước đó. Phong trào này được tính cho tất cả các khối vĩ mô bao gồm một khung hình, tạo các chuyển động được ước tính trong khung hiện tại. Khu vực tìm kiếm cho một trận đấu khối vĩ mô tốt là hạn chế đến p pixel trên bốn chân bên của khối macro tương ứng trong khung trước đó. Đây 'p' được gọi là các tham số tìm kiếm. Chuyển động lớn hơn yêu cầu một p lớn hơn, và các tham số tìm kiếm lớn hơn các quá trình tính toán đắt tiền hơn dự toán chuyển động trở nên. Thông thường các khối vĩ mô được thực hiện như là một vuông mặt 16 điểm ảnh, và các thông số tìm kiếm p là 7 pixels. Ý tưởng này được thể hiện trong hình 2. Việc kết hợp của một khối macro với nhau dựa trên đầu ra của một hàm chi phí. Khối vĩ mô mà kết quả trong chi phí ít nhất là một trong đó phù hợp gần nhất với khối hiện nay. Có chức năng chi phí khác nhau, trong đó phổ biến nhất và ít tính toán đắt tiền là Mean Difference Absolute (MAD) cho bởi phương trình (i). Một chức năng chi phí là Mean Squared Error (MSE) cho bởi phương trình (ii). - = - = = - 1 0 1 0 2 1 N i N j iij j CR N MAD (i) () 21 0 1 0 2 1 - = - = = - N i N j iij j CR N MSE (ii). trong đó N là các bên của các Bock vĩ mô, Cij và Rij là các điểm ảnh được so sánh trong khối vĩ mô hiện tại và tham khảo khối macro, tương ứng Peak-signal- to-Noise-Ratio (PSNR) cho bởi phương trình (iii) đặc trưng của hình ảnh bù chuyển động được tạo ra bằng cách sử dụng các vector chuyển động và đồng hồ vĩ mô từ khung tham chiếu. () = MSE pLog SNR dữ liệu ban đầu của đỉnh cao giá trị toPeak 2 năm 1010 (iii ) A. Đầy đủ Search (ES) Thuật toán này, còn được gọi là Full Search, là thuật toán khối phù hợp với tính toán đắt tiền nhất của tất cả. Thuật toán này tính toán các hàm chi phí tại mỗi địa điểm có thể có trong cửa sổ tìm kiếm. Như là kết quả mà nó tìm thấy phù hợp nhất có thể và cung cấp cho các PSNR cao nhất trong bất kỳ thuật toán khối phù hợp. Khối nhanh các thuật toán phù hợp với cố gắng để đạt được cùng một PSNR ra một chút tính toán càng tốt. Tuy nhiên, nhược để ES là lớn hơn cửa sổ tìm kiếm được các tính toán nhiều hơn nó đòi hỏi. B. Ba Bước Search (TSS) Đây là một trong những nỗ lực đầu tiên tại khối nhanh các thuật toán phù hợp và ngày trở lại vào giữa năm 1980. Ý tưởng chung được thể hiện trong hình 3. Nó bắt đầu với vị trí tìm kiếm tại trung tâm và đặt 'bước kích thước' S = 4, cho một giá trị tham số tìm kiếm thông thường của 7. Sau đó nó tìm kiếm tại tám địa điểm +/- S điểm ảnh xung quanh vị trí (0,0). Từ những chín địa điểm tìm kiếm cho đến nay nó chọn một cho chi phí thấp nhất và làm cho nó là nguồn gốc tìm kiếm mới. Sau đó nó đặt mới kích thước bước S = S / 2, và lặp đi lặp lại tìm kiếm tương tự cho nhiều hơn hai lần lặp lại cho đến khi S = 1. Tại thời điểm mà nó tìm thấy vị trí có chức năng chi phí thấp nhất và khối vĩ mô tại địa điểm đó là phù hợp nhất. Các vector chuyển động tính toán sau đó được lưu truyền. Nó cung cấp cho một căn hộ giảm trong tính toán theo hệ số 9. Vì vậy mà hình. 2. Khối Matching một khối vĩ mô của phụ 16 pixel và một p thông số tìm kiếm của kích thước 7 pixel. Fig. 3. Ba Bước Tìm kiếm thủ tục. Các vector chuyển động là (5, -3). DIP 6620 mùa xuân năm 2004 cuối cùng dự án Giấy 3 cho p = 7, ES sẽ tính toán chi phí cho 225 khối macro trong khi TSS tính chi phí cho 25 khối macro. Ý tưởng đằng sau TSS là bề mặt lỗi do chuyển động trong mỗi khối macro là đơn thức. Một bề mặt đơn thức là một bề mặt bát hình như vậy mà trọng lượng tạo ra bởi các hàm chi phí tăng đều đều từ tối thiểu toàn cầu. C. New Ba Bước Search (NTSS) NTSS [4] cải thiện kết quả TSS bằng cách cung cấp một trung tâm kế hoạch tìm kiếm thiên vị và có quy định cho một nửa đường dừng lại để giảm chi phí tính toán. Đó là một trong những thuật toán nhanh chấp nhận rộng rãi và thường xuyên được sử dụng để thực hiện các tiêu chuẩn trước đó như MPEG 1 và H.261. TSS sử dụng một mô hình kiểm tra được phân bổ đồng đều cho phát hiện chuyển động và dễ bị mất tích chuyển động nhỏ. Quá trình NTSS được minh họa bằng đồ thị trong hình 4. Trong bước đầu tiên 16 điểm được kiểm tra thêm về nguồn gốc tìm kiếm cho trọng lượng thấp nhất bằng cách sử dụng một hàm chi phí. Trong số những địa điểm tìm kiếm bổ sung, 8 là một khoảng cách S = 4 đi (tương tự như TSS) và 8 khác đang ở S = 1 đi từ nguồn gốc tìm kiếm. Nếu chi phí thấp nhất là nguồn gốc sau đó tìm kiếm được dừng lại ngay ở đây và các vector chuyển động được thiết lập như là (0, 0). Nếu cân nặng thấp nhất là tại bất kỳ một trong những địa điểm tại 8 S = 1, sau đó chúng tôi thay đổi nguồn gốc của việc tìm kiếm đến thời điểm đó và kiểm tra trọng lượng liền kề với nó. Tùy thuộc vào thời điểm đó là chúng ta có thể kết thúc việc kiểm tra 5 điểm hoặc 3 điểm (Hình 7 (b) & (c)). Các vị trí đó cho trọng lượng thấp nhất là trận đấu gần nhất và vector chuyển động được đặt vào vị trí đó. Mặt khác nếu trọng lượng thấp nhất sau khi bước đầu tiên là một trong những địa điểm tại 8 S = 4, sau đó chúng tôi thực hiện theo các thủ tục TSS bình thường. Do đó mặc dù quá trình này có thể cần tối thiểu là 17 điểm để kiểm tra từng khối vĩ mô, nó cũng có những trường hợp xấu nhất của 33 địa điểm để kiểm tra. D. Đơn giản và hiệu quả tìm kiếm (SES) SES [5] là một phần mở rộng cho TSS và khai thác các giả định của bề mặt lỗi đơn thức. Ý tưởng chính đằng sau các thuật toán là đối với một bề mặt đơn thức không thể có hai mức tối thiểu theo hướng ngược nhau và do đó việc sửa chữa 8 điểm






























đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: