which the application was running s

which the application was running simultaneously on all nine computers. The remaining
time, the application had to run on a single computer.
a. Calculate the effective speedup under the aforementioned condition as compared
to executing the program on a single computer. Also calculate a, the percentage of
code that has been parallelized (programmed or compiled so as to use the cluster
mode) in the preceding program.
b. Suppose that we are able to effectively use 17 computers rather than 9 computers
on the parallelized portion of the code. Calculate the effective speedup that is
achieved.
17.15 The following FORTRAN program is to be executed on a computer, and a parallel
version is to be executed on a 32-computer cluster.
L1: DO 10 I = 1, 1024
L2: SUM(I) = 0
L3: DO 20 J = 1, I
L4: 20 SUM(I) = SUM(I) + I
L5: 10 CONTINUE
Suppose lines 2 and 4 each take two machine cycle times, including all processor
and memory-access activities. Ignore the overhead caused by the software
loop control statements (lines 1, 3, 5) and all other system overhead and resource
conflicts.
a. What is the total execution time (in machine cycle times) of the program on a
single computer?
b. Divide the I-loop iterations among the 32 computers as follows: Computer 1 executes
the first 32 iterations (I = 1 to 32), processor 2 executes the next 32 iterations,
and so on. What are the execution time and speedup factor compared with
part (a)? (Note that the computational workload, dictated by the J-loop, is unbalanced
among the computers.)
c. Explain how to modify the parallelizing to facilitate a balanced parallel execution
of all the computational workload over 32 computers. By a balanced load is meant
an equal number of additions assigned to each computer with respect to both
loops.
d. What is the minimum execution time resulting from the parallel execution on
32 computers? What is the resulting speedup over a single computer?
17.16 Consider the following two versions of a program to add two vectors:
L1: DO 10 I = 1, N DOALL K = 1, M
L2: A(I) = B(I) + C(I) DO 10 I = L(K - 1) + 1, KL
L3: 10 CONTINUE A(I) = B(I) + C(I)
L4: SUM = 0 10 CONTINUE
L5: DO 20 J = 1, N SUM(K) = 0
L6: SUM = SUM + A(J) DO 20 J = 1, L
L7: 20 CONTINUE SUM(K) = SUM(K) + A(L(K - 1) + J)
20 CONTINUE
ENDALL
a. The program on the left executes on a uniprocessor. Suppose each line of code
L2, L4, and L6 takes one processor clock cycle to execute. For simplicity, ignore
the time required for the other lines of code. Initially all arrays are already loaded
in main memory and the short program fragment is in the instruction cache. How
many clock cycles are required to execute this program?
17.9 / KEY TERMS, REVIEW QUESTIONS, AND PROBLEMS 663
b. The program on the right is written to execute on a multiprocessor with M processors.
We partition the looping operations into M sections with L = N>M elements
per section. DOALL declares that all M sections are executed in parallel. The
result of this program is to produce M partial sums. Assume that k clock cycles are
needed for each interprocessor communication operation via the shared memory
and that therefore the addition of each partial sum requires k cycles. An l-level
binary adder tree can merge all the partial sums, where l = log2M. How many
cycles are needed to produce the final sum?
c. Suppose N = 220 elements in the array and M = 256. What is the speedup
achieved by using the multiprocessor? Assume k = 200. What percentage is this
of the theoretical speedup of a factor of 256?

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Các ứng dụng được chạy đồng thời trên tất cả các máy tính chín. Còn lạithời gian, các ứng dụng đã phải chạy trên một máy tính duy nhất.a. tính toán speedup hiệu quả với điều kiện nói trên sođể thực hiện chương trình trên một máy tính duy nhất. Cũng tính toán một, các tỷ lệ phần trăm củaMã số đã được parallelized (lập trình hoặc biên soạn để sử dụng cụmchế độ) trong chương trình trước.sinh giả sử rằng chúng tôi có thể có hiệu quả sử dụng 17 máy tính chứ không phải là 9 máy tínhtrên phần parallelized của các mã. Tính toán tăng tốc hiệu quả mà làđạt được.17,15 chương trình FORTRAN sau này được thực hiện trên một máy tính, và song songPhiên bản là để được thực hiện trên một cụm máy tính 32.L1: LÀM 10 I = 1, 1024L2: SUM(I) = 0L3: DO 20 J = 1, TÔIL4: 20 SUM(I) = SUM(I) + IL5: 10 TIẾP TỤCGiả sử dòng 2 và 4 mỗi mất hai chu kỳ máy thời gian, bao gồm tất cả các bộ xử lývà các hoạt động truy cập bộ nhớ. Bỏ qua chi phí do phần mềmvòng lặp kiểm soát báo cáo (dòng 1, 3, 5) và tất cả các hệ thống chi phí và tài nguyêncuộc xung đột.a. những gì là thời gian thực hiện tất cả (trong chu kỳ máy lần) của chương trình trên mộtMáy vi tính?sinh chia tôi vòng lặp đi lặp lại giữa các máy tính 32 như sau: 1 máy tính thực hiệnlặp đi lặp lại đầu tiên 32 (tôi = 1 đến 32), bộ xử lý 2 thực hiện lặp đi lặp lại tiếp theo 32,và như vậy. Thời gian thực hiện là gì và yếu tố speedup so vớiphần (một)? (Lưu ý rằng khối lượng công việc tính toán, quyết định bởi J-loop, là không cân bằngtrong số các máy tính.)c. giải thích làm thế nào để sửa đổi parallelizing để tạo điều kiện một thực hiện song song cân bằngTất cả tính toán khối lượng công việc trên máy tính 32. Bởi một cân bằng tải là có nghĩa làmột số lượng tương đương của bổ sung được gán cho mỗi máy tính đối với cả haivòng.mất những gì là thời gian thực hiện tối thiểu dẫn đến từ thực hiện song song trênmáy tính 32? Speedup kết quả trên một máy tính duy nhất là gì?17.16 xem xét sau hai phiên bản của một chương trình để thêm hai vectơ:L1: LÀM 10 I = 1, N DOALL K = 1, ML2: A(I) = B(I) + C(I) DO 10 TÔI = L (K - 1) + 1, KLL3: 10 TIẾP TỤC A(I) = B(I) + C(I)L4: TỔNG = 0 10 TIẾP TỤCL5: DO 20 J = 1, N SUM(K) = 0L6: TỔNG HỢP = TỔNG + A(J) DO 20 J = 1, LL7: 20 TIẾP TỤC SUM(K) = SUM(K) + A (L (K - 1) + J)20 TIẾP TỤCENDALLa. chương trình bên trái thực hiện trên một bộ xử lý đơn. Giả sử mỗi dòng mãL2, L4 và L6 mất một chu kỳ đồng hồ bộ xử lý để thực hiện. Để đơn giản, bỏ quathời gian cần thiết cho các dòng mã. Ban đầu tất cả mảng đã được nạptrong bộ nhớ chính và nội dung short program mảnh là trong bộ nhớ cache chỉ dẫn. Làm thế nàonhiều đồng hồ chu kỳ được yêu cầu để thực hiện chương trình này?ĐIỀU KHOẢN 17,9 / DỰ, ĐÁNH GIÁ CÂU HỎI VÀ VẤN ĐỀ 663b. chương trình bên phải văn bản thực hiện trên một sự với bộ vi xử lý M.Chúng tôi phân vùng hoạt động cáo khi thành phần M với L = N > yếu tố Mmột phần. DOALL tuyên bố rằng tất cả các phần M được thực hiện song song. Cáckết quả của chương trình này là để sản xuất M một phần tiền. Giả sử rằng chu kỳ đồng hồ k làcần thiết cho mỗi chiến dịch interprocessor truyền thông qua bộ nhớ dùng chungvà rằng do đó bổ sung mỗi tổng một phần đòi hỏi k chu kỳ. Độ lnhị phân adder cây có thể hợp nhất tất cả các khoản tiền một phần, nơi l = log2M. Bao nhiêuchu kỳ là cần thiết để sản xuất tổng cuối cùng?c. giả sử N = 220 phần tử trong mảng và M = 256. Speedup là gìđạt được bằng cách sử dụng sự? Giả sử k = 200. Đây là những gì tỷ lệ phần trămcủa speedup lý thuyết của một yếu tố của 256?

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

mà ứng dụng đã được chạy đồng thời trên tất cả chín máy tính. Còn lại
thời gian, ứng dụng phải chạy trên một máy tính duy nhất.
a. Tính tăng tốc hiệu quả trong điều kiện nói trên so
với thực hiện chương trình trên một máy tính duy nhất. Ngoài ra tính toán, tỷ lệ
mã đã được song song (lập trình hoặc biên soạn để sử dụng cụm
chế độ) trong chương trình trước đó.
b. Giả sử chúng ta có thể sử dụng hiệu quả 17 máy tính chứ không phải là 9 máy tính
trên phần song song của các mã. Tính tăng tốc hiệu quả đó là
đạt được.
17.15 Chương trình FORTRAN sau đây sẽ được thực hiện trên một máy tính, và một song song
phiên bản là để được thực hiện trên một cụm 32 máy tính.
L1: DO 10 I = 1, 1024
L2: SUM (tôi ) = 0
L3: DO 20 J = 1, tôi
L4: 20 SUM (I) = SUM (I) + I
L5: 10 TIẾP TỤC
dòng Giả sử 2 và 4 mỗi lần mất hai chu kỳ máy, bao gồm tất cả các bộ vi xử lý
hoạt động và bộ nhớ truy cập . Bỏ qua các chi phí gây ra bởi các phần mềm
báo cáo kiểm soát vòng lặp (dòng 1, 3, 5) và tất cả các hệ thống trên không và các nguồn lực khác
xung đột.
a. Tổng thời gian thực hiện (trong thời gian chu kỳ máy) của chương trình trên là những gì
máy tính duy nhất?
b. Chia lặp đi lặp lại I-loop trong 32 máy như sau: Máy tính 1 thực hiện
32 lần lặp lại đầu tiên (I = 1 đến 32), bộ xử lý 2 thực hiện 32 lần lặp tiếp theo,
và như vậy. Thời gian thực hiện và yếu tố tăng tốc là gì so với
một phần (a)? (Lưu ý rằng khối lượng công việc tính toán, quyết định bởi J-loop, là không cân bằng
giữa các máy tính.)
c. Giải thích làm thế nào để sửa đổi parallelizing để tạo điều kiện thực hiện song song cân bằng
của tất cả các khối lượng công việc tính toán trên 32 máy tính. Bằng một cân bằng tải có nghĩa là
một số lượng tương đương bổ sung được gán cho mỗi máy tính đối với cả hai với
vòng.
d. Thời gian thực hiện tối thiểu kết quả từ việc thực hiện song song trên là gì
32 máy tính? Tăng tốc kết quả trên một máy tính duy nhất là gì?
17,16 Hãy xem xét hai phiên bản sau của một chương trình để thêm hai vectơ:
L1: DO 10 I = 1, N DOALL K = 1, M
L2: A (I) = B (I) + C (I) DO 10 I = L (K - 1) + 1, KL
L3: 10 TIẾP TỤC A (I) = B (I) + C (I)
L4: SUM = 0 10 TIẾP TỤC
L5: DO 20 J = 1, N SUM (K) = 0
L6: SUM = SUM + A (J) DO 20 J = 1, L
L7: 20 TIẾP TỤC SUM (K) = SUM (K) + A (L (K - 1) + J )
20 TIẾP TỤC
ENDALL
a. Các chương trình trên bên trái thực hiện trên một bộ xử lý đơn. Giả sử mỗi dòng mã
L2, L4, và L6 có chu kỳ đồng hồ một bộ xử lý để thực hiện. Để đơn giản, bỏ qua
thời gian cần thiết cho các dòng khác của mã. Ban đầu tất cả các mảng đã được nạp
vào bộ nhớ chính và các chương trình mảnh vỡ ngắn trong bộ nhớ cache hướng dẫn. Làm thế nào
nhiều chu kỳ đồng hồ được yêu cầu để thực hiện chương trình này?
KHOẢN 17,9 / KEY, CÂU HỎI ĐÁNH GIÁ, VÀ VẤN ĐỀ 663
b. Các chương trình trên bên phải là bằng văn bản để thực thi trên một đa với bộ xử lý M.
Chúng tôi phân vùng hoạt động lặp đi lặp thành phần M với L = N> M yếu tố
cho mỗi phần. DOALL tuyên bố rằng tất cả các phần M được thực hiện song song. Các
kết quả của chương trình này là để sản xuất M số tiền một phần. Giả sử rằng k chu kỳ đồng hồ được
cần thiết cho mỗi hoạt động truyền thông interprocessor thông qua bộ nhớ chia sẻ
và do đó việc bổ sung của mỗi tổng một phần đòi hỏi chu kỳ k. Một l cấp
cây bộ cộng nhị phân có thể hợp nhất tất cả các khoản tiền một phần, nơi l = log2M. Làm thế nào nhiều
chu kỳ là cần thiết để sản xuất số tiền cuối cùng?
c. Giả sử N = 220 phần tử trong mảng và M = 256. Điều gì đang tăng tốc
đạt được bằng cách sử dụng đa? Giả sử k = 200. tỷ lệ này là gì
của tăng tốc lý thuyết của một yếu tố của 256?

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.