We start by looking at the overall

We start by looking at the overall processor execution for these benchmarks on the
four-processor system; as discussed on page 367, these benchmarks include substantial I/O time, which is ignored in the processor time measurements. We group
the six DSS queries as a single benchmark, reporting the average behavior. The
effective CPI varies widely for these benchmarks, from a CPI of 1.3 for the AltaVista Web search, to an average CPI of 1.6 for the DSS workload, to 7.0 for the
OLTP workload. Figure 5.11 shows how the execution time breaks down into
instruction execution, cache and memory system access time, and other stalls
(which are primarily pipeline resource stalls but also include translation lookaside
buffer (TLB) and branch mispredict stalls). Although the performance of the DSS
and AltaVista workloads is reasonable, the performance of the OLTP workload is
very poor, due to a poor performance of the memory hierarchy.
Since the OLTP workload demands the most from the memory system with
large numbers of expensive L3 misses, we focus on examining the impact of L3
cache size, processor count, and block size on the OLTP benchmark. Figure 5.12
shows the effect of increasing the cache size, using two-way set associative caches, which reduces the large number of conflict misses. The execution time is improved as the L3 cache grows due to the reduction in L3 misses. Surprisingly,
almost all of the gain occurs in going from 1 to 2 MB, with little additional gain
beyond that, despite the fact that cache misses are still a cause of significant performance loss with 2 MB and 4 MB caches. The question is, Why?
To better understand the answer to this question, we need to determine what
factors contribute to the L3 miss rate and how they change as the L3 cache
grows. Figure 5.13 shows these data, displaying the number of memory access
cycles contributed per instruction from five sources. The two largest sources of
L3 memory access cycles with a 1 MB L3 are instruction and capacity/conflict
misses. With a larger L3, these two sources shrink to be minor contributors.
Unfortunately, the compulsory, false sharing, and true sharing misses are unaffected by a larger L3. Thus, at 4 MB and 8 MB, the true sharing misses generate the dominant fraction of the misses; the lack of change in true sharing
misses leads to the limited reductions in the overall miss rate when increasing
the L3 cache size beyond 2 MB.
Increasing the cache size eliminates most of the uniprocessor misses while
leaving the multiprocessor misses untouched. How does increasing the processor
count affect different types of misses? Figure 5.14 shows these data assuming a
base configuration with a 2 MB, two-way set associative L3 cache. As we might
expect, the increase in the true sharing miss rate, which is not compensated for by
any decrease in the uniprocessor misses, leads to an overall increase in the memory access cycles per instruction.
The final question we examine is whether increasing the block size—which
should decrease the instruction and cold miss rate and, within limits, also reduce
the capacity/conflict miss rate and possibly the true sharing miss rate—is helpful
for this workload. Figure 5.15 shows the number of misses per 1000 instructions
as the block size is increased from 32 to 256 bytes. Increasing the block size from
32 to 256 bytes affects four of the miss rate components:
■ The true sharing miss rate decreases by more than a factor of 2, indicating
some locality in the true sharing patterns.
■ The compulsory miss rate significantly decreases, as we would expect.
■ The conflict/capacity misses show a small decrease (a factor of 1.26 compared
to a factor of 8 increase in block size), indicating that the spatial locality is not
high in the uniprocessor misses that occur with L3 caches larger than 2 MB.
■ The false sharing miss rate, although small in absolute terms, nearly doubles.
The lack of a significant effect on the instruction miss rate is startling. If
there were an instruction-only cache with this behavior, we would conclude
that the spatial locality is very poor. In the case of a mixed L2 cache, other
effects such as instruction-data conflicts may also contribute to the high
instruction cache miss rate for larger blocks. Other studies have documented
the low spatial locality in the instruction stream of large database and OLTP
workloads, which have lots of short basic blocks and special-purpose code
sequences. Based on these data, the miss penalty for a larger block size L3 to
perform as well as the 32-byte block size L3 can be expressed as a multiplier
on the 32-byte block size penalty:
With modern DDR SDRAMs that make block access fast, these numbers seem
attainable, especially at the 128 byte block size. Of course, we must also worry
about the effects of the increased traffic to memory and possible contention for
the memory with other cores. This latter effect may easily n

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Chúng tôi bắt đầu bằng cách nhìn vào việc thực hiện xử lý tổng thể cho các tiêu chuẩn cácbộ vi xử lý bốn hệ thống; như được thảo luận trên trang 367, những tiêu chuẩn bao gồm đáng kể thời gian I/O, bỏ qua trong các phép đo thời gian xử lý. Chúng tôi nhómtruy vấn DSS sáu như là một chuẩn mực duy nhất, báo cáo các hành vi trung bình. Cácchỉ số CPI hiệu quả thay đổi rộng rãi cho những tiêu chuẩn, từ một chỉ số CPI của 1,3 cho tìm kiếm AltaVista Web, với mức trung bình chỉ số CPI của 1.6 cho khối lượng công việc DSS, để 7.0 cho cácOLTP khối lượng công việc. Con số 5,11 cho thấy như thế nào thời gian thực hiện phá vỡ xuốnghướng dẫn thực hiện, thời gian truy cập hệ thống bộ nhớ cache và bộ nhớ và các quầy hàng khác(mà chủ yếu là đường ống dẫn nguồn quầy hàng nhưng cũng bao gồm các dịch lookasidebộ đệm (TLB) và chi nhánh mispredict quầy hàng). Mặc dù hiệu suất của các DSSvà AltaVista khối lượng công việc hợp lý, hiệu suất của các khối lượng công việc OLTP làrất nghèo, do một hiệu suất kém của hệ thống phân cấp của bộ nhớ.Kể từ khi các nhu cầu OLTP khối lượng công việc nhiều nhất từ hệ thống bộ nhớ vớimột số lượng lớn đắt L3 lỡ, chúng tôi tập trung vào kiểm tra tác động của L3Kích thước bộ nhớ cache, bộ xử lý số lượng và kích thước khối trên điểm chuẩn OLTP. Con số 5.12cho thấy hiệu quả của việc tăng kích thước bộ nhớ cache, bằng cách sử dụng hai cách thiết lập kết hợp lưu trữ, làm giảm số lượng bỏ lỡ cuộc xung đột lớn. Thời gian thực hiện được cải thiện như L3 cache tăng lên do việc giảm các L3 lỡ. Đáng ngạc nhiên,hầu như tất cả lợi xảy ra ở đi từ 1 đến 2 MB, với chút bổ sung lợiNgoài ra, mặc dù thực tế rằng bộ nhớ cache bỏ lỡ là vẫn còn một nguyên nhân gây tổn thất đáng kể hiệu suất với 2 MB và 4 MB Cache. Câu hỏi là, tại sao?Để hiểu rõ hơn về câu trả lời cho câu hỏi này, chúng ta cần phải xác định những gìCác yếu tố góp phần vào mức Hoa hậu L3 và làm họ thay đổi như là bộ nhớ cache L3phát triển. 5.13 con số cho thấy những dữ liệu này, Hiển thị số lượng bộ nhớ truy cậpchu kỳ đóng góp cho một hướng dẫn từ các nguồn năm. Hai nguồn lớn nhất củaL3 bộ nhớ truy cập chu kỳ với một 1 MB L3 là hướng dẫn và năng lực/xung độtbỏ lỡ. Với một L3 lớn hơn, những hai nguồn thu hẹp là những người đóng góp nhỏ.Thật không may, sự bắt buộc, sai chia sẻ và thực sự bỏ lỡ chia sẻ là không bị ảnh hưởng bởi một L3 lớn hơn. Như vậy, 4 MB và 8 MB, lỡ chia sẻ thật sự tạo ra các phần chi phối của lỡ; việc thiếu của sự thay đổi trong việc chia sẻ thật sựlỡ dẫn đến việc cắt giảm giới hạn ở mức Hoa hậu tổng thể khi tăngKích thước bộ nhớ cache L3 vượt quá 2 MB.Tăng kích thước bộ nhớ cache giúp loại bỏ hầu hết các bộ xử lý đơn, trong khi lỡbỏ lỡ sự hoang sơ. Làm thế nào tăng bộ vi xử lýsố lượng ảnh hưởng đến các loại bỏ lỡ? 5.14 con số cho thấy những dữ liệu này giả định mộtCác cấu hình cơ bản với một 2 MB, hai chiều thiết kết hợp L3 cache. Như chúng ta có thểHy vọng, sự gia tăng sự thật chia sẻ tỷ lệ cuộc thi Hoa hậu, đó không chobất kỳ giảm ở bộ xử lý đơn bỏ lỡ, dẫn đến sự gia tăng tổng thể trong chu kỳ truy cập bộ nhớ cho một hướng dẫn.Câu hỏi cuối cùng chúng tôi xem xét là liệu tăng kích thước khối-mànên giảm các chỉ dẫn và Hoa hậu lạnh giá, và trong giới hạn, cũng làm giảmcông suất/xung đột bỏ lỡ tỷ lệ và có thể là mức Hoa hậu chia sẻ sự thật-hữu íchcho khối lượng công việc này. Con số 5.15 Hiển thị số lỡ cho mỗi 1000 hướng dẫnnhư là khối kích thước tăng lên từ 32 256 byte. Tăng kích thước khối từ32 đến 256 byte ảnh hưởng đến bốn thành phần tỷ lệ của cuộc thi Hoa hậu:■ đúng tỷ lệ Hoa hậu chia sẻ giảm bởi nhiều hơn một nhân tố của 2, chỉ ramột số địa phương trong sự thật chia sẻ mô hình.■ mức bắt buộc Hoa hậu đáng kể giảm, như chúng ta mong đợi.■ lỡ xung đột/khả năng hiển thị một giảm nhỏ (một yếu tố của 1,26 somột yếu tố của 8 tăng kích thước khối), chỉ ra rằng không phải là không gian địa phươngcao trong bộ xử lý đơn lỡ xảy ra với lớn hơn 2 MB L3 cache.■ giả chia sẻ tỷ lệ cuộc thi Hoa hậu, mặc dù nhỏ trong điều kiện tuyệt đối, gần như tăng gấp đôi.Việc thiếu một tác động đáng kể trên mức Hoa hậu giảng dạy là đáng ngạc nhiên. Nếuđã có một bộ nhớ cache chỉ có hướng dẫn với các hành vi này, chúng tôi sẽ kết luậnkhông gian địa phương là rất nghèo. Trong trường hợp của một hỗn hợp L2 cache, kháchiệu ứng như hướng dẫn dữ liệu xung đột có thể cũng đóng góp vào caohướng dẫn bộ nhớ cache bỏ lỡ tỷ lệ lớn hơn khối. Có tài liệu nghiên cứu khácCác địa phương không gian thấp trong các dòng chỉ dẫn của cơ sở dữ liệu lớn và OLTPkhối lượng công việc, có rất nhiều khối cơ bản ngắn và mã số đặc biệt-mục đíchtrình tự. Dựa trên những dữ liệu này, Hoa hậu penalty cho một lớn hơn kích thước khối L3 đểthực hiện cũng như kích thước 32 byte khối L3 có thể được thể hiện như một nhântrên khối 32 byte Kích thước phạt:Với hiện đại DDR SDRAMs mà làm cho khối truy cập nhanh chóng, những con số này có vẻthể đạt được, đặc biệt là ở kích thước khối 128 byte. Tất nhiên, chúng ta cũng phải lo lắngvề tác dụng của lưu lượng truy cập tăng lên đến bộ nhớ và có thể ganh đua chobộ nhớ với các lõi. Này có hiệu lực sau này có thể dễ dàng n

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Chúng tôi bắt đầu bằng cách nhìn vào thực hiện xử lý tổng thể cho các điểm chuẩn trên
hệ thống bốn bộ xử lý; như thảo luận ở trang 367, các điểm chuẩn bao gồm đáng kể thời gian I / O, được bỏ qua trong các phép đo thời gian xử lý. Chúng tôi nhóm
sáu truy vấn DSS là một điểm chuẩn duy nhất, báo cáo các hành vi trung bình. Các
chỉ số CPI có hiệu quả rất khác nhau đối với các tiêu chuẩn, từ một chỉ số CPI là 1,3 cho việc tìm kiếm Web AltaVista, một chỉ số CPI trung bình 1.6 cho khối lượng công việc DSS, 7.0 cho các
khối lượng công việc OLTP. Hình 5.11 cho thấy cách thực hiện thời gian phân hủy thành các
hướng dẫn thực hiện, thời gian bộ nhớ cache và bộ nhớ hệ thống truy cập, và các quầy hàng khác
(mà chủ yếu là các quầy hàng tài nguyên đường ống mà còn bao gồm dịch lookaside
đệm (TLB) và các quầy hàng chi nhánh mispredict). Mặc dù hiệu suất của DSS
và AltaVista khối lượng công việc là hợp lý, hiệu quả hoạt động của khối lượng công việc OLTP là
rất kém, do một hiệu suất kém của hệ thống phân cấp bộ nhớ.
Kể từ khi khối lượng công việc OLTP đòi hỏi nhiều nhất từ hệ thống bộ nhớ với
số lượng lớn các môn L3 đắt , chúng tôi tập trung vào việc kiểm tra tác động của L3
cache size, số lượng bộ xử lý, và kích thước khối trên chuẩn OLTP. Hình 5.12
cho thấy ảnh hưởng của việc tăng kích thước bộ nhớ cache, sử dụng hai cách thiết lập bộ nhớ đệm kết hợp, làm giảm số lượng lớn các môn xung đột. Thời gian thực hiện được cải thiện như bộ nhớ cache L3 phát triển do sự giảm trong vòng cấm địa L3. Đáng ngạc nhiên,
gần như tất cả những gì thu được xảy ra trong đi 1-2 MB, với ít tăng thêm
hơn nữa, mặc dù thực tế rằng cache nhớ vẫn là một nguyên nhân của sự mất mát hiệu suất đáng kể với 2 MB và 4 MB cache. Câu hỏi đặt ra là, Tại sao?
Để hiểu rõ hơn câu trả lời cho câu hỏi này, chúng ta cần phải xác định những
yếu tố góp phần vào tỷ lệ bỏ lỡ L3 và làm thế nào họ thay đổi như bộ nhớ cache L3
phát triển. Hình 5.13 cho thấy các dữ liệu, hiển thị số lượng truy cập bộ nhớ
chu kỳ đóng góp theo hướng dẫn từ năm nguồn. Hai nguồn lớn nhất của
L3 chu kỳ truy cập bộ nhớ với một 1 MB L3 là hướng dẫn và khả năng / xung đột
bỏ lỡ. Với một L3 lớn hơn, hai nguồn thu nhỏ được đóng góp nhỏ.
Thật không may, sự bắt buộc, chia sẻ sai, và nhớ chia sẻ đúng là không bị ảnh hưởng bởi một L3 lớn hơn. Như vậy, vào lúc 4 MB và 8 MB, sự chia sẻ miss đúng tạo ra các phần chi phối của các môn; thiếu sự thay đổi trong việc chia sẻ thực sự
bỏ lỡ dẫn đến việc cắt giảm hạn chế về tỷ lệ bỏ lỡ tổng thể khi tăng
kích thước bộ nhớ cache L3 quá 2 MB.
Tăng kích thước bộ nhớ cache giúp loại bỏ hầu hết các miss bộ xử lý đơn trong khi
bỏ lỡ đa nguyên. Làm thế nào để tăng bộ xử lý
số ảnh hưởng khác nhau của môn? Hình 5.14 cho thấy các dữ liệu giả định một
cấu hình cơ bản với bộ nhớ cache L3 kết hợp 2 MB, hai cách thiết lập. Như chúng ta có thể
mong đợi, sự gia tăng trong tỷ lệ chia sẻ nhớ đúng, mà không được bù lại bằng
bất kỳ sự giảm xuống trong vòng cấm địa bộ xử lý đơn, dẫn đến sự gia tăng tổng thể trong các chu kỳ truy cập bộ nhớ theo hướng dẫn.
Các câu hỏi cuối cùng chúng tôi xem xét là liệu tăng khối kích thước mà
nên giảm sự hướng dẫn và tốc độ miss lạnh và, trong giới hạn, cũng làm giảm
tỷ lệ bỏ lỡ khả năng / xung đột và có thể chia sẻ bỏ lỡ đúng tỷ lệ, rất có ích
cho công việc này. Hình 5.15 cho thấy số lượng các môn trên 1000 hướng dẫn
như kích thước khối được tăng từ 32 đến 256 byte. Tăng kích thước khối từ
32 đến 256 byte ảnh hưởng đến bốn thành phần tỷ lệ bỏ lỡ:
■ Tỷ lệ bỏ lỡ chia sẻ thực sự giảm xuống hơn hệ số 2, cho thấy
một số địa phương trong các mô hình chia sẻ sự thật.
■ Tỷ lệ bỏ lỡ bắt buộc giảm đáng kể, như chúng tôi mong đợi.
■ các cuộc xung đột / suất lỡ có mức giảm nhỏ (một yếu tố là 1,26 so
với một nhân tố của 8 tăng kích thước khối), chỉ ra rằng các địa phương không gian là không
cao trong vòng cấm địa bộ xử lý đơn xảy ra với L3 cache lớn hơn 2 MB.
■ tỷ lệ bỏ lỡ chia sai, mặc dù nhỏ trong điều kiện tuyệt đối, gần như tăng gấp đôi.
việc thiếu một ảnh hưởng đáng kể về tỷ lệ hướng dẫn bỏ lỡ là đáng ngạc nhiên. Nếu
có một bộ nhớ cache hướng dẫn chỉ với hành vi này, chúng tôi sẽ kết luận
rằng các địa phương không gian là rất nghèo. Trong trường hợp của một bộ nhớ cache L2 hỗn hợp, khác
hiệu ứng như xung đột dẫn dữ liệu cũng có thể đóng góp vào sự cao
hướng dẫn tỷ lệ bộ nhớ cache bỏ lỡ cho các khối lớn hơn. Các nghiên cứu khác đã ghi nhận
các địa phương không gian thấp trong dòng hướng dẫn của cơ sở dữ liệu và OLTP lớn
khối lượng công việc, trong đó có rất nhiều các khối cơ bản ngắn và mã số đặc biệt mục đích
trình tự. Dựa trên các dữ liệu, hình phạt bỏ lỡ cho một kích thước khối lớn hơn L3 để
thực hiện cũng như 32-byte kích thước khối L3 có thể được thể hiện như một số nhân
trên 32-byte phạt kích thước khối:
Với SDRAMs DDR hiện đại mà làm chặn truy cập nhanh , những con số này dường như
đạt được, đặc biệt là ở kích thước khối 128 byte. Tất nhiên, chúng ta cũng phải lo lắng
về những ảnh hưởng của lưu lượng tăng lên đến bộ nhớ và có thể cạnh tranh cho
các bộ nhớ với các lõi khác. Hiệu lực sau này có thể dễ dàng n

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.