In terms of commercial products, th

In terms of commercial products, the two common approaches to providing a
multiple-processor system to support applications are SMPs and clusters. For some
years, another approach, known as nonuniform memory access (NUMA), has been
the subject of research and commercial NUMA products are now available.
Before proceeding, we should define some terms often found in the NUMA
literature.
• Uniform memory access (UMA):All processors have access to all parts of
main memory using loads and stores. The memory access time of a processor
to all regions of memory is the same.The access times experienced by different
processors are the same. The SMP organization discussed in Sections 17.2 and
17.3 is UMA.
• Nonuniform memory access (NUMA):All processors have access to all parts
of main memory using loads and stores. The memory access time of a processor differs depending on which region of main memory is accessed. The last
statement is true for all processors; however, for different processors, which
memory regions are slower and which are faster differ.
• Cache-coherent NUMA (CC-NUMA):A NUMA system in which cache coherence is maintained among the caches of the various processors.
A NUMA system without cache coherence is more or less equivalent to a cluster.
The commercial products that have received much attention recently are CC-NUMA
systems, which are quite distinct from both SMPs and clusters. Usually, but unfortunately not always, such systems are in fact referred to in the commercial literature as
CC-NUMA systems. This section is concerned only with CC-NUMA systems.
Motivation
With an SMP system, there is a practical limit to the number of processors that can
be used. An effective cache scheme reduces the bus traffic between any one processor and main memory.As the number of processors increases, this bus traffic also increases. Also, the bus is used to exchange cache-coherence signals, further adding to
the burden. At some point, the bus becomes a performance bottleneck. Performance degradation seems to limit the number of processors in an SMP configuration
17.6 / NONUNIFORM MEMORY ACCESS 661
to somewhere between 16 and 64 processors. For example, Silicon Graphics’ Power
Challenge SMP is limited to 64 R10000 processors in a single system; beyond this
number performance degrades substantially.
The processor limit in an SMP is one of the driving motivations behind the development of cluster systems. However, with a cluster, each node has its own private
main memory; applications do not see a large global memory. In effect, coherency is
maintained in software rather than hardware.This memory granularity affects performance and, to achieve maximum performance, software must be tailored to this environment. One approach to achieving large-scale multiprocessing while retaining the
flavor of SMP is NUMA. For example, the Silicon Graphics Origin NUMA system is
designed to support up to 1024 MIPS R10000 processors [WHIT97] and the Sequent
NUMA-Q system is designed to support up to 252 Pentium II processors [LOVE96].
The objective with NUMA is to maintain a transparent system wide memory
while permitting multiple multiprocessor nodes, each with its own bus or other
internal interconnect system.
Organization
Figure 17.13 depicts a typical CC-NUMA organization. There are multiple independent nodes, each of which is, in effect, an SMP organization. Thus, each node contains multiple processors, each with its own L1 and L2 caches, plus main memory.
The node is the basic building block of the overall CC-NUMA organization. For
example, each Silicon Graphics Origin node includes two MIPS R10000 processors;
each Sequent NUMA-Q node includes four Pentium II processors. The nodes are
interconnected by means of some communications facility, which could be a switching mechanism, a ring, or some other networking facility.
Each node in the CC-NUMA system includes some main memory. From the
point of view of the processors, however, there is only a single addressable memory,
with each location having a unique system wide address. When a processor initiates
a memory access, if the requested memory location is not in that processor’s cache,
then the L2 cache initiates a fetch operation. If the desired line is in the local portion
of the main memory, the line is fetched across the local bus. If the desired line is in a
remote portion of the main memory, then an automatic request is sent out to fetch
that line across the interconnection network, deliver it to the local bus, and then
deliver it to the requesting cache on that bus. All of this activity is automatic and
transparent to the processor and its cache.
In this configuration, cache coherence is a central concern. Although implementations differ as to details, in general terms we can say that each node must
maintain some sort of directory that gives it an indication of the location of various
portions of memory and also cache status information. To see how this scheme
works, we give an example taken from [PFIS98]. Suppose that processor 3 on node
2 (P2-3) requests a memory location 798, which is in the memory of node 1. The following sequence occurs:
1. P2-3 issues a read request on the snoopy bus of node 2 for location 798.
2. The directory on node 2 sees the request and recognizes that the location is in
node 1.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Trong điều kiện của sản phẩm thương mại, hai cách tiếp cận phổ biến để cung cấp một
hệ thống đa bộ xử lý để hỗ trợ các ứng dụng là SMPS và cụm. Đối với một số
năm, cách tiếp cận khác, được gọi là truy cập bộ nhớ không đồng dạng (NUMA), đã được
các đối tượng nghiên cứu và NUMA thương mại các sản phẩm đang có sẵn.
Trước khi tiếp tục, chúng ta cần xác định một số thuật ngữ thường được tìm thấy trong Numa
văn học.
• truy cập bộ nhớ Uniform ( UMA): Tất cả các bộ vi xử lý có thể truy cập tất cả các phần của
bộ nhớ chính bằng cách sử dụng tải và các cửa hàng. Thời gian truy cập bộ nhớ của một bộ xử lý
cho tất cả các vùng của bộ nhớ là thời gian truy cập same.The kinh nghiệm của khác nhau
xử lý đều giống nhau. Các tổ chức SMP thảo luận tại mục 17.2 và
17.3 là UMA.
• truy cập bộ nhớ không đồng dạng (NUMA): Tất cả các bộ vi xử lý có thể truy cập tất cả các phần
của bộ nhớ chính bằng cách sử dụng tải và các cửa hàng. Thời gian truy cập bộ nhớ của một bộ xử lý khác nhau tùy theo khu vực mà bộ nhớ chính được truy cập. Cuối cùng
tuyên bố là đúng cho tất cả các bộ vi xử lý; Tuy nhiên, đối với các bộ xử lý khác nhau, trong đó
khu vực bộ nhớ chậm hơn và nhanh hơn là khác nhau.
• Cache-mạch lạc Numa (CC-Numa):. Một hệ thống NUMA trong đó bộ nhớ cache gắn kết được duy trì trong bộ nhớ cache của các bộ vi xử lý khác nhau
Một hệ thống mà không cần bộ nhớ cache Numa sự gắn kết là nhiều hơn hoặc ít tương đương với một cluster.
Các sản phẩm thương mại đã nhận được rất nhiều sự chú ý gần đây là CC-NUMA
hệ thống, đó là khá khác biệt từ cả hai SMPS và cụm. Thông thường, nhưng tiếc là không phải luôn luôn, hệ thống này trên thực tế được đề cập trong các tài liệu thương mại như
hệ thống CC-NUMA. Phần này là có liên quan chỉ với các hệ thống CC-NUMA.
Động lực
Với một hệ thống SMP, có một giới hạn thực tế về số lượng các bộ vi xử lý có thể
được sử dụng. Một chương trình bộ nhớ cache hiệu quả làm giảm lưu lượng xe buýt giữa bất kỳ một bộ xử lý và memory.As chính số bộ xử lý tăng lên, giao thông xe buýt này cũng tăng lên. Ngoài ra, các xe buýt được sử dụng để trao đổi tín hiệu bộ nhớ cache chặt chẽ, tiếp tục thêm vào
gánh nặng. Tại một số điểm, xe buýt sẽ trở thành một nút cổ chai hiệu suất. Suy giảm hiệu suất dường như hạn chế số lượng bộ vi xử lý trong một cấu hình SMP
17.6 / không đồng dạng bộ nhớ truy cập 661
đến nơi nào đó giữa 16 và 64 bộ xử lý. Ví dụ, Silicon Graphics 'Power
Challenge SMP được giới hạn đến 64 bộ vi xử lý R10000 trong một hệ thống duy nhất; vượt ra ngoài này
làm giảm hiệu suất số lượng đáng kể.
Giới hạn bộ xử lý trong một SMP là một trong những động lực thúc đẩy sự phát triển của hệ thống cluster. Tuy nhiên, với một cụm, mỗi node có riêng của nó
bộ nhớ chính; các ứng dụng không thấy một bộ nhớ lớn toàn cầu. Trong thực tế, sự liên lạc được
duy trì trong phần mềm chứ không phải là hardware.This bộ nhớ granularity ảnh hưởng đến hiệu suất và, để đạt được hiệu suất tối đa, phần mềm phải phù hợp với môi trường này. Một cách tiếp cận để đạt được quy mô lớn đa trong khi giữ lại
hương vị của SMP là Numa. Ví dụ, hệ thống Silicon Graphics xứ Numa được
thiết kế để hỗ trợ lên đến 1.024 bộ vi xử lý MIPS R10000 [WHIT97] và Sequent
hệ thống NUMA-Q được thiết kế để hỗ trợ lên đến 252 bộ vi xử lý Pentium II [LOVE96].
Mục tiêu với NUMA là để duy trì một bộ nhớ rộng hệ thống minh bạch
trong khi cho phép nhiều nút đa, mỗi xe buýt riêng của mình hoặc khác
hệ thống kết nối nội bộ.
Tổ chức
Hình 17.13 mô tả một tổ chức CC-NUMA điển hình. Có nhiều nút độc lập, mỗi trong số đó là, có hiệu lực, một tổ chức SMP. Như vậy, mỗi nút chứa nhiều bộ xử lý, mỗi với cache L1 và L2 của riêng mình, cộng với bộ nhớ chính.
Các nút là các khối xây dựng cơ bản của các tổ chức CC-NUMA tổng thể. Đối với
ví dụ, mỗi nút Silicon Graphics xứ bao gồm hai bộ xử lý MIPS R10000;
mỗi Sequent nút NUMA-Q bao gồm bốn bộ vi xử lý Pentium II. Các nút được
kết nối với nhau bằng các phương tiện của một số cơ sở truyền thông, mà có thể là một cơ chế chuyển đổi, một chiếc nhẫn, hoặc một số thiết bị mạng khác.
Mỗi nút trong hệ thống CC-NUMA bao gồm một số bộ nhớ chính. Từ
quan điểm của các bộ vi xử lý, tuy nhiên, chỉ có một bộ nhớ địa chỉ duy nhất,
với mỗi vị trí có một hệ thống duy nhất địa chỉ rộng. Khi một bộ xử lý khởi tạo
một truy cập bộ nhớ, nếu các vị trí bộ nhớ được yêu cầu không có trong bộ nhớ cache của bộ xử lý,
sau đó bộ nhớ cache L2 khởi tạo một hoạt động lấy. Nếu dòng mong muốn là trong phần địa phương
của bộ nhớ chính, dòng được lấy trên xe buýt địa phương. Nếu dòng mong muốn là trong một
phần từ xa của bộ nhớ chính, sau đó là một yêu cầu tự động được gửi ra để lấy
dòng trên mạng kết nối, cung cấp nó cho các xe buýt địa phương, và sau đó
cung cấp nó cho các yêu cầu bộ nhớ cache trên xe buýt đó. Tất cả các hoạt động này là tự động và
minh bạch để xử lý và bộ nhớ cache của nó.
Trong cấu hình này, bộ nhớ cache sự gắn kết là một mối quan tâm chính. Mặc dù việc triển khai khác nhau như thông tin chi tiết, nói chung chúng ta có thể nói rằng mỗi nút phải
duy trì một số loại thư mục đó cung cấp cho nó một dấu hiệu của các vị trí khác nhau của
các phần của bộ nhớ và các thông tin trạng thái của bộ nhớ cache. Để xem cách chương trình này
hoạt động, chúng tôi cung cấp một ví dụ lấy từ [PFIS98]. Giả sử rằng bộ xử lý 3 vào nút
2 (P2-3) yêu cầu một vị trí bộ nhớ 798, đó là trong bộ nhớ của nút 1. Trình tự sau đây xảy ra:
1. P2-3 đưa ra một yêu cầu đọc trên xe buýt lục lạo của nút 2 cho vị trí 798.
2. Các thư mục trên nút 2 thấy yêu cầu và nhận ra rằng vị trí là ở
nút 1.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.