G4 PowerPC Microprocessor This pape

G4 PowerPC Microprocessor

This paper discussions the design of the PowerPC G4 with AltiVec and the tradeoffs that the designers encountered during the design and simulation phases.� Their goals were to find the "...places in the microarchitecture where significant gain could be found," excluding changes which would cause only minor gains at the expense of more chip area and higher complexity.

To compare different potential enhancements and features, the designers built a simulator they called the Defiant, which in turn had been based on an older simulator named ADAPT, itself the performance simulator used on the previous generation processor.� The team used Defiant to test different features looking for significant performance gains.�
Instruction traces were used, primarily from SpecInt95, SpecFp95, and a multimedia applications benchmark suite named MediaMark.� The main features studied were pipeline length, throughput, number of reorder buffers, and branch prediction strategies.

Their initial design specs called for a microprocessor consisting of a central core, a 256 KB on-chip L2 cache, with a minimum target frequency of 700Mhz.� This core was to be a high-performance PowerPC processor with 32 KB L1 cache plus the hardware implementing the AltiVec ISA extensions.� The cache was to be single ported, 8-way set
associative.� Eventually the design team decided upon 16 reorder buffers, capability to dispatch and complete 3 instructions plus one branch extra for folding and executing branches, and 11 execution units.� The latter included 3 integer ALUs, one complex integer ALU, one FPU, a vector and permute unit (presumably for the AltiVec extensions), one load/store unit, and a branch unit.� The decision to dispatch and complete only 3 instructions was made because that was the point beyond which increased complexity made the diminishing returns of increasing machine width undesirable.

To achieve higher clock frequency the designers chose to use a longer pipeline consisting of 7 stages.� Fetch was split into two, followed by Dispatch/Branch, Issue, Execute, Complete, and Writeback.� The main cache access was split into two cycles.� Although this allowed higher clock rates, it also potentially decreased the total amount of parallelism available, this due to increased branch penalties and other inefficiencies.

The decision to split the primary cache access was made because of issues with the 32 KB cache, which otherwise could not have been accessed at the desired frequency.� Another option was to increase the size of the cache, but this was deemed undesirable because of the added chip real-estate this would have required.� A third option was to make the data cache with two ports instead of one, but this would have greatly increased complexity and chip area, in turn impacting the time it would take to deliver the architecture to the market, all in addition to negatively impacting the frequency, so this option, too, was scuttled.

The designers also found they needed to split dispatch and issue into two phases instead of the regular one.� To do otherwise within one cycle would have required increased cycle length.� The designers also mention they encountered difficulties in estimating the time needed to read instructions from the reorder buffers and route them to their respective execution units, resolving this problem by giving a separate issue queue
to each of the main portions of the core microarchitecture: The general purpose unit, AltiVec, and the FPU.

On branch prediction, they compared gshare and bimodal, finding that, disappointingly, gshare caused only minor improvement over bimodal branch prediction.� As a consequence, they decided to implement bimodal branch prediction for the final architecture.

G4 PowerPC Microprocessor
 
This paper discussions the design of the PowerPC G4 with AltiVec and the tradeoffs that the designers encountered during the design and simulation phases.� Their goals were to find the "...places in the microarchitecture where significant gain could be found," excluding changes which would cause only minor gains at the expense of more chip area and higher complexity.
 
To compare different potential enhancements and features, the designers built a simulator they called the Defiant, which in turn had been based on an older simulator named ADAPT, itself the performance simulator used on the previous generation processor.� The team used Defiant to test different features looking for significant performance gains.�
Instruction traces were used, primarily from SpecInt95, SpecFp95, and a multimedia applications benchmark suite named MediaMark.� The main features studied were pipeline length, throughput, number of reorder buffers, and branch prediction strategies.
 
Their initial design specs called for a microprocessor consisting of a central core, a 256 KB on-chip L2 cache, with a minimum target frequency of 700Mhz.� This core was to be a high-performance PowerPC processor with 32 KB L1 cache plus the hardware implementing the AltiVec ISA extensions.� The cache was to be single ported, 8-way set
associative.� Eventually the design team decided upon 16 reorder buffers, capability to dispatch and complete 3 instructions plus one branch extra for folding and executing branches, and 11 execution units.� The latter included 3 integer ALUs, one complex integer ALU, one FPU, a vector and permute unit (presumably for the AltiVec extensions), one load/store unit, and a branch unit.� The decision to dispatch and complete only 3 instructions was made because that was the point beyond which increased complexity made the diminishing returns of increasing machine width undesirable.
 
To achieve higher clock frequency the designers chose to use a longer pipeline consisting of 7 stages.� Fetch was split into two, followed by Dispatch/Branch, Issue, Execute, Complete, and Writeback.� The main cache access was split into two cycles.� Although this allowed higher clock rates, it also potentially decreased the total amount of parallelism available, this due to increased branch penalties and other inefficiencies.
 
The decision to split the primary cache access was made because of issues with the 32 KB cache, which otherwise could not have been accessed at the desired frequency.� Another option was to increase the size of the cache, but this was deemed undesirable because of the added chip real-estate this would have required.� A third option was to make the data cache with two ports instead of one, but this would have greatly increased complexity and chip area, in turn impacting the time it would take to deliver the architecture to the market, all in addition to negatively impacting the frequency, so this option, too, was scuttled.
 
The designers also found they needed to split dispatch and issue into two phases instead of the regular one.� To do otherwise within one cycle would have required increased cycle length.� The designers also mention they encountered difficulties in estimating the time needed to read instructions from the reorder buffers and route them to their respective execution units, resolving this problem by giving a separate issue queue
to each of the main portions of the core microarchitecture: The general purpose unit, AltiVec, and the FPU.
 
On branch prediction, they compared gshare and bimodal, finding that, disappointingly, gshare caused only minor improvement over bimodal branch prediction.� As a consequence, they decided to implement bimodal branch prediction for the final architecture.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

G4 Bộ vi xử lý PowerPC Điều này giấy thảo luận thiết kế của PowerPC G4 với AltiVec và cân bằng các nhà thiết kế gặp phải trong thiết kế và mô phỏng giai đoạn. mục tiêu của họ là để tìm các ".. .places trong microarchitecture nơi đạt được đáng kể có thể được tìm thấy," không bao gồm những thay đổi đó sẽ gây ra chỉ nhỏ lợi nhuận tại các chi phí thêm chip lá và độ phức tạp cao. Để so sánh cải tiến tiềm năng khác nhau và các tính năng, các nhà thiết kế xây dựng một mô phỏng họ gọi là Defiant, mà lần lượt có được dựa trên một mô phỏng cũ hơn có tên ADAPT, chính nó sử dụng trình mô phỏng đấu hiệu suất trên bộ xử lý thế hệ trước. đội sử dụng Defiant để kiểm tra tính năng khác nhau tìm kiếm đáng kể hiệu suất lợi nhuận.Dấu vết hướng dẫn đã được sử dụng, chủ yếu là từ SpecInt95, SpecFp95, và một ứng dụng đa phương tiện chuẩn bộ được đặt tên MediaMark. nghiên cứu các tính năng chính là chiều dài đường ống, băng thông, số lượng các bộ đệm sắp xếp lại, và chi nhánh dự báo chiến lược. Của số kỹ thuật thiết kế ban đầu được gọi là cho một vi xử lý bao gồm một lõi trung tâm, một trên chip 256 KB L2 cache, with a tần số mục tiêu tối thiểu của 700 Mhz. lõi này đã là một bộ xử lý PowerPC hiệu suất cao với bộ nhớ cache L1 32 KB cộng với phần cứng thực hiện phần mở rộng AltiVec ISA. bộ nhớ cache là phải duy nhất được chuyển, 8-cách thiết lậpkết hợp. cuối cùng đội ngũ thiết kế quyết định khi 16 sắp xếp lại các bộ đệm, khả năng để gọi khẩn cấp và hoàn thành 3 hướng dẫn cộng với một chi nhánh phụ cho gấp và thực hiện các chi nhánh, và 11 thực hiện đơn vị sau này bao gồm 3 nguyên ALUs, một khu phức hợp nguyên ALU, một FPU, một vector và permute đơn vị (có lẽ cho các phần mở rộng AltiVec), một tải/cửa hàng đơn vị, và một chi nhánh đơn vị quyết định gọi khẩn cấp và hoàn thành chỉ có 3 hướng dẫn đã được thực hiện bởi vì đó là điểm vượt ra ngoài đó tăng phức tạp thực hiện giảm dần trở về ngày càng tăng máy rộng khách sạn được không mong muốn. Để đạt được tần số đồng hồ cao hơn các nhà thiết kế đã chọn để sử dụng một đường ống dài hơn bao gồm 7 giai đoạn. lấy được chia thành hai, theo công văn/chi nhánh, vấn đề, thực hiện, hoàn thành, và Writeback. truy cập bộ nhớ cache chính được chia thành hai chu kỳ. mặc dù điều này cho phép đồng hồ tỷ lệ cao hơn, nó cũng có khả năng giảm tổng số tiền xử lý song song có sẵn, điều này do chi nhánh tăng hình phạt và thiếu hiệu quả khác. Quyết định tách truy cập bộ nhớ cache chính đã được thực hiện bởi vì các vấn đề với bộ nhớ cache 32 KB, mà nếu không có thể không có được truy cập tại tần số bạn muốn. một lựa chọn khác là để tăng kích thước bộ nhớ cache, nhưng điều này được coi là không mong muốn vì chip thêm bất động sản này sẽ có yêu cầu. một lựa chọn thứ ba là để làm cho bộ nhớ cache dữ liệu với hai cảng thay vì một , nhưng điều này sẽ có tăng lên rất nhiều phức tạp và chip lá, lần lượt ảnh hưởng đến thời gian nó sẽ làm để cung cấp các kiến trúc cho thị trường, tất cả ngoài tiêu cực ảnh hưởng đến tần số, do đó, điều này tùy chọn, quá, bị đánh chìm. Các nhà thiết kế cũng tìm thấy họ cần thiết để phân chia công văn và các vấn đề thành hai giai đoạn thay vì thường xuyên một. nếu không trong một chu kỳ nào có yêu cầu chiều dài chu kỳ tăng. các nhà thiết kế cũng đề cập đến họ gặp khó khăn trong ước tính thời gian cần thiết để đọc hướng dẫn từ bộ đệm sắp xếp lại và con đường chúng để đơn vị thực hiện tương ứng của họ, giải quyết vấn đề này bằng cách đưa ra một hàng đợi vấn đề riêng biệtđể mỗi người trong số các phần chính của cốt lõi microarchitecture: đơn vị thông dụng, AltiVec và FPU. Chi nhánh dự đoán, họ so sánh với gshare và bimodal, việc tìm kiếm, disappointingly, gshare gây ra chỉ cải thiện nhỏ hơn chi nhánh bimodal dự đoán. kết quả là, họ đã quyết định để thực hiện bimodal chi nhánh dự đoán cho kiến trúc cuối cùng.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

G4 PowerPC vi xử thảo luận bài báo này thiết kế của G4 PowerPC với AltiVec và cân bằng mà các nhà thiết kế gặp phải trong quá trình thiết kế và mô phỏng các giai đoạn. Mục đích của họ là để tìm "... nơi trong vi kiến trúc nơi tăng đáng kể có thể được tìm thấy, "không bao gồm những thay đổi đó sẽ gây ra chỉ tăng nhẹ tại các chi phí của khu vực chip ngày càng phức tạp cao hơn. Để so sánh cải tiến tiềm năng và các tính năng khác nhau, các nhà thiết kế xây dựng một mô phỏng mà họ gọi là những thách thức, do đó đã được dựa trên một giả lớn tuổi hơn tên ADAPT , bản thân các mô phỏng hiệu suất sử dụng trên các bộ xử lý thế hệ trước. Nhóm nghiên cứu sử dụng thách thức để thử nghiệm các tính năng khác nhau tìm kiếm tăng hiệu suất đáng kể. dấu vết Chỉ thị đã được sử dụng, chủ yếu từ SpecInt95, SpecFp95, và một bộ các ứng dụng đa phương tiện chuẩn đặt tên Mediamark. Các Các tính năng chính của nghiên cứu là chiều dài đường ống, thông lượng, số lượng bộ đệm sắp xếp lại, và các chiến lược dự báo nhánh. thông số kỹ thuật thiết kế ban đầu của họ được gọi là một bộ vi xử lý bao gồm một lõi trung tâm, 256 KB bộ nhớ cache trên chip L2, với một tần số mục tiêu tối thiểu 700MHz. lõi này đã là một bộ xử lý PowerPC hiệu suất cao với 32 KB cache L1 cộng với phần cứng thực hiện các phần mở rộng AltiVec ISA. Các bộ nhớ cache đã được đơn được chuyển, 8-cách thiết lập liên kết. Cuối cùng nhóm thiết kế quyết định 16 sắp xếp lại đệm, khả năng điều động và đầy đủ 3 hướng dẫn cộng với một chi nhánh phụ cho gấp và thực hiện các chi nhánh, và 11 đơn vị thực hiện. Sau này bao gồm 3 số nguyên ALU, một số nguyên phức tạp ALU, một FPU, một vector và hoán vị đơn vị (có lẽ cho AltiVec mở rộng), một đơn vị tải / cửa hàng, và một đơn vị chi nhánh. Các quyết định điều động và chỉ hoàn thành 3 hướng dẫn đã được thực hiện bởi vì đó là điểm xa hơn mà phức tạp tăng lên làm cho lợi nhuận giảm sút tăng chiều rộng máy không mong muốn. Để đạt được tần số đồng hồ cao hơn các nhà thiết kế đã chọn để sử dụng một đường ống dài hơn gồm 7 giai đoạn. Fetch được chia thành hai, tiếp theo công văn / Chi nhánh, Issue, Thực hiện, hoàn thành, và writeback. Việc truy cập bộ nhớ cache chính được chia thành hai chu kỳ. Mặc dù điều này cho phép tốc độ xung nhịp cao hơn, nó cũng có khả năng làm giảm tổng số tiền xử lý song song có sẵn, điều này do tăng hình phạt chi nhánh và thiếu hiệu quả khác. Các quyết định để phân chia các truy cập bộ nhớ cache chính đã được thực hiện vì các vấn đề với 32 KB bộ nhớ cache, mà nếu không thể có được truy cập tại các tần số mong muốn. Một lựa chọn khác là để tăng kích thước của bộ nhớ cache, nhưng điều này được coi là không mong muốn vì thêm con chip bất động sản này sẽ có yêu cầu. Một lựa chọn thứ ba là làm cho bộ nhớ cache dữ liệu với hai cổng thay vì một, nhưng điều này sẽ tăng lên rất nhiều phức tạp và diện tích chip, lần lượt ảnh hưởng đến thời gian nó sẽ có được để cung cấp những kiến trúc thị trường, tất cả trong ngoài tác động tiêu cực đến tần số, vì vậy tùy chọn này, quá, đã được đánh đắm. Các nhà thiết kế cũng nhận thấy họ cần phải chia công văn và vấn đề thành hai giai đoạn, thay cho một thường xuyên. Để làm gì khác trong vòng một chu kỳ sẽ có yêu cầu độ dài chu kỳ tăng. Các nhà thiết kế cũng đề cập đến họ gặp khó khăn trong việc ước tính thời gian cần thiết để đọc hướng dẫn từ sắp xếp lại bộ đệm và tuyến đường cho các đơn vị thực hiện nhiệm vụ, giải quyết vấn đề này bằng cách cho một hàng đợi vấn đề riêng biệt cho mỗi phần chính của vi kiến trúc lõi. Các đơn vị nói chung mục đích, AltiVec, và FPU On dự đoán chi nhánh, họ so sánh gshare và hai mốt, thấy rằng, thất vọng, gshare chỉ gây ra những cải tiến nhỏ hơn dự đoán chi nhánh hai mốt. Kết quả là, họ đã quyết định để thực hiện các dự báo chi nhánh hai mốt cho các cấu trúc cuối cùng.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.