Cung cấp giải pháp công nghệ được kiểm định kỹ lưỡng về chất lượng.

Dell EMC PowerEdge XE8545 : Một Quái Vật AI được Thiết Kế cho Hiệu Năng Cao

Máy chủ Dell EMC PowerEdge XE8545 là một nền tảng 4U cung cấp cơ sở hạ tầng AI hoàn toàn. Nó được thiết kế cho Trí tuệ Nhân tạo (AI), Học máy (Machine Learning), và cả suy luận (Inference), Phân tích (Analytics) và một loạt các ứng dụng điện toán hiệu năng cao khác. Nó được trang bị hai bộ vi xử lý AMD EPYC Milan thế hệ thứ 3 với tối đa 64 nhân Zen 3 mỗi bộ và hỗ trợ 4 GPU Nvidia SMX4 A100 với công nghệ NVLink.

Trước đây, và ý chúng tôi muốn nói đến khoảng hai năm trước, đây là sản phẩm của năm 2021 theo CRN. Chúng tôi sẽ đề cập rằng thực sự có một phiên bản dựa trên Intel của cùng hệ thống này nhưng đó là XE9680. Ngoài điện toán AI, học máy và suy luận, nó cũng có thể được sử dụng cho các môi trường nhiều người thuê với ảo hóa. Các GPU A100 được hỗ trợ trên nền tảng này có thể được phân đoạn để cung cấp nhiều phiên bản cho nhiều người dùng. Các tùy chọn đa thuê và ảo hóa được nhúng trong kiến trúc GPU với hỗ trợ MIG hoặc khả năng GPU đa phiên bản và phần mềm GPU ảo của Nvidia cung cấp một bộ tùy chọn ảo hóa linh hoạt.

Đối với một nền tảng hiệu năng cao như vậy, hệ thống này vẫn có độ sâu rack tiêu chuẩn kết hợp với làm mát bằng không khí để dễ dàng tích hợp với cơ sở hạ tầng hiện có của bạn. Mặt bezel phía trước có khóa và bảng điều khiển LCD tùy chọn.

Khi được tháo ra, có 10 khoang lưu trữ 2,5 inch trên Máy chủ Dell EMC PowerEdge XE8545. Hỗ trợ backplane đa năng, hệ thống có thể được cấu hình với các loại ổ SAS và SATA. Một cấu hình thay thế bao gồm tối đa 8 ổ SSD U.2 NVMe với 8 đầu nối PCIe NVMe trên bo mạch hệ thống. Sử dụng các ổ NVMe giúp giảm độ trễ và giữ dữ liệu gần CPU khi xử lý các tập dữ liệu lớn. Một hàng 12 quạt GPU hot-swap nằm ngay bên dưới các khoang ổ.

Như đã đề cập trước đây, vào khoảng hai năm trước (2021), sản phẩm này đã được CRN vinh danh là Sản phẩm của năm. cần lưu ý rằng còn có một phiên bản khác dựa trên nền tảng Intel của cùng hệ thống này, đó là XE9680. Ngoài điện toán AI, học máy và suy luận, máy chủ này cũng có thể được sử dụng cho các môi trường nhiều người thuê với ảo hóa. Các GPU A100 được hỗ trợ trên nền tảng này có thể được phân chia để cung cấp nhiều phiên bản cho nhiều người dùng. Các tùy chọn đa thuê và ảo hóa được tích hợp sẵn trong kiến trúc GPU với hỗ trợ MIG (khả năng GPU đa phiên bản) và phần mềm GPU ảo của Nvidia, cung cấp một bộ tùy chọn ảo hóa linh hoạt.

Mặc dù là một nền tảng hiệu năng cao, hệ thống này vẫn có độ sâu rack tiêu chuẩn kết hợp với làm mát bằng không khí, giúp dễ dàng tích hợp với cơ sở hạ tầng hiện có của bạn. Mặt bezel phía trước có khóa và tùy chọn thêm bảng điều khiển LCD.

Khi mở mặt trước, bạn sẽ thấy 10 khay chứa ổ lưu trữ 2.5 inch trên máy chủ Dell EMC PowerEdge XE8545. Nhờ backplane đa năng, hệ thống có thể được cấu hình với các loại ổ SAS và SATA. Một tùy chọn khác là sử dụng tối đa 8 ổ cứng thể rắn U.2 NVMe với 8 đầu nối PCIe NVMe trên bo mạch chủ. Sử dụng ổ NVMe giúp giảm thiểu độ trễ và giữ dữ liệu gần CPU hơn khi xử lý các tập dữ liệu lớn. Một dãy 12 quạt tản nhiệt cho GPU có قابلیت thay nóng (hot-swap) nằm ngay bên dưới các khay chứa ổ.

Mặt điều khiển bên phải (right server ear) chứa nút nguồn (power ON), một cổng USB 2.0 nằm cạnh cổng VGA và một cổng micro-AB USB. Mặt điều khiển bên trái (left control panel) có đèn báo trạng thái Sức khỏe hệ thống (System Health) và Nhận dạng hệ thống (System ID), bên cạnh đó là một vài đèn LED báo trạng thái khác bao gồm Ổ đĩa (Drives), Nhiệt độ (Temperature), Điện (Electrical), Bộ nhớ (Memory) và PCIe.

Ngoài các tùy chọn quản lý khung máy, máy chủ còn hỗ trợ QuickSync 2.0, sử dụng ứng dụng di động OpenManage. Ứng dụng OpenManage dành cho thiết bị di động tương thích với các thiết bị iOS hoặc Android, cho phép bạn quản lý máy chủ từ xa thông qua điện thoại thông minh hoặc máy tính bảng.

Ngoài ra, bạn có thể lựa chọn mua thêm Bezel với bảng điều khiển LCD tùy chọn. Màn hình LCD này hiển thị thông tin hệ thống, trạng thái, thông báo lỗi và cũng có thể được sử dụng để cấu hình hoặc xem địa chỉ IP iDRAC của Máy chủ Dell EMC PowerEdge XE8545.

Cổng iDRAC ở mặt sau của hệ thống cho phép truy cập từ xa vào hệ thống. Cổng ở mặt trước cũng cho phép sử dụng crash cart (xe cứu hộ) với màn hình, bàn phím và chuột để truy cập nhanh vào iDRAC để quản lý khung máy của hệ thống.

iDRAC với Lifecycle Controller giúp hệ thống luôn cập nhật và cũng có thể được sử dụng để cài đặt hệ điều hành, cấu hình, bảo trì và chẩn đoán. Nền tảng này cũng có thể sử dụng bộ công cụ OpenManage của Dell để quản lý hệ thống trong môi trường vật lý, ảo, cục bộ và từ xa theo kiểu in-band hoặc out-of-band (truy cập trực tiếp hoặc từ xa). Ngoài ra, nó còn cung cấp khả năng quản lý nhiều máy chủ Dell PowerEdge cùng một lúc và có thể tích hợp với các bảng điều khiển của bên thứ ba như Microsoft System Center, VMware vCenter, Ansible Modules và ServiceNow.

Ngoài ra, iDRAC với Lifecycle Controller còn kết nối với Miro Focus và các công cụ HPE khác, cùng với IBM Tivoli và Nagios Core.

Mặt sau của máy chủ có một hàng gồm 4 nguồn dự phòng có thể cắm nóng (hot-plug) với công suất 2400W chuẩn Platinum hoặc 2800W chuẩn Titanium, hỗ trợ cả chế độ nguồn hỗn hợp. Tùy thuộc vào cách cấu hình hệ thống, có ba chính sách dự phòng nguồn: Không dự phòng, Dự phòng nguồn và Dự phòng lưới điện A/B.

  • Không dự phòng (Not Redundant): Chế độ này không có tính năng dự phòng nguồn.
  • Dự phòng nguồn (PSU Redundant): Chế độ này cung cấp tính năng dự phòng nguồn cơ bản. Nếu một PSU bị lỗi, các PSU khác còn hoạt động sẽ đảm bảo hệ thống vẫn chạy.
  • Dự phòng lưới điện A/B (A/B Grid Redundant): Đây là một dạng dự phòng nguồn nâng cao. Hệ thống chia các PSU thành hai lưới điện ảo (Grid A và Grid B). Ví dụ, nếu có 4 PSU, máy chủ có thể đặt PSU 1 và 3 vào Grid A, PSU 2 và 4 vào Grid B. Nếu một PSU trong Grid A bị lỗi, các PSU trong Grid B sẽ tự động đảm nhận cấp nguồn, giúp hệ thống hoạt động ổn định.

Ngoài ra, hệ thống này còn có tính năng dự phòng nóng (hot-spare) để giảm thiểu mức tiêu thụ điện năng lãng phí. Tính năng này giúp hệ thống tự động chuyển sang sử dụng PSU dự phòng khi một PSU chính bị lỗi, đảm bảo hoạt động liên tục mà không cần ngắt máy chủ.

Phía trên các thành phần vừa đề cập ở mặt sau máy chủ, bạn sẽ thấy:

  • Hai cổng NIC 1GbE được tích hợp trên card LOM. Card LOM này có thể tháo rời và được kết nối với bo mạch chủ.
  • Khe cắm card OCP 3.0 tùy chọn, cung cấp nhiều lựa chọn về cổng kết nối và tốc độ đường truyền tùy theo nhu cầu của bạn.
  • Nút ID tích hợp đèn LED, cổng mLAN để truy cập iDRAC cho quản lý hệ thống từ xa.
  • Hai cổng USB, gồm một cổng 2.0 ở phía trên và một cổng 3.0 ở phía dưới.
  • Cổng VGA để kết nối màn hình.
  • Các nắp che khe cắm PCIe và một tay cầm (có vẻ không cần thiết) để hỗ trợ độ cứng cho vỏ máy chủ. Do hệ thống này sẽ khá nặng khi được lắp đầy linh kiện, nên hai bên khung máy chủ có hai tay cầm để dễ dàng di chuyển.

Mở nắp máy chủ, bạn sẽ nhìn thấy một số riser được gắn ở mặt sau. Riser 1, 3 và 4 nằm ở trên cùng, riser 2 nằm bên dưới riser 3 ở giữa. Hệ thống có thể được trang bị ba khe cắm PCIe 4.0 x16 hoặc hai khe cắm PCIe 4.0 x16 và hai khe cắm PCIe 4.0 x8. Các khe cắm PCIe này dùng để hỗ trợ thêm các thiết bị I/O tốc độ cao.

Ngoài việc cắm các thiết bị I/O tốc độ cao, các khe cắm PCIe còn có thể lắp đặt:

  • Thẻ BOSS dựa trên PCIe với hai ổ M.2 NVMe: Thẻ này dùng để khởi động hệ thống.
  • Thẻ điều khiển PERC hoặc PowerEdge RAID: Các loại card điều khiển phổ biến bao gồm H745 hoặc H755. Card này dùng để quản lý và cấu hình ổ cứng gắn trong máy chủ, giúp cải thiện hiệu suất và độ tin cậy của hệ thống lưu trữ.

Một dãy gồm 6 quạt gió hoạt động để hút không khí mát từ phía trước máy chủ, sau đó thổi qua CPU, các thanh RAM, rồi qua các khe cắm PCIe và thoát ra ngoài mặt sau. Toàn bộ cụm quạt này có thể được tháo rời như một khối hoặc từng quạt riêng lẻ có thể được thay thế nếu cần thiết.

A black plastic air shroud, when removed exposes the CPUs and memory modules. Under the mid-cover is the GPU Air shroud which covers the GPUs and NVLink board in the lower portion of the chassis.

Bên trong máy chủ được che chắn bởi một tấm chắn khí (air shroud) bằng nhựa màu đen. Tháo tấm chắn này ra, bạn sẽ thấy CPU và các thanh RAM. Bên dưới lớp vỏ che trung tâm (mid-cover) là tấm chắn khí dành riêng cho GPU (GPU Air shroud), che phủ các GPU và bo mạch NVLink nằm ở phần dưới của khung máy.

Bên dưới tấm che là bo mạch NVLink hỗ trợ tối đa 4 GPU A100 SXM4. Để đảm bảo các GPU này luôn mát mẻ, nắp che bằng nhựa sẽ dẫn luồng không khí sạch từ dãy 10 quạt gió phía trước qua các bộ tản nhiệt lớn. Bạn cũng có thể nhìn thấy backplane (bo mạch nền) dành cho các ổ lưu trữ của hệ thống với nhiều đầu nối khác nhau, bao gồm một vài đầu nối PCIe NVMe. Các đầu nối này được kết nối bằng cáp với bo mạch chủ để hỗ trợ ổ cứng. Backplane này cũng có thể dễ dàng tháo rời mà không cần dụng cụ.

Máy chủ này chỉ hỗ trợ các thanh RAM DDR4 dung lượng 32GB và 64GB. Nếu lắp đầy tất cả 32 khe cắm DIMM với thanh RAM 64GB, bạn có thể đạt dung lượng tối đa 2TB. Tài liệu cũng đề cập đến dung lượng tối đa 256GB trên mỗi kênh bộ nhớ, cho phép đạt tổng dung lượng lên đến 4TB nếu tận dụng được hết khả năng.

Máy chủ Dell EMC PowerEdge XE8545 được trang bị 4 GPU NVIDIA A100 SXM4 Tensor Core, đóng vai trò như trợ thủ đắc lực cho CPU. Hệ thống này đạt chứng nhận bởi NVIDIA, hỗ trợ kiến trúc NVIDIA Ampere trên các GPU A100. Nhờ đó, máy chủ có thể đáp ứng nhu cầu xử lý rộng rãi cho các tác vụ song song đòi hỏi hiệu năng cao, chẳng hạn như học máy (machine learning), suy luận AI (AI inference) và cả các khối lượng công việc ảo hóa nhờ tính năng MIG (Multi-Instance GPU – GPU đa phiên bản).

Tính năng MIG (Multi-Instance GPU) cho phép phân chia một GPU A100 thành 7 phiên bản GPU riêng biệt, giúp tận dụng hiệu quả tài nguyên cho các khối lượng công việc ảo hóa. So với thế hệ trước sử dụng kiến trúc Volta, hiệu năng của các GPU này được cải thiện đến 20 lần. Phiên bản 80GB còn đi kèm với băng thông bộ nhớ nhanh nhất thế giới, vượt quá 2TB mỗi giây.

Đúng như bạn nghĩ, băng thông bộ nhớ 2TB mà bạn đề cập có thể là chỉ tốc độ trao đổi dữ liệu nội bộ giữa các nhân Tensor và bộ nhớ của chính GPU A100 chứ không phải tốc độ truyền thông giữa các GPU với nhau.

Tốc độ 2TB/giây có thể là thông lượng dữ liệu bên trong GPU, khi các nhân Tensor xử lý các phép tính và trao đổi dữ liệu với bộ nhớ của nó trước khi đưa ra kết quả cuối cùng.

Trong khi đó, 600GB/giây là tốc độ truyền thông tin thực tế giữa các GPU thông qua card kết nối NVLink của NVIDIA. Đây là tốc độ cho phép các GPU phối hợp làm việc với nhau để giải quyết các tác vụ đòi hỏi xử lý song song lớn, chẳng hạn như học máy và suy luận AI.

Bạn có thể lựa chọn giữa hai loại GPU NVIDIA A100 SXM4:

  • NVIDIA 400W A100 40GB: Đây là lựa chọn tiêu chuẩn, phù hợp với cấu hình thông thường.
  • NVIDIA 500W A100 80GB: Đi kèm với dung lượng bộ nhớ lớn hơn (80GB) nhưng cũng tiêu thụ nhiều điện năng hơn (500W).

Hệ thống làm mát của máy chủ này được thiết kế để xử lý tốt cả hai loại GPU. Tuy nhiên, nếu bạn chọn phiên bản 500W, hệ thống sẽ kích hoạt cảnh báo nhiệt độ ở 28 độ C thay vì 38 độ C thông thường để ngăn ngừa quá nhiệt và hư hỏng cho máy chủ.

Máy chủ Dell EMC PowerEdge XE8545 là một quái vật tính toán được thiết kế để đáp ứng các ứng dụng đòi hỏi hiệu suất cao như điện toán hiệu năng năng suất (HPC), trí tuệ nhân tạo (AI), suy luận AI (AI inference) và học máy (machine learning). Trong khi hầu hết các máy chủ ngày nay đều có tính năng hỗ trợ AI ở một mức độ nào đó, thì XE8545 được “sinh ra” để thống trị mảng này với 4 GPU SXM4 A100. Bên cạnh đó, sức mạnh xử lý của máy chủ còn được tăng cường nhờ vi xử lý kép AMD EPYC Milan thế hệ thứ 3, cung cấp tổng cộng 128 nhân, giúp bạn xử lý khối lượng công việc nhanh chóng và đạt hiệu quả tối ưu.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *