ベンチマーク(NVIDIA Parabricks)
概要
本ページでは、NVIDIA Parabricks (以降 Parabricks と呼ぶ) というゲノム解析ツールの性能を、最新の NVIDIA H100 SXM 80GB GPU を 8 基搭載したハードウェア環境で詳細に検証した結果を掲載する。 我々の実験では、臨床研究で用いられる典型的な全ゲノムシークエンスデータセットを使用し、計算時間と出力結果の妥当性を評価した。 その結果、NVIDIA H100 GPU を搭載したシステムでは、従来の V100 を搭載したシステムと比べて計算速度を 2.3 倍以上高速化できると示された。
検証GPU環境
アプリケーションの実効性能比較のために、H100 搭載ノードの他に V100 搭載ノードも用いて性能評価を行った。 検証対象の H100 搭載ノードは、さくらインターネットが提供する高火力 PHY のベアメタルサーバ (以降 高火力 PHY) で実行され、V100 搭載ノードは、遺伝研スーパーコンピュータシステムが提供する Thin 計算ノード (Type 2b) (以降 遺伝研 igt) で実行した。 いずれも、単体のノードとして使用され、複数台のノード構成によるアプリケーション性能評価は行っていない。 この二つの異なる 環境下で運用されるノード間で、GPU 関連ドライバー等のバージョン違いなどに起因する実行性能への影響を防ぐ目的で、これまで対象アプリケーションの実行実績のある遺伝研 igt の環境設定を検証条件として採用し、高火力 PHY 上での環境構築を行った。 検証に利用した遺伝研 igt と高火力 PHY の GPU ノードのハードウェア環境およびソフトウェア環境を表1に示す。
表 1 検証ノード構成
遺伝研igt | 高火力PHY | |
---|---|---|
ハードウェア構成 | ||
CPU (総コア数) | Intel Xeon Gold 6136 3.0GHz x 2基 (24) | Intel Xeon Platinum 8480 2.0GHz x 2基 (112) |
メモリー | DDR4 384GB | DDR5 2.0TB |
GPU (FP64) | NVIDIA V100 SXM2 16GB (7.8 TFlops) x 4基 | NVIDIA H100 SXM5 80GB (33.5 Tflops ) x 8基 |
GPU間接続 | NVLink Hybid Cube Mesh | NVSwitch Fabric |
システムディスク | NVMe SSD 1.6TB x 1枚 | NVMe SSD 960GB x 2枚 (RAID1構成) |
データディスク | NVMe SSD 3.2TB x 1枚 | NVMe 7.68TB x 4枚 |
ソフトウェア構成 | ||
OS | Ubuntu Server 22.04 LTS | Ubuntu Server 22.04 LTS |
GPUドライバー | 530.30.02 | 530.30.02 |
CUDA | 12.1 | 12.1 |
Fabric Manager | N/A | UP |
Singularity CE | 4.0.0 | 4.0.0 |
ハードウェア構成
基本構成の違いとして、遺伝研 igt では 24 コアを持つ CPU に DDR4 の 384GB のメモリを採用しているのに対して、高火力 PHY では、112 コアに、2TB のメモリと強化されている。 加えて GPU に関しては、遺伝研 igt では、Volta GV100 アーキテクチャを採用した V100 SXM2 16GB をノード内に 4 枚収容し、NVLink Hybid Cube Mesh で GPU 間が相互に接続した構成に対して、高火力 PHY では、Hopper GH100 アーキテクチャを採用した H100 SXM5 80GB をノード内に 8 枚収容し、NVSwitch により 8 基の GPU 間を相互に高速接続している。
ソフトウェア構成
検証環境で構成される OS のディストリビューション、GPU を利用する際に不可欠なドライバー、管理ツール等 のソフトウェアスタックを、遺伝研 igt と高火力 PHY において可能な限り一致させる事で、対象とするアプリケーションの実装上の違い以外の差異を最小限に抑えた。 性能評価対象の高火力 PHY がベアメタルサーバであるのに対して、遺伝研 igt はマネージドクラスターでもあり、容易に OS 等と密接に関連したドライバーの変更はマネージドクラスターの運用に関わる事でもあるため、比較的柔軟に対応できるベアメタルサーバである高火力 PHY 側を遺伝研 igt のソフトウェア構成に合わ せた。ソフトウェアの実行には実際の分野研究で使われているワークフロー環境での実績を重視して、Singularity コンテナのプラットフォーム上での評価環境を構築した。
ストレージ環境
Parabricks の実行には、十分なサイズのデータセットを格納でき、高速に読み書きできるストレージ環境の確保は不可欠である。 遺伝研 igt および高火力 PHY は、高速な NVMe SSD をローカルストレージとして備えている事から、各アプリケーションの入出力用のストレージ領域として利用した。 検証に利用した遺伝研 igt と高火力 PHY の搭載されているストレージ構成と、fio コマンドによるファイルのシーケンシャルな READ/WRITE による I/O 性能測定結果を表2に示す。 測定対象にある/tmp は、システムディスク上の NVMe SSD を指している。 遺伝研 igt では/data 領域での性能に差は少なかった。 一方で、高火力 PHY では約 7 倍の性能差があった。