ベンチマーク(dorado)
1. はじめに
本ベンチマークでは最新の NVIDIA H100 SXM 80GB GPU を8基搭載したハードウェア環境上でナノポアシークエンサーの波形データを塩基(ベース)配列に変換する Dorado の計算時間の比較を行う。
Doradoは Oxford Nanopore 社の DNA シーケンサーのために開発されたベースコーラーである。ベースコーラーとは、シーケンサーがDNA分子を測定して得られた波形データを塩基(ベース)配列に変換するソフトウェアである。波形の変換には機械学習モデルが用いられており、数TBの波形データを高速にかつ正確に塩基配列に変換するためのアクセラレータとしてGPUが用いられている。
2. 検証GPU環境
アプリケーションの実効性能比較のために、H100搭載ノードの他にV100搭載ノードも用いて性能評価を行った。検証対象のH100搭載ノードは、さくらインターネットが提供する高火力PHYのベアメタルサーバ(以降 高火力PHY)で実行され、V100搭載ノードは、遺伝研スーパーコンピュータシステムが提供するThin計算ノード(Type 2b) (以降 遺伝研igt)で実行した。いずれも、単体のノードとして使用され、複数台のノード構成によるアプリケーション性能評価は行っていない。
この二つの異なる環境下で運用されるノード間で、GPU関連ドライバー等のバージョン違いなどに起因する実行性能への影響を防ぐ目的で、これまで対象アプリケーションの実行実績のある遺伝研igtの環境設定を検証条件として採用し、高火力PHY上での環境構築を行った。 検証に利用した遺伝研igtと高火力PHYのGPUノードのハードウェア環境およびソフトウェア環境を表1に示す。
表1 検証ノード構成
遺伝研igt | 高火力PHY | |
---|---|---|
Hardware構成 | ||
CPU (総コア数) | Intel Xeon Gold 6136 3.0GHz x 2基 (24) | Intel Xeon Platinum 8480 2.0GHz x 2基 (112) |
メモリー | DDR4 384GB | DDR5 2.0TB |
GPU (FP64) | NVIDIA V100 SXM2 16GB (7.8 TFlops) x 4基 | NVIDIA H100 SXM5 80GB (33.5 Tflops ) x 8基 |
GPU間接続 | NVLink Hybid Cube Mesh | NVSwitch Fabric |
システムディスク | NVMe SSD 1.6TB x 1枚 | NVMe SSD 960GB x 2枚 (RAID1構成) |
データディスク | NVMe SSD 3.2TB x 1枚 | NVMe 7.68TB x 4枚 |
Software構成 | ||
OS | Ubuntu Server 22.04 LTS | Ubuntu Server 22.04 LTS |
GPUドライバー | 530.30.02 | 530.30.02 |
CUDA | 12.1 | 12.1 |
Fabric Manager | N/A | UP |
Singularity CE | 4.0.0 | 4.0.0 |
2.1 ハードウェア構成
GPUに関しては、遺伝研igtでは、Volta GV100アーキテクチャを採用したV100 SXM2 16GBをノード内に4枚収容し、NVLink Hybid Cube MeshでGPU間が相互に接続した構成に対して、高火力PHYでは、Hopper GH100アーキテクチャを採用したH100 SXM5 80GBをノード内に8枚収容し、NVSwitchにより8基のGPU間を相互に高速接続している。
2.2 ソフトウェア構成
検証環境で構成されるOSのディストリビューション、GPUを利用する際に不可欠なドライバー、管理ツール等のソフトウェアスタックを、遺伝研igtと高火力PHYにおいて可能な限り一致させる事で、対象とするアプリケーションの実装上の違い以外の差異を最小限に抑えた。 性能評価対象の高火力PHY がベアメタルサーバであるのに対して、遺伝研igtはマネージドクラスターでもあり、容易にOS等と密接に関連したドライバーの変更はマネージドクラスターの運用に関わる事でもあるため、比較的柔軟に対応できるベアメタルサーバである高火力PHY側を遺伝研igtのソフトウェア構成に合わせた。 ソフトウェアの実行には実際の分野研究で使われているワークフロー環境での実績を重視して、Singularityコンテナのプラットフォーム上での評価環境を構築した。
3. ストレージ環境
Doradoの実行には、十分なサイズのデータセットを格納でき、高速に読み書きできるストレージ環境の確保は不可欠である。遺伝研igtおよび高火力PHYは、高速なNVMe SSDをローカルストレージとして備えている事から、各アプリケーションの入出力用のストレージ領域として利用した。検証に利用した遺伝研igtと高火力PHYの搭載されているストレージ構成と、fioコマンドによるファイルのシーケンシャルなREAD/WRITEによるI/O性能測定結果を表2に示す。 測定対象にある/tmpは、システムディスク上のNVMe SSDを指している。遺伝研igtでは/data領域での性能に差は少なかった。一方で、高火力PHYでは約7倍の性能差があった。