Как вы учитываете время вычислений графического процессора в кластерах высокопроизводительных вычислений?
У меня есть растущий и довольно разнородный (SXM4 A100, PCIe A100, NVlinked V100, PCIe V100, T4, скоро появятся карты AMD и т.
Традиционно мы учитывали время вычислений в секундах на ядро для каждого задания. Несмотря на вариативность ЦП и памяти между узлами (толстые узлы, высокоскоростные узлы, стандартные узлы), разница была достаточно мала, чтобы не оказывать заметного влияния на учет, особенно в условиях небольшого университета.
На графических процессорах все немного меняется.Разница в производительности и стоимости между узлом SXM4 A100 и узлом T4 довольно значительна, и наша текущая модель, вероятно, не сможет ее сократить, более того, поскольку растущие партнерские отношения с университетами требуют, чтобы мы размещали все больше и больше проектов частного сектора, которые нам придется учитывать. именно для.
Я изучаю, как сделать этот учет с нашей текущей инфраструктурой, но мне также интересно, какие методы используют другие люди, работающие с кластерами HPC GPU. Если у вас есть какие-либо советы относительно того, как это сделать или какие стратегии/инструменты вы использовали, я был бы очень рад их услышать!
Спасибо!