_cuda_mgr_8h_source.html

 /*

  * Copyright 2022 HEAVY.AI, Inc.

  *

  * Licensed under the Apache License, Version 2.0 (the "License");

  * you may not use this file except in compliance with the License.

  * You may obtain a copy of the License at

  *

  *     http://www.apache.org/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */


 #pragma once


 #include <cstdlib>

 #include <map>

 #include <mutex>

 #include <string>

 #include <vector>


 #include "CudaMgr/DeviceMemoryAllocationMap.h"

 #include "Logger/Logger.h"

 #include "Shared/DeviceGroup.h"


 #ifdef HAVE_CUDA

 #include <cuda.h>

 #else

 #include "Shared/nocuda.h"

 #endif  // HAVE_CUDA


 namespace CudaMgr_Namespace {


 enum class NvidiaDeviceArch {

   Kepler,   // compute major = 3

   Maxwell,  // compute major = 5

   Pascal,   // compute major = 6

   Volta,    // compute major = 7, compute minor = 0

   Turing,   // compute major = 7, compute minor = 5

   Ampere    // compute major = 8

 };


 #ifdef HAVE_CUDA

 std::string errorMessage(CUresult const);


 class CudaErrorException : public std::runtime_error {

  public:

   CudaErrorException(CUresult status);


   CUresult getStatus() const { return status_; }


  private:

   CUresult const status_;

 };

 #endif


 struct DeviceProperties {

   CUdevice device;

   heavyai::UUID uuid;

   int computeMajor;

   int computeMinor;

   size_t globalMem;

   int constantMem;

   int sharedMemPerBlock;

   int sharedMemPerMP;

   int numMPs;

   int warpSize;

   int maxThreadsPerBlock;

   int maxRegistersPerBlock;

   int maxRegistersPerMP;

   int pciBusId;

   int pciDeviceId;

   int memoryClockKhz;

   int memoryBusWidth;  // in bits

   float memoryBandwidthGBs;

   int clockKhz;

   int numCore;

   size_t allocationGranularity;

 };


 class CudaMgr {

  public:

   CudaMgr(const int num_gpus, const int start_gpu = 0);

   virtual ~CudaMgr();


   void synchronizeDevices() const;

   int getDeviceCount() const { return device_count_; }

   int getStartGpu() const { return start_gpu_; }

   const heavyai::DeviceGroup& getDeviceGroup() const { return device_group_; }

   size_t computePaddedBufferSize(size_t buf_size, size_t granularity) const;

   size_t getGranularity(const int device_num) const;


   void copyHostToDevice(int8_t* device_ptr,

                         const int8_t* host_ptr,

                         const size_t num_bytes,

                         const int device_num,

                         CUstream cuda_stream = 0);

   void copyDeviceToHost(int8_t* host_ptr,

                         const int8_t* device_ptr,

                         const size_t num_bytes,

                         CUstream cuda_stream = 0);

   void copyDeviceToDevice(int8_t* dest_ptr,

                           int8_t* src_ptr,

                           const size_t num_bytes,

                           const int dest_device_num,

                           const int src_device_num,

                           CUstream cuda_stream = 0);


   int8_t* allocatePinnedHostMem(const size_t num_bytes);

   virtual int8_t* allocateDeviceMem(const size_t num_bytes,

                                     const int device_num,

                                     const bool is_slab = false);

   void freePinnedHostMem(int8_t* host_ptr);

   void freeDeviceMem(int8_t* device_ptr);

   void zeroDeviceMem(int8_t* device_ptr,

                      const size_t num_bytes,

                      const int device_num,

                      CUstream cuda_stream = 0);

   void setDeviceMem(int8_t* device_ptr,

                     const unsigned char uc,

                     const size_t num_bytes,

                     const int device_num,

                     CUstream cuda_stream = 0);


   size_t getMinSharedMemoryPerBlockForAllDevices() const {

     return min_shared_memory_per_block_for_all_devices;

   }


   size_t getMinNumMPsForAllDevices() const { return min_num_mps_for_all_devices; }


   const std::vector<DeviceProperties>& getAllDeviceProperties() const {

     return device_properties_;

   }

   const DeviceProperties* getDeviceProperties(const size_t device_num) const {

     // device_num is the device number relative to start_gpu_ (real_device_num -

     // start_gpu_)

     if (device_num < device_properties_.size()) {

       return &device_properties_[device_num];

     }

     throw std::runtime_error("Specified device number " + std::to_string(device_num) +

                              " is out of range of number of devices (" +

                              std::to_string(device_properties_.size()) + ")");

   }

   inline bool isArchMaxwell() const {

     return (getDeviceCount() > 0 && device_properties_[0].computeMajor == 5);

   }

   inline bool isArchMaxwellOrLater() const {

     return (getDeviceCount() > 0 && device_properties_[0].computeMajor >= 5);

   }

   inline bool isArchPascal() const {

     return (getDeviceCount() > 0 && device_properties_[0].computeMajor == 6);

   }

   inline bool isArchPascalOrLater() const {

     return (getDeviceCount() > 0 && device_properties_[0].computeMajor >= 6);

   }

   bool isArchMaxwellOrLaterForAll() const;

   bool isArchVoltaOrGreaterForAll() const;


   static std::string deviceArchToSM(const NvidiaDeviceArch arch) {

     // Must match ${CUDA_COMPILATION_ARCH} CMAKE flag

     switch (arch) {

       case NvidiaDeviceArch::Kepler:

         return "sm_35";

       case NvidiaDeviceArch::Maxwell:

         return "sm_50";

       case NvidiaDeviceArch::Pascal:

         return "sm_60";

       case NvidiaDeviceArch::Volta:

         return "sm_70";

       case NvidiaDeviceArch::Turing:

         return "sm_75";

       case NvidiaDeviceArch::Ampere:

         return "sm_75";

       default:

         LOG(WARNING) << "Unrecognized Nvidia device architecture, falling back to "

                         "Kepler-compatibility.";

         return "sm_35";

     }

     UNREACHABLE();

     return "";

   }


   NvidiaDeviceArch getDeviceArch() const {

     if (device_properties_.size() > 0) {

       const auto& device_properties = device_properties_.front();

       switch (device_properties.computeMajor) {

         case 3:

           return NvidiaDeviceArch::Kepler;

         case 5:

           return NvidiaDeviceArch::Maxwell;

         case 6:

           return NvidiaDeviceArch::Pascal;

         case 7:

           if (device_properties.computeMinor < 5) {

             return NvidiaDeviceArch::Volta;

           } else {

             return NvidiaDeviceArch::Turing;

           }

         case 8:

           return NvidiaDeviceArch::Ampere;

         default:

           return NvidiaDeviceArch::Kepler;

       }

     } else {

       // always fallback to Kepler if an architecture cannot be detected

       return NvidiaDeviceArch::Kepler;

     }

   }


   void setContext(const int device_num) const;

   int getContext() const;


 #ifdef HAVE_CUDA


   void logDeviceProperties() const;


   const std::vector<CUcontext>& getDeviceContexts() const {

     return device_contexts_;

   }

   const int getGpuDriverVersion() const {

     return gpu_driver_version_;

   }


   void loadGpuModuleData(CUmodule* module,

                          const void* image,

                          unsigned int num_options,

                          CUjit_option* options,

                          void** option_values,

                          const int device_id) const;

   void unloadGpuModuleData(CUmodule* module, const int device_id) const;


   struct CudaMemoryUsage {

     size_t free;   // available GPU RAM memory on active card in bytes

     size_t total;  // total GPU RAM memory on active card in bytes

   };


   std::vector<CudaMgr::CudaMemoryUsage> getCudaMemoryUsage();


   std::string getCudaMemoryUsageInString();


   DeviceMemoryAllocationMap& getDeviceMemoryAllocationMap();

   int exportHandle(const uint64_t handle) const;


 #endif


  private:

 #ifdef HAVE_CUDA

   void fillDeviceProperties();

   void initDeviceGroup();

   void createDeviceContexts();

   size_t computeMinSharedMemoryPerBlockForAllDevices() const;

   size_t computeMinNumMPsForAllDevices() const;

   void checkError(CUresult cu_result) const;


   int gpu_driver_version_;

 #endif


   int device_count_;

   int start_gpu_;

   size_t min_shared_memory_per_block_for_all_devices;

   size_t min_num_mps_for_all_devices;

   std::vector<DeviceProperties> device_properties_;

   heavyai::DeviceGroup device_group_;

   std::vector<CUcontext> device_contexts_;

   mutable std::mutex device_mutex_;


 #ifdef HAVE_CUDA

   DeviceMemoryAllocationMapUqPtr device_memory_allocation_map_;

 #endif

 };


 }  // Namespace CudaMgr_Namespace


 extern std::string get_cuda_home(void);

 extern std::string get_cuda_libdevice_dir(void);

CudaMgr_Namespace::NvidiaDeviceArch::Maxwell

CudaMgr_Namespace::CudaMgr::copyHostToDevice
void copyHostToDevice(int8_t *device_ptr, const int8_t *host_ptr, const size_t num_bytes, const int device_num, CUstream cuda_stream=0)
Definition: CudaMgr.cpp:127

CudaMgr_Namespace::CudaMgr::min_num_mps_for_all_devices
size_t min_num_mps_for_all_devices
Definition: CudaMgr.h:264

get_cuda_libdevice_dir
std::string get_cuda_libdevice_dir(void)
Definition: CudaMgr.cpp:612

CUjit_option
int CUjit_option
Definition: nocuda.h:26

CudaMgr_Namespace::DeviceProperties::device
CUdevice device
Definition: CudaMgr.h:61

CudaMgr_Namespace::DeviceProperties::maxThreadsPerBlock
int maxThreadsPerBlock
Definition: CudaMgr.h:71

CudaMgr_Namespace::DeviceProperties::globalMem
size_t globalMem
Definition: CudaMgr.h:65

CudaMgr_Namespace::DeviceProperties::sharedMemPerBlock
int sharedMemPerBlock
Definition: CudaMgr.h:67

CudaMgr_Namespace::CudaMgr::device_group_
heavyai::DeviceGroup device_group_
Definition: CudaMgr.h:266

CudaMgr_Namespace::CudaMgr::device_mutex_
std::mutex device_mutex_
Definition: CudaMgr.h:268

heavyai::DeviceGroup
std::vector< DeviceIdentifier > DeviceGroup
Definition: DeviceGroup.h:31

CudaMgr_Namespace::CudaMgr::getGranularity
size_t getGranularity(const int device_num) const
Definition: CudaMgr.cpp:109

CudaMgr_Namespace::DeviceProperties
Definition: CudaMgr.h:60

CUstream
void * CUstream
Definition: nocuda.h:23

LOG
#define LOG(tag)
Definition: Logger.h:285

CudaMgr_Namespace::CudaMgr::setDeviceMem
void setDeviceMem(int8_t *device_ptr, const unsigned char uc, const size_t num_bytes, const int device_num, CUstream cuda_stream=0)
Definition: CudaMgr.cpp:418

CudaMgr_Namespace::CudaMgr::allocatePinnedHostMem
int8_t * allocatePinnedHostMem(const size_t num_bytes)
Definition: CudaMgr.cpp:326

CudaMgr_Namespace::CudaMgr::getContext
int getContext() const
Definition: CudaMgr.cpp:517

CudaMgr_Namespace::DeviceProperties::pciDeviceId
int pciDeviceId
Definition: CudaMgr.h:75

CudaMgr_Namespace::CudaMgr::setContext
void setContext(const int device_num) const
Definition: CudaMgr.cpp:511

DeviceGroup.h

CudaMgr_Namespace::CudaMgr::isArchPascalOrLater
bool isArchPascalOrLater() const
Definition: CudaMgr.h:156

UNREACHABLE
#define UNREACHABLE()
Definition: Logger.h:338

CudaMgr_Namespace::CudaMgr::min_shared_memory_per_block_for_all_devices
size_t min_shared_memory_per_block_for_all_devices
Definition: CudaMgr.h:263

nocuda.h

CudaMgr_Namespace::CudaMgr::getMinNumMPsForAllDevices
size_t getMinNumMPsForAllDevices() const
Definition: CudaMgr.h:132

CudaMgr_Namespace::DeviceProperties::memoryBusWidth
int memoryBusWidth
Definition: CudaMgr.h:77

CudaMgr_Namespace::CudaMgr::getStartGpu
int getStartGpu() const
Definition: CudaMgr.h:91

to_string
std::string to_string(char const *&&v)
Definition: StringTransform.cpp:128

CudaMgr_Namespace::DeviceProperties::uuid
heavyai::UUID uuid
Definition: CudaMgr.h:62

CudaMgr_Namespace::CudaMgr
Definition: CudaMgr.h:84

CudaMgr_Namespace::CudaMgr::device_contexts_
std::vector< CUcontext > device_contexts_
Definition: CudaMgr.h:267

CudaMgr_Namespace::DeviceProperties::pciBusId
int pciBusId
Definition: CudaMgr.h:74

CudaMgr_Namespace::DeviceProperties::clockKhz
int clockKhz
Definition: CudaMgr.h:79

get_cuda_home
std::string get_cuda_home(void)
Definition: CudaMgr.cpp:583

CudaMgr_Namespace::CudaMgr::freeDeviceMem
void freeDeviceMem(int8_t *device_ptr)
Definition: CudaMgr.cpp:392

CudaMgr_Namespace::errorMessage
std::string errorMessage(CUresult const status)
Definition: CudaMgr.cpp:40

CudaMgr_Namespace::CudaMgr::getDeviceCount
int getDeviceCount() const
Definition: CudaMgr.h:90

CudaMgr_Namespace::DeviceProperties::memoryBandwidthGBs
float memoryBandwidthGBs
Definition: CudaMgr.h:78

CudaMgr_Namespace::DeviceProperties::numCore
int numCore
Definition: CudaMgr.h:80

CudaMgr_Namespace::DeviceProperties::sharedMemPerMP
int sharedMemPerMP
Definition: CudaMgr.h:68

logger::WARNING
Definition: Logger.h:109

Logger.h

CudaMgr_Namespace::DeviceProperties::computeMinor
int computeMinor
Definition: CudaMgr.h:64

heavyai::UUID
Definition: uuid.h:34

CudaMgr_Namespace::CudaMgr::device_count_
int device_count_
Definition: CudaMgr.h:261

CudaMgr_Namespace::CudaMgr::copyDeviceToDevice
void copyDeviceToDevice(int8_t *dest_ptr, int8_t *src_ptr, const size_t num_bytes, const int dest_device_num, const int src_device_num, CUstream cuda_stream=0)
Definition: CudaMgr.cpp:164

CudaMgr_Namespace::CudaMgr::getMinSharedMemoryPerBlockForAllDevices
size_t getMinSharedMemoryPerBlockForAllDevices() const
Definition: CudaMgr.h:128

CudaMgr_Namespace::DeviceProperties::maxRegistersPerBlock
int maxRegistersPerBlock
Definition: CudaMgr.h:72

CudaMgr_Namespace::DeviceProperties::warpSize
int warpSize
Definition: CudaMgr.h:70

CudaMgr_Namespace::CudaMgr::computePaddedBufferSize
size_t computePaddedBufferSize(size_t buf_size, size_t granularity) const
Definition: CudaMgr.cpp:105

CudaMgr_Namespace::CudaMgr::deviceArchToSM
static std::string deviceArchToSM(const NvidiaDeviceArch arch)
Definition: CudaMgr.h:162

CudaMgr_Namespace::DeviceProperties::allocationGranularity
size_t allocationGranularity
Definition: CudaMgr.h:81

CudaMgr_Namespace::NvidiaDeviceArch::Ampere

CudaMgr_Namespace::DeviceProperties::constantMem
int constantMem
Definition: CudaMgr.h:66

CudaMgr_Namespace::NvidiaDeviceArch
NvidiaDeviceArch
Definition: CudaMgr.h:37

CudaMgr_Namespace::CudaMgr::isArchMaxwellOrLaterForAll
bool isArchMaxwellOrLaterForAll() const
Definition: CudaMgr.cpp:437

CUresult
int CUresult
Definition: nocuda.h:21

CudaMgr_Namespace::DeviceProperties::numMPs
int numMPs
Definition: CudaMgr.h:69

CudaMgr_Namespace::CudaMgr::copyDeviceToHost
void copyDeviceToHost(int8_t *host_ptr, const int8_t *device_ptr, const size_t num_bytes, CUstream cuda_stream=0)
Definition: CudaMgr.cpp:143

CudaMgr_Namespace::DeviceProperties::maxRegistersPerMP
int maxRegistersPerMP
Definition: CudaMgr.h:73

CudaMgr_Namespace::CudaMgr::device_properties_
std::vector< DeviceProperties > device_properties_
Definition: CudaMgr.h:265

DeviceMemoryAllocationMap.h

CudaMgr_Namespace::NvidiaDeviceArch::Turing

CudaMgr_Namespace::CudaMgr::~CudaMgr
virtual ~CudaMgr()
Definition: CudaMgr.cpp:81

CUdevice
int CUdevice
Definition: nocuda.h:20

CudaMgr_Namespace::CudaMgr::freePinnedHostMem
void freePinnedHostMem(int8_t *host_ptr)
Definition: CudaMgrNoCuda.cpp:74

CudaMgr_Namespace::CudaMgr::allocateDeviceMem
virtual int8_t * allocateDeviceMem(const size_t num_bytes, const int device_num, const bool is_slab=false)
Definition: CudaMgr.cpp:333

CudaMgr_Namespace::DeviceProperties::computeMajor
int computeMajor
Definition: CudaMgr.h:63

CudaMgr_Namespace::CudaMgr::synchronizeDevices
void synchronizeDevices() const
Definition: CudaMgr.cpp:120

CudaMgr_Namespace::CudaMgr::zeroDeviceMem
void zeroDeviceMem(int8_t *device_ptr, const size_t num_bytes, const int device_num, CUstream cuda_stream=0)
Definition: CudaMgr.cpp:411

CudaMgr_Namespace::CudaMgr::getDeviceProperties
const DeviceProperties * getDeviceProperties(const size_t device_num) const
Definition: CudaMgr.h:137

CudaMgr_Namespace::CudaMgr::isArchMaxwell
bool isArchMaxwell() const
Definition: CudaMgr.h:147

CudaMgr_Namespace::CudaMgr::getDeviceGroup
const heavyai::DeviceGroup & getDeviceGroup() const
Definition: CudaMgr.h:92

CudaMgr_Namespace::CudaMgr::isArchPascal
bool isArchPascal() const
Definition: CudaMgr.h:153

CudaMgr_Namespace::CudaMgr::CudaMgr
CudaMgr(const int num_gpus, const int start_gpu=0)
Definition: CudaMgr.cpp:48

CudaMgr_Namespace::DeviceMemoryAllocationMapUqPtr
std::unique_ptr< DeviceMemoryAllocationMap > DeviceMemoryAllocationMapUqPtr
Definition: DeviceMemoryAllocationMap.h:67

CudaMgr_Namespace::CudaMgr::getAllDeviceProperties
const std::vector< DeviceProperties > & getAllDeviceProperties() const
Definition: CudaMgr.h:134

CudaMgr_Namespace::CudaMgr::isArchVoltaOrGreaterForAll
bool isArchVoltaOrGreaterForAll() const
Definition: CudaMgr.cpp:450

CudaMgr_Namespace::DeviceProperties::memoryClockKhz
int memoryClockKhz
Definition: CudaMgr.h:76

CudaMgr_Namespace::CudaMgr::start_gpu_
int start_gpu_
Definition: CudaMgr.h:262

CudaMgr_Namespace::CudaMgr::getDeviceArch
NvidiaDeviceArch getDeviceArch() const
Definition: CudaMgr.h:186

CudaMgr_Namespace::NvidiaDeviceArch::Volta

CudaMgr_Namespace::NvidiaDeviceArch::Kepler

CudaMgr_Namespace::CudaMgr::isArchMaxwellOrLater
bool isArchMaxwellOrLater() const
Definition: CudaMgr.h:150

CUmodule
void * CUmodule
Definition: nocuda.h:24

CudaMgr_Namespace::NvidiaDeviceArch::Pascal