_query_engine_8h_source.html

 #pragma once


 #include <vector>


 #include "CudaMgr/CudaMgr.h"

 #include "QueryEngine/CodeCacheAccessor.h"

 #include "QueryEngine/NvidiaKernel.h"

 #include "Shared/LruCache.h"


 inline bool g_query_engine_cuda_streams{false};

 inline size_t g_code_cache_max_num_items{1000};

 inline size_t g_gpu_code_cache_max_size_in_bytes{size_t(1) << 27};  // 128MB


 class QueryEngine {

  public:

   QueryEngine(CudaMgr_Namespace::CudaMgr* cuda_mgr, bool cpu_only)

       : cuda_mgr_(cuda_mgr)

       , s_stubs_accessor(std::make_unique<CodeCacheAccessor<CpuCompilationContext>>(

             EvictionMetricType::EntryCount,

             g_code_cache_max_num_items,

             "s_stubs_cache"))

       , s_code_accessor(std::make_unique<CodeCacheAccessor<CpuCompilationContext>>(

             EvictionMetricType::EntryCount,

             g_code_cache_max_num_items,

             "s_code_cache"))

       , cpu_code_accessor(std::make_unique<CodeCacheAccessor<CpuCompilationContext>>(

             EvictionMetricType::EntryCount,

             g_code_cache_max_num_items,

             "cpu_code_cache"))

       , gpu_code_accessor(std::make_unique<CodeCacheAccessor<GpuCompilationContext>>(

             EvictionMetricType::ByteSize,

             g_gpu_code_cache_max_size_in_bytes,

             "gpu_code_cache"))

       , tf_code_accessor(std::make_unique<CodeCacheAccessor<CompilationContext>>(

             EvictionMetricType::EntryCount,

             g_code_cache_max_num_items,

             "tf_code_cache")) {

     if (cpu_only) {

       g_query_engine_cuda_streams = false;

     }

 #ifdef HAVE_CUDA

     if (g_query_engine_cuda_streams) {

       // See:

       // https://docs.nvidia.com/cuda/cuda-runtime-api/stream-sync-behavior.html

       LOG(INFO) << "Query Engine CUDA streams enabled";

       int original_device_context = cuda_mgr_->getContext();

       CUstream s;

       for (int device_num = 0; device_num < cuda_mgr_->getDeviceCount(); ++device_num) {

         cuda_mgr_->setContext(device_num);

         checkCudaErrors(cuStreamCreate(&s, /*CU_STREAM_DEFAULT*/ CU_STREAM_NON_BLOCKING));

         cuda_streams_.push_back(s);

       }

       cuda_mgr_->setContext(original_device_context);

     } else {

       LOG(INFO) << "Query Engine CUDA streams disabled";

     }

 #endif  // HAVE_CUDA

   }


   ~QueryEngine() {

 #ifdef HAVE_CUDA

     if (g_query_engine_cuda_streams) {

       for (auto& c : cuda_streams_) {

         checkCudaErrors(cuStreamDestroy(c));

       }

     }

 #endif  // HAVE_CUDA

   }


   CUstream getCudaStream() {  // NOTE: CUstream is cudaStream_t

     if (g_query_engine_cuda_streams) {

       int device_num = cuda_mgr_->getContext();

       return getCudaStreamForDevice(device_num);

     } else {

       return 0;

     }

   }


   CUstream getCudaStreamForDevice(int device_num) {  // NOTE: CUstream is cudaStream_t

     if (g_query_engine_cuda_streams) {

       CHECK_GE(device_num, 0);

       CHECK_LT((size_t)device_num, cuda_streams_.size());

       return cuda_streams_[device_num];

     } else {

       return 0;

     }

   }


   static std::shared_ptr<QueryEngine> getInstance() {

     if (auto s = instance_.lock()) {

       return s;

     } else {

       throw std::runtime_error("QueryEngine instance hasn't been created");

     }

   }


   static std::shared_ptr<QueryEngine> createInstance(CudaMgr_Namespace::CudaMgr* cuda_mgr,

                                                      bool cpu_only) {

     std::unique_lock lock(mutex_);

     if (auto s = instance_.lock()) {

       return s;

     } else {

       s = std::make_shared<QueryEngine>(cuda_mgr, cpu_only);

       instance_ = s;

       return s;

     }

   }


  private:

   CudaMgr_Namespace::CudaMgr* cuda_mgr_;

   std::vector<CUstream> cuda_streams_;


   inline static std::mutex mutex_;  // TODO(sy): use atomics instead?

   inline static std::weak_ptr<QueryEngine> instance_;


  public:

   std::unique_ptr<CodeCacheAccessor<CpuCompilationContext>> s_stubs_accessor;

   std::unique_ptr<CodeCacheAccessor<CpuCompilationContext>> s_code_accessor;

   std::unique_ptr<CodeCacheAccessor<CpuCompilationContext>> cpu_code_accessor;

   std::unique_ptr<CodeCacheAccessor<GpuCompilationContext>> gpu_code_accessor;

   std::unique_ptr<CodeCacheAccessor<CompilationContext>> tf_code_accessor;

 };  // class QueryEngine


 CUstream getQueryEngineCudaStream();  // NOTE: CUstream is cudaStream_t

 CUstream getQueryEngineCudaStreamForDevice(

     int device_num);  // NOTE: CUstream is cudaStream_t

QueryEngine::cpu_code_accessor
std::unique_ptr< CodeCacheAccessor< CpuCompilationContext > > cpu_code_accessor
Definition: QueryEngine.h:119

QueryEngine::getCudaStream
CUstream getCudaStream()
Definition: QueryEngine.h:70

g_gpu_code_cache_max_size_in_bytes
size_t g_gpu_code_cache_max_size_in_bytes
Definition: QueryEngine.h:12

GpuCompilationContext
Definition: NvidiaKernel.h:87

CpuCompilationContext
Definition: CompilationContext.h:63

CudaMgr.h

CUstream
void * CUstream
Definition: nocuda.h:23

CodeCacheAccessor.h

LOG
#define LOG(tag)
Definition: Logger.h:285

checkCudaErrors
void checkCudaErrors(CUresult err)
Definition: sample.cpp:38

QueryEngine::getCudaStreamForDevice
CUstream getCudaStreamForDevice(int device_num)
Definition: QueryEngine.h:79

QueryEngine::cuda_mgr_
CudaMgr_Namespace::CudaMgr * cuda_mgr_
Definition: QueryEngine.h:110

QueryEngine::tf_code_accessor
std::unique_ptr< CodeCacheAccessor< CompilationContext > > tf_code_accessor
Definition: QueryEngine.h:121

CudaMgr_Namespace::CudaMgr::getContext
int getContext() const
Definition: CudaMgr.cpp:517

CudaMgr_Namespace::CudaMgr::setContext
void setContext(const int device_num) const
Definition: CudaMgr.cpp:511

CHECK_GE
#define CHECK_GE(x, y)
Definition: Logger.h:306

NvidiaKernel.h

QueryEngine
Definition: QueryEngine.h:14

EvictionMetricType::ByteSize

CudaMgr_Namespace::CudaMgr
Definition: CudaMgr.h:84

QueryEngine::instance_
static std::weak_ptr< QueryEngine > instance_
Definition: QueryEngine.h:114

logger::INFO
Definition: Logger.h:108

CudaMgr_Namespace::CudaMgr::getDeviceCount
int getDeviceCount() const
Definition: CudaMgr.h:90

getQueryEngineCudaStream
CUstream getQueryEngineCudaStream()
Definition: QueryEngine.cpp:3

QueryEngine::createInstance
static std::shared_ptr< QueryEngine > createInstance(CudaMgr_Namespace::CudaMgr *cuda_mgr, bool cpu_only)
Definition: QueryEngine.h:97

LruCache.h

heavyai::unique_lock
std::unique_lock< T > unique_lock
Definition: heavyai_shared_mutex.h:39

g_code_cache_max_num_items
size_t g_code_cache_max_num_items
Definition: QueryEngine.h:11

QueryEngine::cuda_streams_
std::vector< CUstream > cuda_streams_
Definition: QueryEngine.h:111

CodeCacheAccessor
Definition: CodeCacheAccessor.h:38

QueryEngine::s_stubs_accessor
std::unique_ptr< CodeCacheAccessor< CpuCompilationContext > > s_stubs_accessor
Definition: QueryEngine.h:117

CHECK_LT
#define CHECK_LT(x, y)
Definition: Logger.h:303

QueryEngine::QueryEngine
QueryEngine(CudaMgr_Namespace::CudaMgr *cuda_mgr, bool cpu_only)
Definition: QueryEngine.h:16

QueryEngine::~QueryEngine
~QueryEngine()
Definition: QueryEngine.h:60

getQueryEngineCudaStreamForDevice
CUstream getQueryEngineCudaStreamForDevice(int device_num)
Definition: QueryEngine.cpp:7

CompilationContext
Definition: CompilationContext.h:25

QueryEngine::getInstance
static std::shared_ptr< QueryEngine > getInstance()
Definition: QueryEngine.h:89

EvictionMetricType
EvictionMetricType
Definition: LruCache.h:22

QueryEngine::mutex_
static std::mutex mutex_
Definition: QueryEngine.h:113

g_query_engine_cuda_streams
bool g_query_engine_cuda_streams
Definition: QueryEngine.h:10

QueryEngine::gpu_code_accessor
std::unique_ptr< CodeCacheAccessor< GpuCompilationContext > > gpu_code_accessor
Definition: QueryEngine.h:120

EvictionMetricType::EntryCount

QueryEngine::s_code_accessor
std::unique_ptr< CodeCacheAccessor< CpuCompilationContext > > s_code_accessor
Definition: QueryEngine.h:118