_query_execution_context_8h_source.html

 /*

  * Copyright 2022 HEAVY.AI, Inc.

  *

  * Licensed under the Apache License, Version 2.0 (the "License");

  * you may not use this file except in compliance with the License.

  * You may obtain a copy of the License at

  *

  *     http://www.apache.org/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */


 #ifndef QUERYENGINE_QUERYEXECUTIONCONTEXT_H

 #define QUERYENGINE_QUERYEXECUTIONCONTEXT_H


 #include "CompilationOptions.h"

 #include "DataMgr/Allocators/CudaAllocator.h"

 #include "GpuMemUtils.h"

 #include "QueryMemoryInitializer.h"

 #include "Rendering/RenderInfo.h"

 #include "ResultSet.h"


 #include <boost/core/noncopyable.hpp>

 #include <vector>


 class CompilationContext;

 class GpuCompilationContext;

 class CpuCompilationContext;


 struct RelAlgExecutionUnit;

 class QueryMemoryDescriptor;

 class Executor;


 class QueryExecutionContext : boost::noncopyable {

  public:

   // TODO(alex): remove device_type

   QueryExecutionContext(const RelAlgExecutionUnit& ra_exe_unit,

                         const QueryMemoryDescriptor&,

                         const Executor* executor,

                         const ExecutorDeviceType device_type,

                         const ExecutorDispatchMode dispatch_mode,

                         const int device_id,

                         const shared::TableKey& outer_table_key,

                         const int64_t num_rows,

                         const std::vector<std::vector<const int8_t*>>& col_buffers,

                         const std::vector<std::vector<uint64_t>>& frag_offsets,

                         std::shared_ptr<RowSetMemoryOwner> row_set_mem_owner,

                         const bool output_columnar,

                         const bool sort_on_gpu,

                         const size_t thread_idx,

                         RenderInfo*);


   ResultSetPtr getRowSet(const RelAlgExecutionUnit& ra_exe_unit,

                          const QueryMemoryDescriptor& query_mem_desc) const;


   ResultSetPtr groupBufferToResults(const size_t i) const;


   std::vector<int64_t*> launchGpuCode(

       const RelAlgExecutionUnit& ra_exe_unit,

       const CompilationContext* compilation_context,

       const bool hoist_literals,

       const std::vector<int8_t>& literal_buff,

       std::vector<std::vector<const int8_t*>> col_buffers,

       const std::vector<std::vector<int64_t>>& num_rows,

       const std::vector<std::vector<uint64_t>>& frag_row_offsets,

       const int32_t scan_limit,

       Data_Namespace::DataMgr* data_mgr,

       const unsigned block_size_x,

       const unsigned grid_size_x,

       const int device_id,

       const size_t shared_memory_size,

       int32_t* error_code,

       const uint32_t num_tables,

       const bool allow_runtime_interrupt,

       const std::vector<int8_t*>& join_hash_tables,

       RenderAllocatorMap* render_allocator_map,

       bool optimize_cuda_block_and_grid_sizes);


   std::vector<int64_t*> launchCpuCode(

       const RelAlgExecutionUnit& ra_exe_unit,

       const CpuCompilationContext* fn_ptrs,

       const bool hoist_literals,

       const std::vector<int8_t>& literal_buff,

       std::vector<std::vector<const int8_t*>> col_buffers,

       const std::vector<std::vector<int64_t>>& num_rows,

       const std::vector<std::vector<uint64_t>>& frag_row_offsets,

       const int32_t scan_limit,

       int32_t* error_code,

       const uint32_t start_rowid,

       const uint32_t num_tables,

       const std::vector<int8_t*>& join_hash_tables,

       const int64_t num_rows_to_process = -1);


   int64_t getAggInitValForIndex(const size_t index) const;


  private:

   // enum must be kept in sync w/ prepareKernelParams().

   enum {

     ERROR_CODE,

     TOTAL_MATCHED,

     GROUPBY_BUF,

     NUM_FRAGMENTS,

     NUM_TABLES,

     ROW_INDEX_RESUME,

     COL_BUFFERS,

     LITERALS,

     NUM_ROWS,

     FRAG_ROW_OFFSETS,

     MAX_MATCHED,

     INIT_AGG_VALS,

     JOIN_HASH_TABLES,

     ROW_FUNC_MGR,

     KERN_PARAM_COUNT

   };

   using KernelParamSizes = std::array<size_t, KERN_PARAM_COUNT>;

   using KernelParams = std::array<int8_t*, KERN_PARAM_COUNT>;


   size_t sizeofColBuffers(

       std::vector<std::vector<int8_t const*>> const& col_buffers) const;

   void copyColBuffersToDevice(

       int8_t* device_ptr,

       std::vector<std::vector<int8_t const*>> const& col_buffers) const;


   template <typename T>

   size_t sizeofFlattened2dVec(uint32_t const expected_subvector_size,

                               std::vector<std::vector<T>> const& vec2d) const;

   template <typename T>

   void copyFlattened2dVecToDevice(int8_t* device_ptr,

                                   uint32_t const expected_subvector_size,

                                   std::vector<std::vector<T>> const& vec2d) const;


   size_t sizeofInitAggVals(bool const is_group_by,

                            std::vector<int64_t> const& init_agg_vals) const;

   void copyInitAggValsToDevice(int8_t* device_ptr,

                                bool const is_group_by,

                                std::vector<int64_t> const& init_agg_vals) const;


   size_t sizeofJoinHashTables(std::vector<int8_t*> const& join_hash_tables) const;

   int8_t* copyJoinHashTablesToDevice(int8_t* device_ptr,

                                      std::vector<int8_t*> const& join_hash_tables) const;


   size_t sizeofLiterals(std::vector<int8_t> const& literal_buff) const;

   int8_t* copyLiteralsToDevice(int8_t* device_ptr,

                                std::vector<int8_t> const& literal_buff) const;


   template <typename T>

   void copyValueToDevice(int8_t* device_ptr, T const value) const;


   template <typename T>

   size_t sizeofVector(std::vector<T> const& vec) const;

   template <typename T>

   void copyVectorToDevice(int8_t* device_ptr, std::vector<T> const& vec) const;


   KernelParams prepareKernelParams(

       const std::vector<std::vector<const int8_t*>>& col_buffers,

       const std::vector<int8_t>& literal_buff,

       const std::vector<std::vector<int64_t>>& num_rows,

       const std::vector<std::vector<uint64_t>>& frag_offsets,

       const int32_t scan_limit,

       const std::vector<int64_t>& init_agg_vals,

       const std::vector<int32_t>& error_codes,

       const uint32_t num_tables,

       const std::vector<int8_t*>& join_hash_tables,

       Data_Namespace::DataMgr* data_mgr,

       const int device_id,

       const bool hoist_literals,

       const bool is_group_by) const;


   ResultSetPtr groupBufferToDeinterleavedResults(const size_t i) const;


   std::unique_ptr<DeviceAllocator> gpu_allocator_;


   // TODO(adb): convert to shared_ptr

   QueryMemoryDescriptor query_mem_desc_;

   const Executor* executor_;

   const ExecutorDeviceType device_type_;

   const ExecutorDispatchMode dispatch_mode_;

   std::shared_ptr<RowSetMemoryOwner> row_set_mem_owner_;

   const bool output_columnar_;

   std::unique_ptr<QueryMemoryInitializer> query_buffers_;

   mutable std::unique_ptr<ResultSet> estimator_result_set_;


   friend class Executor;

 };


 #endif  // QUERYENGINE_QUERYEXECUTIONCONTEXT_H

heavydb.dtypes.T
T
Definition: dtypes.py:8

QueryExecutionContext::executor_
const Executor * executor_
Definition: QueryExecutionContext.h:179

QueryExecutionContext::TOTAL_MATCHED
Definition: QueryExecutionContext.h:104

QueryExecutionContext::NUM_ROWS
Definition: QueryExecutionContext.h:111

QueryExecutionContext::copyJoinHashTablesToDevice
int8_t * copyJoinHashTablesToDevice(int8_t *device_ptr, std::vector< int8_t * > const &join_hash_tables) const
Definition: QueryExecutionContext.cpp:789

QueryExecutionContext::NUM_FRAGMENTS
Definition: QueryExecutionContext.h:106

QueryExecutionContext::gpu_allocator_
std::unique_ptr< DeviceAllocator > gpu_allocator_
Definition: QueryExecutionContext.h:175

QueryExecutionContext::QueryExecutionContext
QueryExecutionContext(const RelAlgExecutionUnit &ra_exe_unit, const QueryMemoryDescriptor &, const Executor *executor, const ExecutorDeviceType device_type, const ExecutorDispatchMode dispatch_mode, const int device_id, const shared::TableKey &outer_table_key, const int64_t num_rows, const std::vector< std::vector< const int8_t * >> &col_buffers, const std::vector< std::vector< uint64_t >> &frag_offsets, std::shared_ptr< RowSetMemoryOwner > row_set_mem_owner, const bool output_columnar, const bool sort_on_gpu, const size_t thread_idx, RenderInfo *)
Definition: QueryExecutionContext.cpp:33

sort_on_gpu
void sort_on_gpu(int64_t *val_buff, int32_t *idx_buff, const uint64_t entry_count, const bool desc, const uint32_t chosen_bytes, ThrustAllocator &alloc, const int device_id)
Definition: InPlaceSortImpl.cu:94

GpuCompilationContext
Definition: NvidiaKernel.h:87

QueryExecutionContext::GROUPBY_BUF
Definition: QueryExecutionContext.h:105

CpuCompilationContext
Definition: CompilationContext.h:63

QueryMemoryDescriptor
Definition: QueryMemoryDescriptor.h:68

QueryExecutionContext::Executor
friend class Executor
Definition: QueryExecutionContext.h:187

QueryExecutionContext::launchCpuCode
std::vector< int64_t * > launchCpuCode(const RelAlgExecutionUnit &ra_exe_unit, const CpuCompilationContext *fn_ptrs, const bool hoist_literals, const std::vector< int8_t > &literal_buff, std::vector< std::vector< const int8_t * >> col_buffers, const std::vector< std::vector< int64_t >> &num_rows, const std::vector< std::vector< uint64_t >> &frag_row_offsets, const int32_t scan_limit, int32_t *error_code, const uint32_t start_rowid, const uint32_t num_tables, const std::vector< int8_t * > &join_hash_tables, const int64_t num_rows_to_process=-1)
Definition: QueryExecutionContext.cpp:563

QueryExecutionContext::dispatch_mode_
const ExecutorDispatchMode dispatch_mode_
Definition: QueryExecutionContext.h:181

QueryExecutionContext::ROW_INDEX_RESUME
Definition: QueryExecutionContext.h:108

foreign_storage::num_rows_to_process
size_t num_rows_to_process(const size_t start_row_index, const size_t max_fragment_size, const size_t rows_remaining)
Definition: AbstractTextFileDataWrapper.cpp:493

ResultSetPtr
std::shared_ptr< ResultSet > ResultSetPtr
Definition: RelAlgExecutionUnit.h:231

QueryExecutionContext::KernelParams
std::array< int8_t *, KERN_PARAM_COUNT > KernelParams
Definition: QueryExecutionContext.h:120

QueryExecutionContext::copyColBuffersToDevice
void copyColBuffersToDevice(int8_t *device_ptr, std::vector< std::vector< int8_t const * >> const &col_buffers) const
Definition: QueryExecutionContext.cpp:722

QueryExecutionContext::device_type_
const ExecutorDeviceType device_type_
Definition: QueryExecutionContext.h:180

QueryExecutionContext::output_columnar_
const bool output_columnar_
Definition: QueryExecutionContext.h:183

ExecutorDeviceType
ExecutorDeviceType
Definition: ExecutorDeviceType.h:23

QueryExecutionContext::LITERALS
Definition: QueryExecutionContext.h:110

ExecutorDispatchMode
ExecutorDispatchMode
Definition: CompilationOptions.h:29

QueryExecutionContext::query_buffers_
std::unique_ptr< QueryMemoryInitializer > query_buffers_
Definition: QueryExecutionContext.h:184

QueryExecutionContext::getRowSet
ResultSetPtr getRowSet(const RelAlgExecutionUnit &ra_exe_unit, const QueryMemoryDescriptor &query_mem_desc) const
Definition: QueryExecutionContext.cpp:158

QueryExecutionContext::copyLiteralsToDevice
int8_t * copyLiteralsToDevice(int8_t *device_ptr, std::vector< int8_t > const &literal_buff) const
Definition: QueryExecutionContext.cpp:812

QueryExecutionContext::NUM_TABLES
Definition: QueryExecutionContext.h:107

RenderInfo
Definition: RenderInfo.h:31

QueryExecutionContext::KERN_PARAM_COUNT
Definition: QueryExecutionContext.h:117

QueryExecutionContext::copyValueToDevice
void copyValueToDevice(int8_t *device_ptr, T const value) const
Definition: QueryExecutionContext.cpp:843

QueryExecutionContext::sizeofFlattened2dVec
size_t sizeofFlattened2dVec(uint32_t const expected_subvector_size, std::vector< std::vector< T >> const &vec2d) const
Definition: QueryExecutionContext.cpp:744

QueryExecutionContext::copyFlattened2dVecToDevice
void copyFlattened2dVecToDevice(int8_t *device_ptr, uint32_t const expected_subvector_size, std::vector< std::vector< T >> const &vec2d) const
Definition: QueryExecutionContext.cpp:750

QueryExecutionContext::getAggInitValForIndex
int64_t getAggInitValForIndex(const size_t index) const
Definition: QueryExecutionContext.cpp:153

QueryExecutionContext::sizeofInitAggVals
size_t sizeofInitAggVals(bool const is_group_by, std::vector< int64_t > const &init_agg_vals) const
Definition: QueryExecutionContext.cpp:762

QueryExecutionContext::COL_BUFFERS
Definition: QueryExecutionContext.h:109

QueryExecutionContext::MAX_MATCHED
Definition: QueryExecutionContext.h:113

QueryExecutionContext::copyVectorToDevice
void copyVectorToDevice(int8_t *device_ptr, std::vector< T > const &vec) const
Definition: QueryExecutionContext.cpp:852

QueryExecutionContext::sizeofJoinHashTables
size_t sizeofJoinHashTables(std::vector< int8_t * > const &join_hash_tables) const
Definition: QueryExecutionContext.cpp:785

QueryExecutionContext::INIT_AGG_VALS
Definition: QueryExecutionContext.h:114

QueryExecutionContext::query_mem_desc_
QueryMemoryDescriptor query_mem_desc_
Definition: QueryExecutionContext.h:178

Executor::Executor
Executor(const ExecutorId id, Data_Namespace::DataMgr *data_mgr, const size_t block_size_x, const size_t grid_size_x, const size_t max_gpu_slab_size, const std::string &debug_dir, const std::string &debug_file)
Definition: Execute.cpp:276

Data_Namespace::DataMgr
Definition: DataMgr.h:125

QueryMemoryInitializer.h

RenderAllocatorMap
Definition: RenderAllocator.h:80

RenderInfo.h

QueryExecutionContext::ROW_FUNC_MGR
Definition: QueryExecutionContext.h:116

QueryExecutionContext::row_set_mem_owner_
std::shared_ptr< RowSetMemoryOwner > row_set_mem_owner_
Definition: QueryExecutionContext.h:182

QueryExecutionContext::groupBufferToDeinterleavedResults
ResultSetPtr groupBufferToDeinterleavedResults(const size_t i) const
Definition: QueryExecutionContext.cpp:84

QueryExecutionContext::KernelParamSizes
std::array< size_t, KERN_PARAM_COUNT > KernelParamSizes
Definition: QueryExecutionContext.h:119

QueryExecutionContext::groupBufferToResults
ResultSetPtr groupBufferToResults(const size_t i) const
Definition: QueryExecutionContext.cpp:181

QueryExecutionContext::JOIN_HASH_TABLES
Definition: QueryExecutionContext.h:115

QueryExecutionContext::prepareKernelParams
KernelParams prepareKernelParams(const std::vector< std::vector< const int8_t * >> &col_buffers, const std::vector< int8_t > &literal_buff, const std::vector< std::vector< int64_t >> &num_rows, const std::vector< std::vector< uint64_t >> &frag_offsets, const int32_t scan_limit, const std::vector< int64_t > &init_agg_vals, const std::vector< int32_t > &error_codes, const uint32_t num_tables, const std::vector< int8_t * > &join_hash_tables, Data_Namespace::DataMgr *data_mgr, const int device_id, const bool hoist_literals, const bool is_group_by) const
Definition: QueryExecutionContext.cpp:857

CompilationContext
Definition: CompilationContext.h:25

GpuMemUtils.h

report.error_code
def error_code
Definition: report.py:234

QueryExecutionContext::copyInitAggValsToDevice
void copyInitAggValsToDevice(int8_t *device_ptr, bool const is_group_by, std::vector< int64_t > const &init_agg_vals) const
Definition: QueryExecutionContext.cpp:772

CompilationOptions.h

ResultSet.h
Basic constructors and methods of the row set interface.

CudaAllocator.h
Allocate GPU memory using GpuBuffers via DataMgr.

QueryExecutionContext::estimator_result_set_
std::unique_ptr< ResultSet > estimator_result_set_
Definition: QueryExecutionContext.h:185

shared::TableKey
Definition: DbObjectKeys.h:51

QueryExecutionContext::FRAG_ROW_OFFSETS
Definition: QueryExecutionContext.h:112

QueryExecutionContext::ERROR_CODE
Definition: QueryExecutionContext.h:103

query_mem_desc
query_mem_desc
Definition: QueryMemoryInitializer.cpp:479

QueryExecutionContext::sizeofVector
size_t sizeofVector(std::vector< T > const &vec) const
Definition: QueryExecutionContext.cpp:848

QueryExecutionContext::sizeofColBuffers
size_t sizeofColBuffers(std::vector< std::vector< int8_t const * >> const &col_buffers) const
Definition: QueryExecutionContext.cpp:711

RelAlgExecutionUnit
Definition: RelAlgExecutionUnit.h:165

QueryExecutionContext::launchGpuCode
std::vector< int64_t * > launchGpuCode(const RelAlgExecutionUnit &ra_exe_unit, const CompilationContext *compilation_context, const bool hoist_literals, const std::vector< int8_t > &literal_buff, std::vector< std::vector< const int8_t * >> col_buffers, const std::vector< std::vector< int64_t >> &num_rows, const std::vector< std::vector< uint64_t >> &frag_row_offsets, const int32_t scan_limit, Data_Namespace::DataMgr *data_mgr, const unsigned block_size_x, const unsigned grid_size_x, const int device_id, const size_t shared_memory_size, int32_t *error_code, const uint32_t num_tables, const bool allow_runtime_interrupt, const std::vector< int8_t * > &join_hash_tables, RenderAllocatorMap *render_allocator_map, bool optimize_cuda_block_and_grid_sizes)
Definition: QueryExecutionContext.cpp:207

QueryExecutionContext
Definition: QueryExecutionContext.h:38

QueryExecutionContext::sizeofLiterals
size_t sizeofLiterals(std::vector< int8_t > const &literal_buff) const
Definition: QueryExecutionContext.cpp:803