Functions
def	execute_query

def	calculate_query_times

def	run_query

def	create_results_dataset

def	process_arguments

def	benchmark

Function Documentation

def run_benchmark_arrow.benchmark ( input_arguments )

Definition at line 814 of file run_benchmark_arrow.py.

References create_results_dataset(), run_benchmark.get_connection(), run_benchmark.get_gpu_info(), run_benchmark.get_machine_info(), run_benchmark.get_run_vars(), process_arguments(), run_benchmark.read_query_files(), run_query(), run_benchmark.send_results_db(), run_benchmark.send_results_file_json(), run_benchmark.send_results_jenkins_bench(), run_benchmark.send_results_output(), and run_benchmark.verify_destinations().

 
 def benchmark(input_arguments):
     # Set input args to vars
     args = process_arguments(input_arguments)
     verbose = args.verbose
     quiet = args.quiet
     source_db_user = args.user
     source_db_passwd = args.passwd
     source_db_server = args.server
     source_db_port = args.port
     source_db_name = args.name
     source_table = args.table
     label = args.label
     queries_dir = args.queries_dir
     iterations = args.iterations
     gpu_count = args.gpu_count
     gpu_name = args.gpu_name
     no_gather_conn_gpu_info = args.no_gather_conn_gpu_info
     no_gather_nvml_gpu_info = args.no_gather_nvml_gpu_info
     gather_nvml_gpu_info = args.gather_nvml_gpu_info
     machine_name = args.machine_name
     machine_uname = args.machine_uname
     destinations = args.destination
     dest_db_user = args.dest_user
     dest_db_passwd = args.dest_passwd
     dest_db_server = args.dest_server
     dest_db_port = args.dest_port
     dest_db_name = args.dest_name
     dest_table = args.dest_table
     dest_table_schema_file = args.dest_table_schema_file
     output_file_json = args.output_file_json
     output_file_jenkins = args.output_file_jenkins
     output_tag_jenkins = args.output_tag_jenkins
     arrow_cpu_output = args.arrow_cpu_output
 
     # Hard-coded vars
     trim = 0.15
     jenkins_thresholds_name = "average"
     jenkins_thresholds_field = "query_exec_avg"
 
     # Set logging output level
     if verbose:
         logging.basicConfig(level=logging.DEBUG)
     elif quiet:
         logging.basicConfig(level=logging.WARNING)
     else:
         logging.basicConfig(level=logging.INFO)
 
     # Input validation
     if (iterations > 1) is not True:
         # Need > 1 iteration as first iteration is dropped from calculations
         logging.error("Iterations must be greater than 1")
         exit(1)
     if verify_destinations(
         destinations=destinations,
         dest_db_server=dest_db_server,
         output_file_json=output_file_json,
         output_file_jenkins=output_file_jenkins,
     ):
         logging.debug("Destination(s) have been verified.")
     else:
         logging.error("No valid destination(s) have been set. Exiting.")
         exit(1)
 
     # Establish connection to mapd db
     con = get_connection(
         db_user=source_db_user,
         db_passwd=source_db_passwd,
         db_server=source_db_server,
         db_port=source_db_port,
         db_name=source_db_name,
     )
     if not con:
         exit(1)  # Exit if cannot connect to db
     # Set run-specific variables (time, uid, etc.)
     run_vars = get_run_vars(con=con)
     # Set GPU info depending on availability
     gpu_info = get_gpu_info(
         gpu_name=gpu_name,
         no_gather_conn_gpu_info=no_gather_conn_gpu_info,
         con=con,
         conn_machine_name=run_vars["conn_machine_name"],
         no_gather_nvml_gpu_info=no_gather_nvml_gpu_info,
         gather_nvml_gpu_info=gather_nvml_gpu_info,
         gpu_count=gpu_count,
     )
     # Set run machine info
     machine_info = get_machine_info(
         conn_machine_name=run_vars["conn_machine_name"],
         machine_name=machine_name,
         machine_uname=machine_uname,
     )
     # Read queries from files, set to queries dir in PWD if not passed in
     if not queries_dir:
         queries_dir = os.path.join(os.path.dirname(__file__), "queries")
     query_list = read_query_files(
         queries_dir=queries_dir, source_table=source_table
     )
     if not query_list:
         exit(1)
     # Run queries
     queries_results = []
     for query in query_list["queries"]:
         query_result = run_query(
             query=query,
             iterations=iterations,
             trim=trim,
             con=con,
             arrow_cpu_output=arrow_cpu_output,
         )
         queries_results.append(query_result)
     logging.info("Completed all queries.")
     logging.debug("Closing source db connection.")
     con.close()
     # Generate results dataset
     results_dataset = create_results_dataset(
         run_guid=run_vars["run_guid"],
         run_timestamp=run_vars["run_timestamp"],
         run_connection=run_vars["run_connection"],
         run_machine_name=machine_info["run_machine_name"],
         run_machine_uname=machine_info["run_machine_uname"],
         run_driver=run_vars["run_driver"],
         run_version=run_vars["run_version"],
         run_version_short=run_vars["run_version_short"],
         label=label,
         source_db_gpu_count=gpu_info["source_db_gpu_count"],
         source_db_gpu_driver_ver=gpu_info["source_db_gpu_driver_ver"],
         source_db_gpu_name=gpu_info["source_db_gpu_name"],
         source_db_gpu_mem=gpu_info["source_db_gpu_mem"],
         source_table=source_table,
         trim=trim,
         iterations=iterations,
         query_group=query_list["query_group"],
         queries_results=queries_results,
     )
     results_dataset_json = json.dumps(
         results_dataset, default=json_format_handler, indent=2
     )
     successful_results_dataset = [
         x for x in results_dataset if x["succeeded"] is not False
     ]
     successful_results_dataset_results = []
     for results_dataset_entry in successful_results_dataset:
         successful_results_dataset_results.append(
             results_dataset_entry["results"]
         )
     # Send results to destination(s)
     sent_destination = True
     if "mapd_db" in destinations:
         if not send_results_db(
             results_dataset=successful_results_dataset_results,
             table=dest_table,
             db_user=dest_db_user,
             db_passwd=dest_db_passwd,
             db_server=dest_db_server,
             db_port=dest_db_port,
             db_name=dest_db_name,
             table_schema_file=dest_table_schema_file,
         ):
             sent_destination = False
     if "file_json" in destinations:
         if not send_results_file_json(
             results_dataset_json=results_dataset_json,
             output_file_json=output_file_json,
         ):
             sent_destination = False
     if "jenkins_bench" in destinations:
         if not send_results_jenkins_bench(
             results_dataset=successful_results_dataset_results,
             thresholds_name=jenkins_thresholds_name,
             thresholds_field=jenkins_thresholds_field,
             output_tag_jenkins=output_tag_jenkins,
             output_file_jenkins=output_file_jenkins,
         ):
             sent_destination = False
     if "output" in destinations:
         if not send_results_output(results_dataset_json=results_dataset_json):
             sent_destination = False
     if not sent_destination:
         logging.error("Sending results to one or more destinations failed")
         exit(1)
     else:
         logging.info(
             "Succesfully loaded query results info into destination(s)"
         )