dismecpp/runner_8cpp_source.html

 // Copyright (c) 2021, Aalto University, developed by Erik Schultheis

 // All rights reserved.

 //

 // SPDX-License-Identifier: MIT


 #include <algorithm>

 #include <thread>

 #include <atomic>

 #include "config.h"

 #include "parallel/runner.h"

 #include "parallel/task.h"

 #include "parallel/numa.h"

 #include "utils/conversion.h"


 using namespace dismec;

 using namespace dismec::parallel;


 ParallelRunner::ParallelRunner(long num_threads, long chunk_size) :

         m_NumThreads(num_threads), m_ChunkSize(chunk_size),

         m_TimeLimit(std::numeric_limits<std::chrono::milliseconds::rep>::max()) {


 }


 void ParallelRunner::set_chunk_size(long chunk_size) {

     m_ChunkSize = chunk_size;

 }


 void ParallelRunner::set_logger(std::shared_ptr<spdlog::logger> logger) {

     m_Logger = std::move(logger);

 }


 namespace {

     template<class T>

     auto to_ms(T&& arg) {

         return std::chrono::duration_cast<std::chrono::milliseconds>(arg);

     }

 }


 RunResult ParallelRunner::run(TaskGenerator& tasks, long start) {

     using std::chrono::milliseconds;

     using std::chrono::steady_clock;


     long num_threads = m_NumThreads;

     if(num_threads <= 0) {

         num_threads = to_long(std::thread::hardware_concurrency());

     }

     if(num_threads > 2*std::thread::hardware_concurrency() + 1) {

         spdlog::warn("You have specified many more threads ({}) than your hardware appears to support ({}). Number"

                      "of threads has been capped at hardware concurrency.",

                      num_threads, std::thread::hardware_concurrency());

         num_threads = static_cast<long>(std::thread::hardware_concurrency());

     }


     long num_tasks = tasks.num_tasks() - start;

     long num_chunks = num_tasks / m_ChunkSize;

     if(num_tasks % m_ChunkSize != 0) {

         num_chunks += 1;

     }

     num_threads = std::min(num_threads, num_chunks);


     std::atomic<std::size_t> cpu_time{0};


     // we need an atomic counter to make sure that all sub-problems are touched exactly once

     std::atomic<long> sub_counter{0};

     // long sub_counter = start;

     // nothing we can do if the counter isn't lock free, but notify the user.

     if(!sub_counter.is_lock_free()) {

         spdlog::warn("Counter implementation is not lock-free. This might result in degraded performance in case of many threads");

     }


     auto start_time = steady_clock::now();


     std::vector<std::thread> workers;

     workers.reserve(num_threads);

     if(m_Logger)

         m_Logger->info("spawning {} threads to run {} tasks", num_threads, num_tasks);


     tasks.prepare(num_threads, m_ChunkSize);

     ThreadDistributor distribute(num_threads, m_Logger);


     for(int thread = 0; thread < num_threads; ++thread) {

         workers.emplace_back([&, thread_id=thread_id_t(thread)]()

         {

              if(m_BindThreads) {

                  distribute.pin_this_thread(thread_id);

              }


              tasks.init_thread(thread_id);


              while(to_ms(steady_clock::now() - start_time) < m_TimeLimit) {

                  // get a new sub-problem

                  // see also https://stackoverflow.com/questions/41206861/atomic-increment-and-return-counter

                  long search_pos = sub_counter++;

                  if(search_pos >= num_chunks) {

                      return;

                  }


                  auto task_start_time = steady_clock::now();


                  long begin_task = search_pos * m_ChunkSize + start;

                  long end_task = std::min((search_pos + 1) * m_ChunkSize, (long)num_tasks) + start;


                  log_start(begin_task, end_task);

                  tasks.run_tasks(begin_task, end_task, thread_id);

                  log_finished(begin_task, end_task);


                  cpu_time.fetch_add( to_ms(steady_clock::now() - task_start_time).count());

              }

         });

     }


     // OK, now we just have to wait for the threads to finnish

     for(auto& t : workers) {

         t.join();

     }


     tasks.finalize();


     auto wall_time = to_ms(steady_clock::now() - start_time);


     if(m_Logger) {

         if(sub_counter >= num_chunks) {

             m_Logger->info("Threads finished after {}s (per thread {}s).", wall_time.count() / 1000,

                            cpu_time / 1000 / num_threads);

         } else {

             m_Logger->info("Computation timeout ({}s) reached after {} tasks ({}s -- {}s per thread)",

                            m_TimeLimit.count() / 1000,

                            sub_counter, wall_time.count() / 1000, cpu_time / 1000 / num_threads);

         }

     }


     // display a warning if threads need to get new work more than every 5 ms.

     if((cpu_time * m_ChunkSize) / num_tasks < MIN_TIME_PER_CHUNK_MS) {

         spdlog::warn("The average time per chunk of work is only {}µs, consider increasing chunk size (currently {}) to "

                      "reduce parallelization overhead.", (1000 * cpu_time * m_ChunkSize) / num_tasks, m_ChunkSize);

     }


     return {sub_counter >= num_chunks, sub_counter * m_ChunkSize + start,

             std::chrono::duration_cast<std::chrono::seconds>(wall_time)};

 }


 void ParallelRunner::log_start(long begin, long end) {

     if(!m_Logger) return;

     if(begin == end - 1) {

         m_Logger->trace("Starting task {}", begin);

     } else {

         m_Logger->trace("Starting tasks {}-{}", begin, end-1);

     }

 }


 void ParallelRunner::log_finished(long begin, long end) {

     if(!m_Logger) return;

     if(begin == end - 1) {

         m_Logger->trace("Finished task {}", begin);

     } else {

         m_Logger->trace("Finished tasks {}-{}", begin, end-1);

     }

 }


 void ParallelRunner::set_time_limit(std::chrono::milliseconds time_limit) {

     if(time_limit.count() <= 0) {

         m_TimeLimit = std::chrono::milliseconds(std::numeric_limits<std::chrono::milliseconds::rep>::max());

     } else {

         m_TimeLimit = time_limit;

     }

 }


 #include "doctest.h"


 namespace {

     struct DummyTask: TaskGenerator {

         DummyTask() : check(10000, 0) {


         }

         void run_tasks(long begin, long end, thread_id_t thread_id) override {

             for(long t = begin; t < end; ++t) {

                 check.at(t) += 1;

                 if(do_work) {

                     std::this_thread::sleep_for(std::chrono::milliseconds(10));

                 }

             }

         }

         [[nodiscard]] long num_tasks() const override {

             return check.size();

         }


         std::vector<int> check;

         bool do_work=false;

     };

 }


 TEST_CASE("run parallel") {

     ParallelRunner runner{-1};

     DummyTask task;

     auto res = runner.run(task);

     REQUIRE(res.IsFinished);


     // make sure each task ran exactly once

     for(int s = 0; s < ssize(task.check); ++s) {

         REQUIRE_MESSAGE(task.check[s] == 1, "error at index " << s);

     }

 }


 TEST_CASE("run chunked parallel with start pos")

 {

     ParallelRunner runner{-1, 32};

     DummyTask task;

     auto res = runner.run(task, 5);

     REQUIRE(res.IsFinished);


     // make sure that skipped tasks are not run, but all others are

     for(int s = 0; s < 5; ++s) {

         REQUIRE(task.check[s] == 0);

     }

     for(int s = 5; s < ssize(task.check); ++s) {

         REQUIRE_MESSAGE(task.check[s] == 1, "error at index " << s);

     }

 }


 TEST_CASE("run parallel with timeout") {

     ParallelRunner runner{-1, 16};

     DummyTask task;

     task.do_work = true;

     runner.set_time_limit(std::chrono::milliseconds(50));

     auto res = runner.run(task, 5);

     REQUIRE_FALSE(res.IsFinished);


     // check that NextTask correctly identifies until where we have done our work

     for(int s = 5; s < res.NextTask; ++s) {

         REQUIRE(task.check[s] == 1);

     }for(int s = res.NextTask; s < ssize(task.check); ++s) {

         REQUIRE(task.check[s] == 0);

     }

 }


 // TODO check chunks, starts etc

dismec::parallel::ParallelRunner
Definition: runner.h:25

dismec::parallel::ParallelRunner::set_logger
void set_logger(std::shared_ptr< spdlog::logger > logger)
sets the logger object that is used for reporting. Set to nullptr for quiet mode.
Definition: runner.cpp:28

dismec::parallel::ParallelRunner::m_Logger
std::shared_ptr< spdlog::logger > m_Logger
Definition: runner.h:53

dismec::parallel::ParallelRunner::log_start
void log_start(long begin, long end)
Definition: runner.cpp:142

dismec::parallel::ParallelRunner::set_time_limit
void set_time_limit(std::chrono::milliseconds time_limit)
Definition: runner.cpp:160

dismec::parallel::ParallelRunner::m_NumThreads
long m_NumThreads
Definition: runner.h:50

dismec::parallel::ParallelRunner::m_BindThreads
bool m_BindThreads
Definition: runner.h:55

dismec::parallel::ParallelRunner::m_ChunkSize
long m_ChunkSize
Definition: runner.h:51

dismec::parallel::ParallelRunner::run
RunResult run(TaskGenerator &tasks, long start=0)
Definition: runner.cpp:39

dismec::parallel::ParallelRunner::set_chunk_size
void set_chunk_size(long chunk_size)
Definition: runner.cpp:24

dismec::parallel::ParallelRunner::ParallelRunner
ParallelRunner(long num_threads, long chunk_size=1)
Definition: runner.cpp:18

dismec::parallel::ParallelRunner::m_TimeLimit
std::chrono::milliseconds m_TimeLimit
Definition: runner.h:52

dismec::parallel::ParallelRunner::log_finished
void log_finished(long begin, long end)
Definition: runner.cpp:151

dismec::parallel::TaskGenerator
Base class for all parallelized operations.
Definition: task.h:21

dismec::parallel::TaskGenerator::finalize
virtual void finalize()
Called after all threads have finished their tasks.
Definition: task.h:59

dismec::parallel::TaskGenerator::run_tasks
virtual void run_tasks(long begin, long end, thread_id_t thread_id)=0

dismec::parallel::TaskGenerator::prepare
virtual void prepare(long num_threads, long chunk_size)
Called to notify the TaskGenerator about the number of threads.
Definition: task.h:45

dismec::parallel::TaskGenerator::num_tasks
virtual long num_tasks() const =0

dismec::parallel::TaskGenerator::init_thread
virtual void init_thread(thread_id_t thread_id)
Called once a thread has spun up, but before it runs its first task.
Definition: task.h:51

dismec::parallel::ThreadDistributor
This class helps with distributing threads to the different CPU cores.
Definition: numa.h:118

dismec::parallel::ThreadDistributor::pin_this_thread
void pin_this_thread(thread_id_t thread_id)
Definition: numa.cpp:265

dismec::parallel::thread_id_t
Strong typedef for an int to signify a thread id.
Definition: thread_id.h:20

config.h
Defines configuration variables.

conversion.h

anonymous_namespace{runner.cpp}::to_ms
auto to_ms(T &&arg)
Definition: runner.cpp:34

dismec::parallel
Definition: config.h:30

dismec
Main namespace in which all types, classes, and functions are defined.
Definition: app.h:15

dismec::ssize
constexpr auto ssize(const C &c) -> std::common_type_t< std::ptrdiff_t, std::make_signed_t< decltype(c.size())>>
signed size free function. Taken from https://en.cppreference.com/w/cpp/iterator/size
Definition: conversion.h:42

dismec::to_long
constexpr long to_long(T value)
Convert the given value to long, throwing an error if the conversion is not possible.
Definition: conversion.h:14

dismec::MIN_TIME_PER_CHUNK_MS
constexpr const int MIN_TIME_PER_CHUNK_MS
If the time needed per chunk of work is less than this, we display a warning.
Definition: config.h:28

numa.h

TEST_CASE
TEST_CASE("run parallel")
Definition: runner.cpp:192

runner.h

anonymous_namespace{runner.cpp}::DummyTask
Definition: runner.cpp:171

anonymous_namespace{runner.cpp}::DummyTask::run_tasks
void run_tasks(long begin, long end, thread_id_t thread_id) override
Definition: runner.cpp:175

anonymous_namespace{runner.cpp}::DummyTask::DummyTask
DummyTask()
Definition: runner.cpp:172

anonymous_namespace{runner.cpp}::DummyTask::num_tasks
long num_tasks() const override
Definition: runner.cpp:183

anonymous_namespace{runner.cpp}::DummyTask::check
std::vector< int > check
Definition: runner.cpp:187

dismec::parallel::RunResult
Definition: runner.h:17

task.h