dismecpp/training_2cascade_8cpp_source.html

 // Copyright (c) 2021, Aalto University, developed by Erik Schultheis

 // All rights reserved.

 //

 // SPDX-License-Identifier: MIT


 #include "cascade.h"

 #include "objective/dense_and_sparse.h"

 #include "solver/newton.h"

 #include "data/data.h"

 #include "data/transform.h"

 #include "utils/conversion.h"

 #include "postproc.h"

 #include "initializer.h"

 #include "model/sparse.h"


 using namespace dismec;


 namespace {

     class CombinedWeightInitializer : public init::WeightsInitializer {

     public:

         CombinedWeightInitializer( std::unique_ptr<init::WeightsInitializer> di,  std::unique_ptr<init::WeightsInitializer> si,

                                    long num_dense_features) :

             m_NumDenseFeatures(num_dense_features), m_DenseInit(std::move(di)), m_SparseInit(std::move(si)) {


         }

         void get_initial_weight(label_id_t label_id, Eigen::Ref<DenseRealVector> target,

                                 objective::Objective& objective) override {

             m_DenseInit->get_initial_weight(label_id, target.head(m_NumDenseFeatures), objective);

             m_SparseInit->get_initial_weight(label_id, target.tail(target.size() - m_NumDenseFeatures), objective);

         }

     private:

         long m_NumDenseFeatures;

         std::unique_ptr<init::WeightsInitializer> m_DenseInit;

         std::unique_ptr<init::WeightsInitializer> m_SparseInit;

     };

 }


 std::shared_ptr<objective::Objective> CascadeTraining::make_objective() const {

     // we make a copy of the features, so they are in the local numa memory

     auto sp_ftr = m_SparseReplicator.get_local();

     auto ds_ftr = m_DenseReplicator.get_local();

     return objective::make_sp_dense_squared_hinge(ds_ftr, m_DenseReg,

                                                   sp_ftr, m_SparseReg);

 }


 std::unique_ptr<solvers::Minimizer> CascadeTraining::make_minimizer() const {

     auto minimizer = std::make_unique<solvers::NewtonWithLineSearch>(m_NumFeatures);

     m_NewtonSettings.apply(*minimizer);

     //minimizer->set_logger(get_logger());

     return minimizer;

 }


 void CascadeTraining::update_minimizer(solvers::Minimizer& base_minimizer, label_id_t label_id) const {

     auto* minimizer = dynamic_cast<solvers::NewtonWithLineSearch*>(&base_minimizer);

     if(!minimizer)

         throw std::logic_error("Could not cast minimizer to <NewtonWithLineSearch>");


     // adjust the epsilon parameter according to number of positives/number of negatives

     std::size_t num_pos = get_data().num_positives(label_id);

     double small_count = static_cast<double>(std::min(num_pos, get_data().num_examples() - num_pos));

     double epsilon_scale = std::max(small_count, 1.0) / static_cast<double>(get_data().num_examples());

     if(m_Shortlist) {

         std::size_t actual_num_pos = 0;

         std::size_t actual_num_neg = 0;

         const auto& shortlist = m_Shortlist->at(label_id.to_index());

         auto label_vec = get_data().get_labels(label_id);

         for(const auto& row : shortlist) {

             if(label_vec->coeff(row)) {

                 ++actual_num_pos;

             } else {

                 ++actual_num_neg;

             }

         }

         epsilon_scale = std::max( static_cast<double>(std::min(actual_num_neg, actual_num_pos)), 1.0 ) / static_cast<double>( actual_num_pos + actual_num_neg );

     }


     minimizer->set_epsilon(m_BaseEpsilon * epsilon_scale);

 }


 void CascadeTraining::update_objective(objective::Objective& base_objective, label_id_t label_id) const {

     auto* objective = dynamic_cast<objective::DenseAndSparseLinearBase*>(&base_objective);

     if(!objective)

         throw std::logic_error("Could not cast objective to <DenseAndSparseLinearBase>");


     if(m_Shortlist) {

         // TODO this causes several memory allocations

         const auto& shortlist = m_Shortlist->at(label_id.to_index());

         DenseFeatures shortlisted_dense = shortlist_features(m_DenseReplicator.get_local()->dense(),

                                                              shortlist);

         SparseFeatures shortlisted_sparse = shortlist_features(m_SparseReplicator.get_local()->sparse(),

                                                                shortlist);

         objective->update_features(shortlisted_dense, shortlisted_sparse);

         BinaryLabelVector& target_labels = objective->get_label_ref();

         target_labels.resize(ssize(shortlist));

         auto label_vec = get_data().get_labels(label_id);

         long target_id = 0;

         for(const auto& row : shortlist) {

             target_labels.coeffRef(target_id) = label_vec->coeff(row);

             ++target_id;

         }

         objective->update_costs(1.0, 1.0);

     } else {

         // we need to set the labels before we update the costs, since the label information is needed

         // to determine whether to apply the positive or the negative weighting

         get_data().get_labels(label_id, objective->get_label_ref());

     }

 }


 std::unique_ptr<init::WeightsInitializer> CascadeTraining::make_initializer() const {

     auto dense = m_DenseReplicator.get_local();

     auto sparse = m_SparseReplicator.get_local();


     auto dense_init = m_DenseInitStrategy->make_initializer(dense);

     auto sparse_init = m_SparseInitStrategy->make_initializer(sparse);

     return std::make_unique<CombinedWeightInitializer>(std::move(dense_init), std::move(sparse_init), dense->cols());


 }


 std::shared_ptr<model::Model> CascadeTraining::make_model(long num_features, model::PartialModelSpec spec) const {

     return std::make_shared<model::SparseModel>(num_features, spec);

 }


 std::unique_ptr<postproc::PostProcessor>

 CascadeTraining::make_post_processor(const std::shared_ptr<objective::Objective>& objective) const {

     return m_PostProcessor->make_processor(objective);

 }


 TrainingStatsGatherer& CascadeTraining::get_statistics_gatherer() {

     return *m_StatsGather;

 }


 CascadeTraining::CascadeTraining(std::shared_ptr<const DatasetBase> tfidf_data,

                                  std::shared_ptr<const GenericFeatureMatrix> dense_data,

                                  HyperParameters hyper_params,

                                  std::shared_ptr<init::WeightInitializationStrategy> dense_init,

                                  real_t dense_reg,

                                  std::shared_ptr<init::WeightInitializationStrategy> sparse_init,

                                  real_t sparse_reg,

                                  std::shared_ptr<postproc::PostProcessFactory> post_proc,

                                  std::shared_ptr<TrainingStatsGatherer> gatherer,

                                  std::shared_ptr<const std::vector<std::vector<long>>> shortlist) :

     TrainingSpec(std::move(tfidf_data)),

     m_NewtonSettings( std::move(hyper_params) ),

     m_SparseReplicator(get_data().get_features() ),

     m_DenseReplicator(std::move(dense_data) ),

     m_Shortlist( std::move(shortlist) ),

     m_PostProcessor( std::move(post_proc) ),

     m_DenseInitStrategy( std::move(dense_init) ),

     m_SparseInitStrategy( std::move(sparse_init) ),

     m_StatsGather( std::move(gatherer) ),

     m_NumFeatures(m_SparseReplicator.get_local()->cols() + m_DenseReplicator.get_local()->cols()),

     m_DenseReg(dense_reg),

     m_SparseReg(sparse_reg)

     {


     // extract the base value of `epsilon` from the `hyper_params` object.

     m_BaseEpsilon = std::get<double>(m_NewtonSettings.get("epsilon"));

 }


 std::shared_ptr<TrainingSpec> dismec::create_cascade_training(

         std::shared_ptr<const DatasetBase> data,

         std::shared_ptr<const GenericFeatureMatrix> dense,

         std::shared_ptr<const std::vector<std::vector<long>>> shortlist,

         HyperParameters params,

         CascadeTrainingConfig config)

 {

     if(!config.SparseInit)

         config.SparseInit = init::create_zero_initializer();

     if(!config.DenseInit)

         config.DenseInit = init::create_zero_initializer();

     if(!config.PostProcessing)

         config.PostProcessing = postproc::create_identity();

     return std::make_shared<CascadeTraining>(std::move(data),

                                              std::move(dense),

                                              std::move(params),

                                              std::move(config.DenseInit),

                                              config.DenseReg,

                                              std::move(config.SparseInit),

                                              config.SparseReg,

                                              std::move(config.PostProcessing),

                                              std::move(config.StatsGatherer),

                                              std::move(shortlist)

                                             );

 }

cascade.h

anonymous_namespace{cascade.cpp}::CombinedWeightInitializer
Definition: cascade.cpp:19

anonymous_namespace{cascade.cpp}::CombinedWeightInitializer::m_NumDenseFeatures
long m_NumDenseFeatures
Definition: cascade.cpp:32

anonymous_namespace{cascade.cpp}::CombinedWeightInitializer::m_SparseInit
std::unique_ptr< init::WeightsInitializer > m_SparseInit
Definition: cascade.cpp:34

anonymous_namespace{cascade.cpp}::CombinedWeightInitializer::m_DenseInit
std::unique_ptr< init::WeightsInitializer > m_DenseInit
Definition: cascade.cpp:33

anonymous_namespace{cascade.cpp}::CombinedWeightInitializer::CombinedWeightInitializer
CombinedWeightInitializer(std::unique_ptr< init::WeightsInitializer > di, std::unique_ptr< init::WeightsInitializer > si, long num_dense_features)
Definition: cascade.cpp:21

anonymous_namespace{cascade.cpp}::CombinedWeightInitializer::get_initial_weight
void get_initial_weight(label_id_t label_id, Eigen::Ref< DenseRealVector > target, objective::Objective &objective) override
Generate an initial vector for the given label. The result should be placed in target.
Definition: cascade.cpp:26

dismec::CascadeTraining::m_SparseReg
real_t m_SparseReg
Definition: cascade.h:67

dismec::CascadeTraining::num_features
long num_features() const override
Definition: cascade.h:26

dismec::CascadeTraining::make_objective
std::shared_ptr< objective::Objective > make_objective() const override
Makes an Objective object suitable for the dataset.
Definition: cascade.cpp:38

dismec::CascadeTraining::m_NewtonSettings
HyperParameters m_NewtonSettings
Definition: cascade.h:47

dismec::CascadeTraining::make_minimizer
std::unique_ptr< solvers::Minimizer > make_minimizer() const override
Makes a Minimizer object suitable for the dataset.
Definition: cascade.cpp:46

dismec::CascadeTraining::m_DenseInitStrategy
std::shared_ptr< init::WeightInitializationStrategy > m_DenseInitStrategy
Definition: cascade.h:58

dismec::CascadeTraining::make_model
std::shared_ptr< model::Model > make_model(long num_features, model::PartialModelSpec spec) const override
Creates the model that will be used to store the results.
Definition: cascade.cpp:119

dismec::CascadeTraining::m_NumFeatures
long m_NumFeatures
Definition: cascade.h:63

dismec::CascadeTraining::make_initializer
std::unique_ptr< init::WeightsInitializer > make_initializer() const override
Makes a WeightsInitializer object.
Definition: cascade.cpp:109

dismec::CascadeTraining::m_Shortlist
std::shared_ptr< const std::vector< std::vector< long > > > m_Shortlist
Definition: cascade.h:52

dismec::CascadeTraining::CascadeTraining
CascadeTraining(std::shared_ptr< const DatasetBase > tfidf_data, std::shared_ptr< const GenericFeatureMatrix > dense_data, HyperParameters hyper_params, std::shared_ptr< init::WeightInitializationStrategy > dense_init, real_t dense_reg, std::shared_ptr< init::WeightInitializationStrategy > sparse_init, real_t sparse_reg, std::shared_ptr< postproc::PostProcessFactory > post_proc, std::shared_ptr< TrainingStatsGatherer > gatherer, std::shared_ptr< const std::vector< std::vector< long >>> shortlist=nullptr)
Definition: cascade.cpp:132

dismec::CascadeTraining::get_statistics_gatherer
TrainingStatsGatherer & get_statistics_gatherer() override
Definition: cascade.cpp:128

dismec::CascadeTraining::m_DenseReplicator
parallel::NUMAReplicator< const GenericFeatureMatrix > m_DenseReplicator
Definition: cascade.h:50

dismec::CascadeTraining::m_DenseReg
real_t m_DenseReg
Definition: cascade.h:66

dismec::CascadeTraining::make_post_processor
std::unique_ptr< postproc::PostProcessor > make_post_processor(const std::shared_ptr< objective::Objective > &objective) const override
Makes a PostProcessor object.
Definition: cascade.cpp:124

dismec::CascadeTraining::m_BaseEpsilon
double m_BaseEpsilon
Definition: cascade.h:64

dismec::CascadeTraining::m_PostProcessor
std::shared_ptr< postproc::PostProcessFactory > m_PostProcessor
Definition: cascade.h:55

dismec::CascadeTraining::m_StatsGather
std::shared_ptr< TrainingStatsGatherer > m_StatsGather
Definition: cascade.h:61

dismec::CascadeTraining::update_minimizer
void update_minimizer(solvers::Minimizer &base_minimizer, label_id_t label_id) const override
Updates the setting of the Minimizer for handling label label_id.
Definition: cascade.cpp:53

dismec::CascadeTraining::update_objective
void update_objective(objective::Objective &base_objective, label_id_t label_id) const override
Updates the setting of the Objective for handling label label_id.
Definition: cascade.cpp:80

dismec::CascadeTraining::m_SparseReplicator
parallel::NUMAReplicator< const GenericFeatureMatrix > m_SparseReplicator
Definition: cascade.h:49

dismec::CascadeTraining::m_SparseInitStrategy
std::shared_ptr< init::WeightInitializationStrategy > m_SparseInitStrategy
Definition: cascade.h:59

dismec::DatasetBase::num_examples
long num_examples() const noexcept
Get the total number of instances, i.e. the number of rows in the feature matrix.
Definition: data.cpp:52

dismec::DatasetBase::get_labels
std::shared_ptr< const BinaryLabelVector > get_labels(label_id_t id) const
Definition: data.cpp:21

dismec::DatasetBase::num_positives
virtual long num_positives(label_id_t id) const
Definition: data.cpp:13

dismec::HyperParameters
This class represents a set of hyper-parameters.
Definition: hyperparams.h:241

dismec::HyperParameters::get
hyper_param_t get(const std::string &name) const
Gets the hyper-parameter with the given name, or throws if it does not exist.
Definition: hyperparams.cpp:46

dismec::HyperParameters::apply
void apply(HyperParameterBase &target) const
Definition: hyperparams.cpp:50

dismec::TrainingSpec
This class gathers the setting-specific parts of the training process.
Definition: spec.h:24

dismec::TrainingSpec::get_data
const DatasetBase & get_data() const
Definition: spec.h:31

dismec::TrainingStatsGatherer
Definition: statistics.h:29

dismec::init::WeightsInitializer
Base class for all weight initializers.
Definition: initializer.h:30

dismec::label_id_t
Strong typedef for an int to signify a label id.
Definition: types.h:20

dismec::objective::DenseAndSparseLinearBase
Base class for implementationa of an objective that combines dense features and sparse features.
Definition: dense_and_sparse.h:20

dismec::objective::Objective
Class that models an optimization objective.
Definition: objective.h:41

dismec::opaque_int_type::to_index
constexpr T to_index() const
! Explicitly convert to an integer.
Definition: opaque_int.h:32

dismec::solvers::Minimizer
Definition: minimizer.h:34

dismec::solvers::NewtonWithLineSearch
Definition: newton.h:16

conversion.h

data.h

dense_and_sparse.h

initializer.h

anonymous_namespace{py_data.cpp}::get_features
auto get_features(const DatasetBase &ds)
Definition: py_data.cpp:28

dismec::init::create_zero_initializer
std::shared_ptr< WeightInitializationStrategy > create_zero_initializer()
Creates an initialization strategy that initializes all weight vectors to zero.
Definition: zero.cpp:33

dismec::objective
Definition: fwd.h:34

dismec::objective::make_sp_dense_squared_hinge
std::unique_ptr< DenseAndSparseLinearBase > make_sp_dense_squared_hinge(std::shared_ptr< const GenericFeatureMatrix > dense_features, real_t dense_reg_strength, std::shared_ptr< const GenericFeatureMatrix > sparse_features, real_t sparse_reg_strength)
Definition: dense_and_sparse.cpp:247

dismec::postproc::create_identity
FactoryPtr create_identity()
Definition: postproc.cpp:50

dismec
Main namespace in which all types, classes, and functions are defined.
Definition: app.h:15

dismec::DenseFeatures
types::DenseRowMajor< real_t > DenseFeatures
Dense Feature Matrix in Row Major format.
Definition: matrix_types.h:58

dismec::ssize
constexpr auto ssize(const C &c) -> std::common_type_t< std::ptrdiff_t, std::make_signed_t< decltype(c.size())>>
signed size free function. Taken from https://en.cppreference.com/w/cpp/iterator/size
Definition: conversion.h:42

dismec::BinaryLabelVector
types::DenseVector< std::int8_t > BinaryLabelVector
Dense vector for storing binary labels.
Definition: matrix_types.h:68

dismec::SparseFeatures
types::SparseRowMajor< real_t > SparseFeatures
Sparse Feature Matrix in Row Major format.
Definition: matrix_types.h:50

dismec::shortlist_features
SparseFeatures shortlist_features(const SparseFeatures &source, const std::vector< long > &shortlist)
Definition: transform.cpp:219

dismec::create_cascade_training
std::shared_ptr< TrainingSpec > create_cascade_training(std::shared_ptr< const DatasetBase > data, std::shared_ptr< const GenericFeatureMatrix > dense, std::shared_ptr< const std::vector< std::vector< long >>> shortlist, HyperParameters params, CascadeTrainingConfig config)
Definition: cascade.cpp:161

dismec::real_t
float real_t
The default type for floating point values.
Definition: config.h:17

newton.h

postproc.h

sparse.h

dismec::CascadeTrainingConfig
Definition: spec.h:155

dismec::CascadeTrainingConfig::StatsGatherer
std::shared_ptr< TrainingStatsGatherer > StatsGatherer
Definition: spec.h:159

dismec::CascadeTrainingConfig::DenseReg
real_t DenseReg
Definition: spec.h:161

dismec::CascadeTrainingConfig::DenseInit
std::shared_ptr< init::WeightInitializationStrategy > DenseInit
Definition: spec.h:156

dismec::CascadeTrainingConfig::SparseReg
real_t SparseReg
Definition: spec.h:162

dismec::CascadeTrainingConfig::SparseInit
std::shared_ptr< init::WeightInitializationStrategy > SparseInit
Definition: spec.h:157

dismec::CascadeTrainingConfig::PostProcessing
std::shared_ptr< postproc::PostProcessFactory > PostProcessing
Definition: spec.h:158

dismec::model::PartialModelSpec
Specifies how to interpret a weight matrix for a partial model.
Definition: model.h:22

transform.h