dismecpp/multi__pos_8cpp_source.html

 // Copyright (c) 2021, Aalto University, developed by Erik Schultheis

 // All rights reserved.

 //

 // SPDX-License-Identifier: MIT


 #include "subset.h"

 #include "utils/hash_vector.h"

 #include "stats/collection.h"

 #include "stats/timer.h"

 #include "data/data.h"

 #include "objective/objective.h"

 #include <Eigen/Dense>


 using namespace dismec::init;


 namespace dismec::init {

     template<bool Sparse>

     struct TypeLookup;


     template<>

     struct TypeLookup<false> {

         using MatrixType = DenseFeatures;

         using VectorType = DenseRealVector;

     };


     template<>

     struct TypeLookup<true> {

         using MatrixType = SparseFeatures;

         using VectorType = SparseRealVector;

     };


     template<bool Sparse>

     class MultiPosMeanInitializer : public SubsetFeatureMeanInitializer {

         using MatrixType = typename TypeLookup<Sparse>::MatrixType;

         using VectorType = typename TypeLookup<Sparse>::VectorType;


     public:

         MultiPosMeanInitializer(std::shared_ptr<const DatasetBase> data,

                                 const DenseRealVector& mean_of_all,

                                 std::shared_ptr<const GenericFeatureMatrix> local_features,

                                 int max_pos, real_t pos, real_t neg);


         void get_initial_weight(label_id_t label_id, Eigen::Ref<DenseRealVector> target,

                                 objective::Objective& objective) override;


     private:

         std::vector<VectorType> m_PositiveInstances;

         int m_MaxPos;

         types::DenseRowMajor<real_t> m_GramMatrix;

         DenseRealVector m_Target;

         DenseRealVector m_AlphaVector;

         Eigen::LLT<types::DenseRowMajor<real_t>> m_LLT;


         real_t m_Lambda = 0.01;


         void extract_sub_dataset(label_id_t label_id);


         stats::stat_id_t STAT_NUM_POS{1};

         stats::stat_id_t STAT_LOSS_REDUCTION{2};

     };


     class MultiPosMeanStrategy : public SubsetFeatureMeanStrategy {

     public:

         MultiPosMeanStrategy(std::shared_ptr<const DatasetBase> data, real_t negative_target, real_t positive_target,

                              int max_positives) :

                 SubsetFeatureMeanStrategy(std::move(data), negative_target, positive_target),

                 m_MaxPositives(max_positives)

         {

         }


         [[nodiscard]] std::unique_ptr<WeightsInitializer>

         make_initializer(const std::shared_ptr<const GenericFeatureMatrix>& features) const override;


     private:

         int m_MaxPositives;

     };

 }


 template<bool b>

 MultiPosMeanInitializer<b>::MultiPosMeanInitializer(std::shared_ptr<const DatasetBase> data,

                                                  const DenseRealVector& mean_of_all,

                                                  std::shared_ptr<const GenericFeatureMatrix> local_features, int max_pos,

                                                  real_t pos, real_t neg):

         SubsetFeatureMeanInitializer(std::move(data), mean_of_all, std::move(local_features), pos, neg),

         m_MaxPos(max_pos), m_LLT(max_pos + 1)

 {

     m_PositiveInstances.resize(m_MaxPos);


     declare_stat(STAT_NUM_POS, {"num_pos", "#positives"});

     declare_stat(STAT_LOSS_REDUCTION, {"loss_reduction", "(f(0)-f(w))/f(0) [%]"});

 }


 template<bool Sparse>

 void MultiPosMeanInitializer<Sparse>::get_initial_weight(

         label_id_t label_id,

         Eigen::Ref<DenseRealVector> target,

         objective::Objective& objective) {

     auto timer = make_timer(STAT_DURATION);

     m_DataSet->get_labels(label_id, m_LabelBuffer);


     int num_pos = m_DataSet->num_positives(label_id);

     if(num_pos > m_MaxPos) {

         // this code is just copied from avg_of_pos

         target.setZero();

         for(int i = 0; i < m_LabelBuffer.size(); ++i) {

             if(m_LabelBuffer.coeff(i) > 0.0) {

                 target += m_LocalFeatures->get<MatrixType>().row(i) / (real_t)num_pos;

             }

         }


         auto [p, a] = calculate_factors(label_id, target);

         target = target * p + m_MeanOfAll * a;

     } else {

         real_t num_samples = m_DataSet->num_examples();

         extract_sub_dataset(label_id);


         // at this point, m_Averages is prepared and we can start calculating the Gram matrix

         m_GramMatrix.resize(num_pos + 1, num_pos + 1);

         m_Target.resize(num_pos + 1);

         m_Target.coeffRef(0) = m_NegTarget;

         for (int i = 1; i < num_pos + 1; ++i) {

             m_Target.coeffRef(i) = m_PosTarget;

         }


         // the negatives are a bit tricky

         // <N, N> = <X, X> - 2 <X, Ai> + <Ai, Ai>

         m_GramMatrix.coeffRef(0, 0) = m_MeanAllNormSquared;


         // fill in the part of the gram matrix that is built by the positives

         for (int i = 0; i < num_pos; ++i) {

             for (int j = i; j < num_pos; ++j) {

                 auto& a = m_PositiveInstances[i];

                 auto& b = m_PositiveInstances[j];

                 real_t dot = a.dot(b);

                 m_GramMatrix.coeffRef(i + 1, j + 1) = dot;

                 m_GramMatrix.coeffRef(j + 1, i + 1) = dot;

             }


             // adjustments for the negatives

             m_GramMatrix.coeffRef(0, 0) += m_GramMatrix.coeffRef(i + 1, i + 1) / num_samples / num_samples;

             real_t xTa = m_PositiveInstances[i].dot(m_MeanOfAll);

             m_GramMatrix.coeffRef(0, i+1) = xTa;

             m_GramMatrix.coeffRef(0, 0) -= 2*xTa / num_samples;

         }


         // fix up the <N, Aj> elements

         // <N, Aj> = <X, Aj> - sum <Ai, Aj>/n

         for (int i = 0; i < num_pos; ++i) {

             for (int j = 0; j < num_pos; ++j) {

                 m_GramMatrix.coeffRef(0, i + 1) -= m_GramMatrix.coeffRef(j, i + 1) / num_samples;

             }

             m_GramMatrix.coeffRef(i + 1, 0) = m_GramMatrix.coeff(0, i + 1);


             // also put in the regularizer

             m_GramMatrix.coeffRef(i + 1, i + 1) += m_Lambda;

         }

         m_GramMatrix.coeffRef(0, 0) += m_Lambda;


         m_LLT.compute(m_GramMatrix);

         m_AlphaVector = m_LLT.solve(m_Target);


         // reconstruct the initial vector

         target = m_AlphaVector[0] * m_MeanOfAll;

         for (int i = 1; i < num_pos + 1; ++i) {

             target += (m_AlphaVector[i] - m_AlphaVector[0] / num_samples) * m_PositiveInstances[i - 1];

         }

     }


     record(STAT_NUM_POS, [&]() -> long { return m_DataSet->num_positives(label_id); });

     record(STAT_LOSS_REDUCTION, [&]() {

         HashVector temp{target};

         real_t obj_at_new = objective.value(temp);

         temp.modify().setZero();

         real_t obj_at_zero = objective.value(temp);

         return 100.f * (obj_at_zero - obj_at_new) / obj_at_zero;

     });

 }


 template<bool Sparse>

 void MultiPosMeanInitializer<Sparse>::extract_sub_dataset(label_id_t label_id) {

     assert( m_DataSet->num_positives(label_id) <= m_MaxPos);


     m_DataSet->get_labels(label_id, m_LabelBuffer);


     int pos_count = 0;

     for(int i = 0; i < m_LabelBuffer.size(); ++i) {

         if(m_LabelBuffer.coeff(i) <= 0.0) {

             continue;

         }


         m_PositiveInstances[pos_count] = m_LocalFeatures->get<MatrixType>().row(i);


         ++pos_count;

     }

 }


 std::unique_ptr<WeightsInitializer>

 MultiPosMeanStrategy::make_initializer(const std::shared_ptr<const GenericFeatureMatrix>& features) const {

     if(features->is_sparse()) {

         return std::make_unique<MultiPosMeanInitializer<true>>(

                 m_DataSet, m_MeanOfAllInstances, features, m_MaxPositives, m_PositiveTarget, m_NegativeTarget);

     } else {

         return std::make_unique<MultiPosMeanInitializer<false>>(

                 m_DataSet, m_MeanOfAllInstances, features, m_MaxPositives, m_PositiveTarget, m_NegativeTarget);


     }


 }


 std::shared_ptr<WeightInitializationStrategy> dismec::init::create_multi_pos_mean_strategy(std::shared_ptr<DatasetBase> data, int max_pos, real_t pos, real_t neg) {

     return std::make_shared<MultiPosMeanStrategy>(std::move(data), pos, neg, max_pos);

 }

dismec::HashVector
An Eigen vector with versioning information, to implement simple caching of results.
Definition: hash_vector.h:43

dismec::init::MultiPosMeanInitializer
Definition: multi_pos.cpp:33

dismec::init::MultiPosMeanInitializer::get_initial_weight
void get_initial_weight(label_id_t label_id, Eigen::Ref< DenseRealVector > target, objective::Objective &objective) override
Generate an initial vector for the given label. The result should be placed in target.
Definition: multi_pos.cpp:94

dismec::init::MultiPosMeanInitializer::m_Lambda
real_t m_Lambda
Definition: multi_pos.cpp:54

dismec::init::MultiPosMeanInitializer::m_Target
DenseRealVector m_Target
Definition: multi_pos.cpp:50

dismec::init::MultiPosMeanInitializer::MultiPosMeanInitializer
MultiPosMeanInitializer(std::shared_ptr< const DatasetBase > data, const DenseRealVector &mean_of_all, std::shared_ptr< const GenericFeatureMatrix > local_features, int max_pos, real_t pos, real_t neg)
Definition: multi_pos.cpp:80

dismec::init::MultiPosMeanInitializer::m_GramMatrix
types::DenseRowMajor< real_t > m_GramMatrix
Definition: multi_pos.cpp:49

dismec::init::MultiPosMeanInitializer::m_MaxPos
int m_MaxPos
Definition: multi_pos.cpp:48

dismec::init::MultiPosMeanInitializer::m_LLT
Eigen::LLT< types::DenseRowMajor< real_t > > m_LLT
Definition: multi_pos.cpp:52

dismec::init::MultiPosMeanInitializer::MatrixType
typename TypeLookup< Sparse >::MatrixType MatrixType
Definition: multi_pos.cpp:34

dismec::init::MultiPosMeanInitializer::STAT_LOSS_REDUCTION
stats::stat_id_t STAT_LOSS_REDUCTION
Definition: multi_pos.cpp:59

dismec::init::MultiPosMeanInitializer::STAT_NUM_POS
stats::stat_id_t STAT_NUM_POS
Definition: multi_pos.cpp:58

dismec::init::MultiPosMeanInitializer::m_AlphaVector
DenseRealVector m_AlphaVector
Definition: multi_pos.cpp:51

dismec::init::MultiPosMeanInitializer::m_PositiveInstances
std::vector< VectorType > m_PositiveInstances
Definition: multi_pos.cpp:47

dismec::init::MultiPosMeanInitializer::VectorType
typename TypeLookup< Sparse >::VectorType VectorType
Definition: multi_pos.cpp:35

dismec::init::MultiPosMeanInitializer::extract_sub_dataset
void extract_sub_dataset(label_id_t label_id)
Definition: multi_pos.cpp:180

dismec::init::MultiPosMeanStrategy
Definition: multi_pos.cpp:62

dismec::init::MultiPosMeanStrategy::MultiPosMeanStrategy
MultiPosMeanStrategy(std::shared_ptr< const DatasetBase > data, real_t negative_target, real_t positive_target, int max_positives)
Definition: multi_pos.cpp:64

dismec::init::MultiPosMeanStrategy::m_MaxPositives
int m_MaxPositives
Definition: multi_pos.cpp:75

dismec::init::MultiPosMeanStrategy::make_initializer
std::unique_ptr< WeightsInitializer > make_initializer(const std::shared_ptr< const GenericFeatureMatrix > &features) const override
Creats a new, thread local WeightsInitializer.
Definition: multi_pos.cpp:198

dismec::init::SubsetFeatureMeanInitializer
Definition: subset.h:12

dismec::init::SubsetFeatureMeanStrategy
Definition: subset.h:36

dismec::init::SubsetFeatureMeanStrategy::m_NegativeTarget
real_t m_NegativeTarget
Definition: subset.h:44

dismec::init::SubsetFeatureMeanStrategy::m_PositiveTarget
real_t m_PositiveTarget
Definition: subset.h:45

dismec::init::SubsetFeatureMeanStrategy::m_DataSet
std::shared_ptr< const DatasetBase > m_DataSet
Definition: subset.h:42

dismec::init::SubsetFeatureMeanStrategy::m_MeanOfAllInstances
DenseRealVector m_MeanOfAllInstances
Definition: subset.h:43

dismec::label_id_t
Strong typedef for an int to signify a label id.
Definition: types.h:20

dismec::objective::Objective
Class that models an optimization objective.
Definition: objective.h:41

dismec::opaque_int_type< detail::stat_id_tag >

dismec::stats::Tracked::declare_stat
void declare_stat(stat_id_t index, StatisticMetaData meta)
Declares a new statistics. This function just forwards all its arguments to the internal StatisticsCo...
Definition: tracked.cpp:16

collection.h

data.h

hash_vector.h

anonymous_namespace{sparsify.cpp}::STAT_DURATION
constexpr stat_id_t STAT_DURATION
Definition: sparsify.cpp:22

dismec::init
Definition: fwd.h:43

dismec::init::create_multi_pos_mean_strategy
std::shared_ptr< WeightInitializationStrategy > create_multi_pos_mean_strategy(std::shared_ptr< DatasetBase > data, int max_pos, real_t pos=1, real_t neg=-2)
Creates an initialization strategy based on the mean of positive and negative features.
Definition: multi_pos.cpp:212

dismec::objective
Definition: fwd.h:34

dismec::types::type_helpers::definitions::DenseRowMajor
outer_const< T, dense_row_major_h > DenseRowMajor
Definition: type_helpers.h:43

dismec::DenseFeatures
types::DenseRowMajor< real_t > DenseFeatures
Dense Feature Matrix in Row Major format.
Definition: matrix_types.h:58

dismec::SparseRealVector
types::SparseVector< real_t > SparseRealVector
Definition: matrix_types.h:41

dismec::DenseRealVector
types::DenseVector< real_t > DenseRealVector
Any dense, real values vector.
Definition: matrix_types.h:40

dismec::SparseFeatures
types::SparseRowMajor< real_t > SparseFeatures
Sparse Feature Matrix in Row Major format.
Definition: matrix_types.h:50

dismec::real_t
float real_t
The default type for floating point values.
Definition: config.h:17

objective.h

dismec::init::TypeLookup< false >::MatrixType
DenseFeatures MatrixType
Definition: multi_pos.cpp:22

dismec::init::TypeLookup< false >::VectorType
DenseRealVector VectorType
Definition: multi_pos.cpp:23

dismec::init::TypeLookup< true >::MatrixType
SparseFeatures MatrixType
Definition: multi_pos.cpp:28

dismec::init::TypeLookup< true >::VectorType
SparseRealVector VectorType
Definition: multi_pos.cpp:29

dismec::init::TypeLookup
Definition: multi_pos.cpp:18

subset.h

timer.h