dismecpp/regularizers__imp_8cpp_source.html

 // Copyright (c) 2021, Aalto University, developed by Erik Schultheis

 // All rights reserved.

 //

 // SPDX-License-Identifier: MIT


 #include "regularizers_imp.h"

 #include "regularizers.h"

 #include "utils/hash_vector.h"

 #include "utils/conversion.h"


 namespace objective = dismec::objective;

 using dismec::objective::SquaredNormRegularizer;

 using dismec::objective::HuberRegularizer;

 using dismec::objective::ElasticNetRegularizer;


 SquaredNormRegularizer::SquaredNormRegularizer(real_t scale, bool ignore_bias) :

         PointWiseRegularizer(scale, ignore_bias) {


 }


 void SquaredNormRegularizer::project_to_line_unchecked(const HashVector& location, const DenseRealVector& direction) {


     m_LsCache_w02 = location->squaredNorm();

     m_LsCache_d2 = direction.squaredNorm();

     m_LsCache_dTw = location->dot(direction);

     assert(std::isfinite(m_LsCache_w02));

     assert(std::isfinite(m_LsCache_d2));

     assert(std::isfinite(m_LsCache_dTw));


     if(dont_regularize_bias()) {

         real_t ll = location->coeff(location->size() - 1);

         real_t ld = direction.coeff(direction.size() - 1);

         m_LsCache_w02 -= ll * ll;

         m_LsCache_d2 -= ld * ld;

         m_LsCache_dTw -= ll * ld;

     }

 }


 real_t SquaredNormRegularizer::lookup_on_line(real_t a) {

     return real_t{0.5} * scale() * (m_LsCache_w02 + 2*a*m_LsCache_dTw + a*a*m_LsCache_d2);

 }


 // TODO put some comments that figure out what is happening here!!!

 real_t objective::SquaredNormRegularizer::value_unchecked(const HashVector& location) {

     return real_t{0.5} * PointWiseRegularizer::value_unchecked(location);

 }


 real_t objective::SquaredNormRegularizer::point_wise_value(real_t x) {

     return x * x;

 }


 real_t objective::SquaredNormRegularizer::point_wise_grad(real_t x) {

     return x;

 }


 real_t objective::SquaredNormRegularizer::point_wise_quad(real_t x) {

     return 1;

 }


 HuberRegularizer::HuberRegularizer(real_t epsilon, real_t scale, bool ignore_bias) :

         PointWiseRegularizer(scale, ignore_bias), m_Epsilon(epsilon) {

     if(m_Epsilon <= 0) {

         THROW_EXCEPTION(std::invalid_argument, "Epsilon has to be positive. Got {}", m_Epsilon);

     }

 }


 real_t objective::HuberRegularizer::point_wise_value(real_t x) const {

     if(x > m_Epsilon) return x - m_Epsilon/2;

     if(x < -m_Epsilon) return -x - m_Epsilon/2;

     return real_t{0.5} * x*x / m_Epsilon;

 }


 real_t objective::HuberRegularizer::point_wise_grad(real_t x) const {

     if(x > m_Epsilon) {

         return 1.0;

     } else if(x < -m_Epsilon) {

         return -1.0;

     } else {

         return x / m_Epsilon;

     }

 }


 real_t objective::HuberRegularizer::point_wise_quad(real_t x) const {

     if(x > m_Epsilon) return real_t{1.0} / x;

     if(x < -m_Epsilon) return -real_t{1.0} / x;

     return real_t{0.5} / m_Epsilon;

 }


 ElasticNetRegularizer::ElasticNetRegularizer(real_t epsilon, real_t scale, real_t interp, bool ignore_bias)

     : PointWiseRegularizer(scale, ignore_bias), m_Epsilon(epsilon), m_L1_Factor(1 - interp), m_L2_Factor(interp)

 {

     if(m_Epsilon <= 0) {

         THROW_EXCEPTION(std::invalid_argument, "Epsilon has to be positive. Got {}", m_Epsilon);

     }


     if(interp < 0 || interp > 1) {

         THROW_EXCEPTION(std::invalid_argument, "Interpolation needs to be in [0, 1]. Got {}", interp);

     }

 }


 real_t objective::ElasticNetRegularizer::point_wise_value(real_t x) const {

     real_t x2 = x*x;

     if(x > m_Epsilon) return m_L1_Factor*(x - m_Epsilon/2) + real_t{0.5} * m_L2_Factor * x2;

     if(x < -m_Epsilon) return m_L1_Factor*(-x - m_Epsilon/2) + real_t{0.5} * m_L2_Factor * x2;

     return real_t{0.5} * (m_L1_Factor / m_Epsilon + m_L2_Factor) * x2;

 }


 real_t objective::ElasticNetRegularizer::point_wise_grad(real_t x) const {

     if(x > m_Epsilon) {

         return m_L1_Factor + m_L2_Factor * x;

     } else if(x < -m_Epsilon) {

         return -m_L1_Factor + m_L2_Factor * x;

     } else {

         return m_L1_Factor * x / m_Epsilon + m_L2_Factor * x;

     }

 }


 real_t objective::ElasticNetRegularizer::point_wise_quad(real_t x) const {

     if(x > m_Epsilon) return m_L1_Factor / x + m_L2_Factor;

     if(x < -m_Epsilon) return -m_L1_Factor / x + m_L2_Factor;

     return real_t{0.5} / m_Epsilon * m_L1_Factor + m_L2_Factor;

 }


 using objective::Objective;

 // The factory functions

 std::unique_ptr<Objective> objective::make_regularizer(const SquaredNormConfig& config) {

     return std::make_unique<SquaredNormRegularizer>(config.Strength, config.IgnoreBias);

 }


 std::unique_ptr<Objective> objective::make_regularizer(const HuberConfig& config) {

     return std::make_unique<HuberRegularizer>(config.Epsilon, config.Strength, config.IgnoreBias);

 }


 std::unique_ptr<Objective> objective::make_regularizer(const ElasticConfig& config) {

     return std::make_unique<ElasticNetRegularizer>(config.Epsilon, config.Strength, config.Interpolation, config.IgnoreBias);

 }


 #include "doctest.h"


 using namespace dismec;


 #ifndef DOCTEST_CONFIG_DISABLE


 // helper functions for testing

 namespace {

     DenseRealVector make_vec(std::initializer_list<real_t> values) {

         DenseRealVector vec(values.size());

         auto it = begin(values);

         for(int i = 0; i < ssize(values); ++i) {

             vec.coeffRef(i) = *it;

             ++it;

         }

         return vec;

     }


     void verify_line_search(objective::Objective& reg) {

         DenseRealVector loc = make_vec({1.0, 2.0, -3.0, 0.0});

         DenseRealVector dir = make_vec({3.0, -1.0, 2.0, 1.0});


         reg.project_to_line(HashVector{loc}, dir);


         for(real_t t : {-1.2f, 0.1f, 0.5f, 0.8f, 2.5f}) {

             real_t predict = reg.lookup_on_line(t);

             real_t actual = reg.value(HashVector{loc + t*dir});

             CHECK(predict == doctest::Approx(actual));

         }

     }


     void verify_bias(objective::Objective& full, objective::Objective& no_bias) {

         DenseRealVector loc = make_vec({1.0, 0.05, -3.0, 0.0});

         DenseRealVector dir = make_vec({3.0, -1.0, 2.0, 1.0});

         HashVector hl{loc};


         // short versions

         HashVector short_loc{loc.topRows(3)};

         DenseRealVector short_dir{dir.topRows(3)};


         // short on full objective

         real_t reference = full.value(short_loc);

         CHECK(no_bias.value(hl) == doctest::Approx(reference));


         DenseRealVector target = DenseRealVector::Random(4);

         DenseRealVector short_target(3);


         full.gradient(short_loc, short_target);

         no_bias.gradient(hl, target);

         for(int i = 0; i < 3; ++i) {

             CHECK(target.coeff(i) == short_target.coeff(i));

         }

         CHECK(target.coeff(3) == 0);


         full.hessian_times_direction(short_loc, short_dir, short_target);

         target = DenseRealVector::Random(4);

         no_bias.hessian_times_direction(hl, dir, target);

         for(int i = 0; i < 3; ++i) {

             CHECK(target.coeff(i) == short_target.coeff(i));

         }

         CHECK(target.coeff(3) == 0);

     }

 }


 TEST_CASE("l2-reg") {

     SquaredNormRegularizer reg(1.0);

     DenseRealVector loc = make_vec({1.0, 2.0, -3.0, 0.0});

     HashVector hl{loc};


     // check value

     CHECK(reg.value(hl) == 0.5*(1+4+9));


     // check gradient: should be equal to location

     DenseRealVector target(loc.size());

     reg.gradient(hl, target);

     for(int i = 0; i < target.size(); ++i) {

         CHECK(loc.coeff(i) == target.coeff(i));

     }


     reg.gradient_at_zero(target);

     CHECK(target.squaredNorm() == 0);


     // check hessian: should be equal to probe direction

     DenseRealVector probe = make_vec({1.0, 2.0, 1.0, -1.0});

     reg.hessian_times_direction(hl, probe, target);

     for(int i = 0; i < target.size(); ++i) {

         CHECK(probe.coeff(i) == target.coeff(i));

     }


     // check preconditioner

     reg.diag_preconditioner(hl, target);

     for(int i = 0; i < target.size(); ++i) {

         CHECK(target.coeff(i) == 1.0);

     }

 }


 TEST_CASE("l2 line-search") {

     bool ignore_bias = false;


     SUBCASE("ignore bias") {

         ignore_bias = true;

     }


     SUBCASE("full weights") {

         ignore_bias = false;

     }


     SquaredNormRegularizer reg(1.0, ignore_bias);

     verify_line_search(reg);

 }


 TEST_CASE("l2 bias") {

     SquaredNormRegularizer full(1.0);

     SquaredNormRegularizer bias(1.0, true);

     verify_bias(full, bias);

 }


 TEST_CASE("huber-reg") {

     HuberRegularizer absreg(1);

     DenseRealVector loc(4);

     loc << 1, 5.0, -3.0, 0.0;

     HashVector hl{loc};

     CHECK(absreg.value(hl) == 9.0 - 1.5);


     DenseRealVector grad(4);

     absreg.gradient(hl, grad);


     CHECK(grad.coeff(0) == 1.0);

     CHECK(grad.coeff(1) == 1.0);

     CHECK(grad.coeff(2) == -1.0);

     CHECK(grad.coeff(3) == 0.0);


     absreg.gradient_at_zero(grad);

     CHECK(grad.squaredNorm() == 0);

 }


 TEST_CASE("huber line-search") {

     bool ignore_bias = false;


     SUBCASE("ignore bias") {

         ignore_bias = true;

     }


     SUBCASE("full weights") {

         ignore_bias = false;

     }


     HuberRegularizer reg(1.0, 1.0, ignore_bias);

     verify_line_search(reg);

 }


 TEST_CASE("huber bias") {

     HuberRegularizer full(1.0, 1.0);

     HuberRegularizer bias(1.0, 1.0, true);

     verify_bias(full, bias);

 }

 #include "spdlog/spdlog.h"

 TEST_CASE("elastic-net") {

     ElasticNetRegularizer reg(1.0, 1.0, 0.4, false);

     HuberRegularizer l1_part(1.0, 0.6, false);

     SquaredNormRegularizer l2_part(0.4, false);


     DenseRealVector loc(4);

     loc << 1, 0.5, -3.0, 0.0;

     HashVector hl{loc};


     auto check_vector_valued = [&](auto&& f) {

         DenseRealVector elastic(4);

         DenseRealVector l1(4);

         DenseRealVector l2(4);

         f(reg, elastic);

         f(l1_part, l1);

         f(l2_part, l2);

         CHECK(elastic.coeff(0) == doctest::Approx(l1.coeff(0) + l2.coeff(0)));

         CHECK(elastic.coeff(1) == doctest::Approx(l1.coeff(1) + l2.coeff(1)));

         CHECK(elastic.coeff(2) == doctest::Approx(l1.coeff(2) + l2.coeff(2)));

         CHECK(elastic.coeff(3) == doctest::Approx(l1.coeff(3) + l2.coeff(3)));

     };


     SUBCASE("value") {

         CHECK(reg.value(hl) == l1_part.value(hl) + l2_part.value(hl));

     }


     SUBCASE("gradient") {

         check_vector_valued([&](auto&& ref, auto&& vec){

             ref.gradient(hl, vec);

         });

     }


     SUBCASE("gradient_at_zero") {

         check_vector_valued([&](auto&& ref, auto&& vec){

             ref.gradient_at_zero(vec);

         });

     }


     SUBCASE("hessian_times_direction") {

         DenseRealVector dir = DenseRealVector::Random(4);

         check_vector_valued([&](auto&& ref, auto&& vec){

             ref.hessian_times_direction(hl, dir, vec);

         });

     }


     DenseRealVector grad(4);

     reg.gradient(hl, grad);


 }


 TEST_CASE("elastic line-search") {

     bool ignore_bias = false;


     SUBCASE("ignore bias") {

         ignore_bias = true;

     }


     SUBCASE("full weights") {

         ignore_bias = false;

     }


     ElasticNetRegularizer reg(1.0, 1.0, 0.5, ignore_bias);

     verify_line_search(reg);

 }


 TEST_CASE("elastic bias") {

     ElasticNetRegularizer full(1.0, 1.0, 0.7);

     ElasticNetRegularizer bias(1.0, 1.0, 0.7,true);

     verify_bias(full, bias);

 }


 #endif

dismec::HashVector
An Eigen vector with versioning information, to implement simple caching of results.
Definition: hash_vector.h:43

dismec::objective::ElasticNetRegularizer
Definition: regularizers_imp.h:86

dismec::objective::ElasticNetRegularizer::point_wise_grad
real_t point_wise_grad(real_t x) const
Definition: regularizers_imp.cpp:108

dismec::objective::ElasticNetRegularizer::ElasticNetRegularizer
ElasticNetRegularizer(real_t epsilon, real_t scale, real_t interp, bool ignore_bias=false)
Constructor for a ElasticNet regularizer objective.
Definition: regularizers_imp.cpp:89

dismec::objective::ElasticNetRegularizer::point_wise_value
real_t point_wise_value(real_t x) const
Definition: regularizers_imp.cpp:101

dismec::objective::ElasticNetRegularizer::m_Epsilon
real_t m_Epsilon
Definition: regularizers_imp.h:102

dismec::objective::ElasticNetRegularizer::point_wise_quad
real_t point_wise_quad(real_t x) const
Definition: regularizers_imp.cpp:118

dismec::objective::HuberRegularizer
This class implements a huber regularizer.
Definition: regularizers_imp.h:70

dismec::objective::HuberRegularizer::HuberRegularizer
HuberRegularizer(real_t epsilon, real_t scale=1.0, bool ignore_bias=false)
Constructor for a Huber regularizer objective.
Definition: regularizers_imp.cpp:60

dismec::objective::HuberRegularizer::m_Epsilon
real_t m_Epsilon
Definition: regularizers_imp.h:83

dismec::objective::HuberRegularizer::point_wise_value
real_t point_wise_value(real_t x) const
Definition: regularizers_imp.cpp:67

dismec::objective::HuberRegularizer::point_wise_quad
real_t point_wise_quad(real_t x) const
Definition: regularizers_imp.cpp:83

dismec::objective::HuberRegularizer::point_wise_grad
real_t point_wise_grad(real_t x) const
Definition: regularizers_imp.cpp:73

dismec::objective::Objective
Class that models an optimization objective.
Definition: objective.h:41

dismec::objective::Objective::hessian_times_direction
void hessian_times_direction(const HashVector &location, const DenseRealVector &direction, Eigen::Ref< DenseRealVector > target)
Calculates the product of the Hessian matrix at location with direction.
Definition: objective.cpp:107

dismec::objective::Objective::gradient_at_zero
void gradient_at_zero(Eigen::Ref< DenseRealVector > target)
Gets the gradient for location zero.
Definition: objective.cpp:82

dismec::objective::Objective::gradient
void gradient(const HashVector &location, Eigen::Ref< DenseRealVector > target)
Evaluate the gradient at location.
Definition: objective.cpp:96

dismec::objective::Objective::lookup_on_line
virtual real_t lookup_on_line(real_t position)=0
Looks up the value of the objective on the line defined by the last call to project_to_line().

dismec::objective::Objective::project_to_line
void project_to_line(const HashVector &location, const DenseRealVector &direction)
creates a function g such that g(a) = objective(location + a * direction) Use lookup_on_line() to eva...
Definition: objective.cpp:124

dismec::objective::Objective::diag_preconditioner
void diag_preconditioner(const HashVector &location, Eigen::Ref< DenseRealVector > target)
Get precondition to be used in CG optimization.
Definition: objective.cpp:43

dismec::objective::Objective::value
real_t value(const HashVector &location)
Evaluate the objective at the given location.
Definition: objective.cpp:35

dismec::objective::PointWiseRegularizer
Base class for pointwise regularization functions.
Definition: pointwise.h:39

dismec::objective::PointWiseRegularizer< SquaredNormRegularizer >::dont_regularize_bias
bool dont_regularize_bias() const
Definition: pointwise.h:66

dismec::objective::PointWiseRegularizer::value_unchecked
real_t value_unchecked(const HashVector &location) override
Definition: pointwise.h:112

dismec::objective::PointWiseRegularizer< SquaredNormRegularizer >::scale
real_t scale() const
Returns the common scale factor for the entire regularizer.
Definition: pointwise.h:69

dismec::objective::SquaredNormRegularizer
This class implements a squared norm (L2) regularizer. Thus f(x) = 0.5 |x|^2.
Definition: regularizers_imp.h:30

dismec::objective::SquaredNormRegularizer::point_wise_quad
static real_t point_wise_quad(real_t x)
Definition: regularizers_imp.cpp:56

dismec::objective::SquaredNormRegularizer::lookup_on_line
real_t lookup_on_line(real_t a) override
Looks up the value of the objective on the line defined by the last call to project_to_line().
Definition: regularizers_imp.cpp:39

dismec::objective::SquaredNormRegularizer::point_wise_grad
static real_t point_wise_grad(real_t x)
Definition: regularizers_imp.cpp:52

dismec::objective::SquaredNormRegularizer::m_LsCache_dTw
real_t m_LsCache_dTw
Definition: regularizers_imp.h:55

dismec::objective::SquaredNormRegularizer::SquaredNormRegularizer
SquaredNormRegularizer(real_t scale=1, bool ignore_bias=false)
Definition: regularizers_imp.cpp:16

dismec::objective::SquaredNormRegularizer::m_LsCache_d2
real_t m_LsCache_d2
Definition: regularizers_imp.h:54

dismec::objective::SquaredNormRegularizer::point_wise_value
static real_t point_wise_value(real_t x)
Definition: regularizers_imp.cpp:48

dismec::objective::SquaredNormRegularizer::value_unchecked
real_t value_unchecked(const HashVector &location) override
Definition: regularizers_imp.cpp:44

dismec::objective::SquaredNormRegularizer::project_to_line_unchecked
void project_to_line_unchecked(const HashVector &location, const DenseRealVector &direction) override
Definition: regularizers_imp.cpp:21

dismec::objective::SquaredNormRegularizer::m_LsCache_w02
real_t m_LsCache_w02
Definition: regularizers_imp.h:53

conversion.h

hash_vector.h

anonymous_namespace{regularizers_imp.cpp}::verify_bias
void verify_bias(objective::Objective &full, objective::Objective &no_bias)
Definition: regularizers_imp.cpp:170

anonymous_namespace{regularizers_imp.cpp}::verify_line_search
void verify_line_search(objective::Objective &reg)
Definition: regularizers_imp.cpp:157

anonymous_namespace{regularizers_imp.cpp}::make_vec
DenseRealVector make_vec(std::initializer_list< real_t > values)
Definition: regularizers_imp.cpp:147

dismec::objective
Definition: fwd.h:34

dismec::objective::make_regularizer
std::unique_ptr< Objective > make_regularizer(const SquaredNormConfig &config)
Definition: regularizers_imp.cpp:126

dismec
Main namespace in which all types, classes, and functions are defined.
Definition: app.h:15

dismec::ssize
constexpr auto ssize(const C &c) -> std::common_type_t< std::ptrdiff_t, std::make_signed_t< decltype(c.size())>>
signed size free function. Taken from https://en.cppreference.com/w/cpp/iterator/size
Definition: conversion.h:42

dismec::DenseRealVector
types::DenseVector< real_t > DenseRealVector
Any dense, real values vector.
Definition: matrix_types.h:40

dismec::real_t
float real_t
The default type for floating point values.
Definition: config.h:17

regularizers.h

TEST_CASE
TEST_CASE("l2-reg")
Definition: regularizers_imp.cpp:203

regularizers_imp.h

dismec::objective::ElasticConfig
Definition: regularizers.h:17

dismec::objective::ElasticConfig::Epsilon
real_t Epsilon
Definition: regularizers.h:17

dismec::objective::ElasticConfig::IgnoreBias
bool IgnoreBias
Definition: regularizers.h:17

dismec::objective::ElasticConfig::Strength
real_t Strength
Definition: regularizers.h:17

dismec::objective::ElasticConfig::Interpolation
real_t Interpolation
Definition: regularizers.h:17

dismec::objective::HuberConfig
Definition: regularizers.h:16

dismec::objective::HuberConfig::Strength
real_t Strength
Definition: regularizers.h:16

dismec::objective::HuberConfig::IgnoreBias
bool IgnoreBias
Definition: regularizers.h:16

dismec::objective::HuberConfig::Epsilon
real_t Epsilon
Definition: regularizers.h:16

dismec::objective::SquaredNormConfig
Definition: regularizers.h:15

dismec::objective::SquaredNormConfig::Strength
real_t Strength
Definition: regularizers.h:15

dismec::objective::SquaredNormConfig::IgnoreBias
bool IgnoreBias
Definition: regularizers.h:15

THROW_EXCEPTION
#define THROW_EXCEPTION(exception_type,...)
Definition: throw_error.h:16