import warnings

warnings.filterwarnings("ignore")

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from glum import GeneralizedLinearRegressorCV
from sklearn.metrics import r2_score
from sklearn.base import RegressorMixin
from tqdm.notebook import tqdm

plt.rcParams["figure.figsize"] = [16.0, 10.0]
sns.set_palette(sns.color_palette("hls", 2))


class RidgelessLinearRegressor(RegressorMixin):
    """Ridgeless linear regression using Moore Penrose pseudoinverse."""

    def __init__(self):
        self.beta = None

    def fit(self, x, y):
        xxinv = np.linalg.pinv(np.matmul(x.T, x))
        xy = np.matmul(x.T, y)
        self.beta = np.matmul(xxinv, xy)
        return self

    def predict(self, x):
        return np.matmul(x, self.beta)


def gen_dat(n, snr, p):
    """Simulate from model with isotropic features."""
    bet = np.ones(p) * np.sqrt(snr / p)
    x = np.random.normal(size=(n, p))
    eps = np.random.normal(size=n, scale=1)
    y = np.matmul(x, bet) + eps
    return x, y, bet


def simulate(ns, gamma_max, n, snr, m, seed):
    """Generate data over a range of gamma, in-sample and out-of-sample, fit and evaluate a ridgeless regression."""
    np.random.seed(seed)
    res = []
    p_max = np.round(gamma_max * n)

    for sim in tqdm(range(ns)):
        for p in np.arange(n, p_max + 1):
            x, y, bet = gen_dat(n, snr, p)
            x_oos, y_oos, _ = gen_dat(m, snr, p)
            ridgeless = RidgelessLinearRegressor()
            ridgeless = ridgeless.fit(x, y)
            preds = ridgeless.predict(x)
            preds_oos = ridgeless.predict(x_oos)
            _res = pd.DataFrame(
                {
                    "norm_bet": l2(bet),
                    "mean_b": np.mean(ridgeless.beta),
                    "norm_b": l2(ridgeless.beta),
                    "abs_b": np.sum(np.abs(ridgeless.beta)),
                    "r2": r2_score(y, preds),
                    "r2_oos": r2_score(y_oos, preds_oos),
                    "p": p,
                    "sim": sim,
                },
                index=[0],
            )
            res += [_res]
    return pd.concat(res, ignore_index=True)


def simulate_ridge_vs_ridgeless(ns, gamma, n, snr, m, seed, **kwargs):
    """Generate data in-sample and out-of-sample, fit and evaluate ridgeless and ridge regression."""
    np.random.seed(seed)
    res = []
    p = round(gamma * n)
    for sim in tqdm(range(ns)):
        x, y, bet = gen_dat(n, snr, p)
        x_oos, y_oos, _ = gen_dat(m, snr, p)

        # tuned ridge
        ridge = GeneralizedLinearRegressorCV(
            l1_ratio=0, fit_intercept=False, family="normal", **kwargs
        )
        ridge = ridge.fit(x, y)
        preds_ridge = ridge.predict(x)
        pred_ridge_oos = ridge.predict(x_oos)

        # ridgeless
        ridgeless = RidgelessLinearRegressor()
        ridgeless = ridgeless.fit(x, y)
        preds_ridgeless = ridgeless.predict(x)
        preds_ridgeless_oos = ridgeless.predict(x_oos)

        _res = pd.DataFrame(
            {
                "ridgeless_r2": r2_score(y, preds_ridgeless),
                "ridgeless_r2_oos": r2_score(y_oos, preds_ridgeless_oos),
                "ridge_r2": r2_score(y, preds_ridge),
                "ridge_r2_oos": r2_score(y_oos, pred_ridge_oos),
                "ridge_alph": ridge.alpha_,
                "sim": sim,
            },
            index=[0],
        )
        res += [_res]

    return pd.concat(res, ignore_index=True)


def l2(vec):
    """L2-norm."""
    return np.sqrt(np.inner(vec, vec))


def gamma_opt(snr):
    """Optimal gamma as function of signal-to-noise-ratio."""
    return np.sqrt(snr) / (np.sqrt(snr) - 1)


def gamma_null(snr):
    """Value of gamma at which ridgeless should become better than null model."""
    return snr / (snr - 1)


ns = 50
gamma_max = 3
seed = 42
n = 50
snr = 3
m = 500  # observations out of sample


df_res = simulate(ns=ns, gamma_max=gamma_max, n=n, snr=snr, m=m, seed=seed)


ax = sns.lineplot(data=df_res, x="p", y="r2_oos")
ax.set_ylim(-1, 1)
ax.axhline(y=0, color="k", linewidth=0.5)
ax.axvline(x=gamma_opt(snr) * n, linestyle="--")
ax.axvline(x=gamma_null(snr) * n, linestyle=":")
ax.set_title(
    "Out-of-sample R^2 for perfectly fit estimator increasing in number of parameters"
)
ax.set_ylabel("Out-of-sample R^2")
ax.set_xlabel("Number of parameters (number of data pints: 50)")

Text(0.5, 0, 'Number of parameters (number of data pints: 50)')


ax = sns.lineplot(data=df_res, x="p", y="norm_b")
ax.set_ylim(0, 5)
ax.axvline(x=gamma_opt(snr) * n, linestyle="--")
ax.axvline(x=gamma_null(snr) * n, linestyle=":")
ax.set_title("Norm of estimated coefficients decreasing in number of parameters")
ax.set_ylabel("L2-norm of beta-hat")
ax.set_xlabel("Number of parameters (number of data pints: 50)")

Text(0.5, 0, 'Number of parameters (number of data pints: 50)')


df_res2 = simulate_ridge_vs_ridgeless(
    ns=ns, gamma=gamma_opt(snr), n=n, snr=snr, m=m, seed=seed
)


df_r2 = pd.melt(df_res2.drop(columns="ridge_alph"), id_vars="sim", value_name="r2")
df_r2["sample"] = np.where(df_r2["variable"].str.contains("oos"), "test", "train")
df_r2["estimator"] = np.where(
    df_r2["variable"].str.contains("ridgeless"), "ridgeless", "ridge"
)
ax = sns.swarmplot(x="sample", y="r2", hue="estimator", data=df_r2, dodge=True)

Benign Overfit (Surprises in High-Dimensional Ridgeless Least Squares Interpolation by Hastie et al.)¶

Setup¶

Results¶

No factor structure¶

Factor structure¶

Simulation¶

Preparation¶

Simulation 1: varying $\gamma$¶

Simulation 2: fix $\gamma$, ridgeless vs. ridge¶

Reference¶