import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn
import statsmodels.api as sm

housing=pd.read_csv('housing.csv')
print(housing.shape)
housing.head(3)

(20640, 10)

seaborn.histplot(x='median_income', data=housing, color='darkgrey', bins=50)

<Axes: xlabel='median_income', ylabel='Count'>

y=housing['median_income']
sum(y==max(y))

49

# seems like the data is truncated from above.  That will affect our estimates, so let's remove them
y=y[y != max(y)]

seaborn.histplot(x=y, color='darkgrey', bins=50)

<Axes: xlabel='median_income', ylabel='Count'>

def bin_data(x, n_bins):
    bins=np.linspace(min(x)-1, max(x)+1, num=n_bins)
    midpoints=np.zeros(len(bins)-1)
    hist_counts=np.zeros(len(bins)-1)
    for i in range(len(midpoints)):
        midpoints[i]=(bins[i]+bins[i+1])/2.0
        hist_counts[i]=sum((y >= bins[i]) & (y < bins[i+1]))
    return bins, midpoints, hist_counts

bins, midpoints, hist_counts = bin_data(y, 50)
N=sum(hist_counts)
d=bins[1]-bins[0]
# check if counts are correct
print(sum(hist_counts) == len(y))

True

# R has built in poly() function to produce polynomials of data, 
# for python we need to build that manually
def raw_poly(x, p):
    x = np.array(x)
    X = np.transpose(np.vstack([x**k for k in range(1, p+1)]))
    return X
    
# checking output against R output
test= [1, 2, 3]
raw_poly(test, 2)

array([[1, 1],
       [2, 4],
       [3, 9]])

exog=raw_poly(midpoints, 4)
exog=sm.add_constant(exog)
income_4param_lindsey =sm.GLM(hist_counts, exog, family=sm.families.Poisson())
income_4param_lindsey_res = income_4param_lindsey.fit()
income_4param_lindsey_res.summary()

def poisson_glm_pdf(params, poly_x, N, d):
    poly_part=np.sum(np.multiply(poly_x, params[1:]))
    return np.exp(poly_part + params[0] - (np.log(N) + np.log(d)))

def get_lindsey_distribution(params, exog, N, d):
    poly_x=pd.DataFrame(exog)
    poly_x.drop(columns=poly_x.columns[0], axis=1, inplace=True)
    return poly_x.apply(lambda x: poisson_glm_pdf(params, x, N, d), axis=1)

income_4param_lindsey_dist=get_lindsey_distribution(income_4param_lindsey_res.params, exog, N, d)

ax=seaborn.histplot(y, color='darkgrey', bins=50, stat='density')
seaborn.lineplot(x=midpoints, y=income_4param_lindsey_dist, ax=ax, color='darkred')

<Axes: xlabel='median_income', ylabel='Density'>

exog=raw_poly(midpoints, 2)
exog=sm.add_constant(exog)
income_2param_lindsey =sm.GLM(hist_counts, exog, family=sm.families.Poisson())
income_2param_lindsey_res = income_2param_lindsey.fit()
income_2param_lindsey_res.summary()

from scipy.stats import norm
mu, std = norm.fit(y)
print("mu: ", mu, " std: ", std)

mu:  3.844186518381817  std:  1.8227116310328035

income_2param_lindsey_dist=get_lindsey_distribution(income_2param_lindsey_res.params, exog, N, d)
norm_fit = norm.pdf(midpoints, mu, std)
ax=seaborn.histplot(y, color='darkgrey', bins=50, stat='density')
seaborn.lineplot(x=midpoints, y=income_2param_lindsey_dist, ax=ax, color='darkred')
seaborn.lineplot(x=midpoints, y=norm_fit, ax=ax, color='deepskyblue', linestyle='--')

<Axes: xlabel='median_income', ylabel='Density'>

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value	ocean_proximity
0	-122.23	37.88	41.0	880.0	129.0	322.0	126.0	8.3252	452600.0	NEAR BAY
1	-122.22	37.86	21.0	7099.0	1106.0	2401.0	1138.0	8.3014	358500.0	NEAR BAY
2	-122.24	37.85	52.0	1467.0	190.0	496.0	177.0	7.2574	352100.0	NEAR BAY

Dep. Variable:	y	No. Observations:	49
Model:	GLM	Df Residuals:	44
Model Family:	Poisson	Df Model:	4
Link Function:	Log	Scale:	1.0000
Method:	IRLS	Log-Likelihood:	-351.20
Date:	Sun, 03 Dec 2023	Deviance:	414.40
Time:	17:36:33	Pearson chi2:	405.
No. Iterations:	10	Pseudo R-squ. (CS):	1.000
Covariance Type:	nonrobust

	coef	std err	z	P>\|z\|	[0.025	0.975]
const	2.7326	0.070	39.030	0.000	2.595	2.870
x1	3.7192	0.063	58.658	0.000	3.595	3.843
x2	-0.9258	0.019	-48.062	0.000	-0.964	-0.888
x3	0.0819	0.002	35.569	0.000	0.077	0.086
x4	-0.0025	9.25e-05	-27.452	0.000	-0.003	-0.002

Dep. Variable:	y	No. Observations:	49
Model:	GLM	Df Residuals:	46
Model Family:	Poisson	Df Model:	2
Link Function:	Log	Scale:	1.0000
Method:	IRLS	Log-Likelihood:	-2610.8
Date:	Sun, 03 Dec 2023	Deviance:	4933.7
Time:	17:36:33	Pearson chi2:	3.34e+05
No. Iterations:	9	Pseudo R-squ. (CS):	1.000
Covariance Type:	nonrobust

	coef	std err	z	P>\|z\|	[0.025	0.975]
const	5.2993	0.026	207.463	0.000	5.249	5.349
x1	1.0562	0.013	80.540	0.000	1.030	1.082
x2	-0.1395	0.002	-88.555	0.000	-0.143	-0.136

A Brief Introduction to Lindsey's Method¶

Timothy Daley¶