import numpy as np
from scipy.special import comb
import scipy.stats as stats
import matplotlib.pyplot as plt

np.random.seed(2023)

def measure_tumor(group):
    loc,scale = 15,5
    fig,ax = plt.subplots(ncols=1,sharey=True,figsize=(3,3))
    control = stats.norm.rvs(loc=loc,scale=scale,size=3)
    drug = stats.norm.rvs(loc=loc,scale=scale,size=3)
    ax.scatter([0,0,0],control)
    ax.scatter([1,1,1],drug)
    ax.set_xlim(-1,2)
    ax.set_ylim(np.min(np.concatenate((control,drug)))*0.9,
                np.max(np.concatenate((control,drug)))*1.1)
    ax.set_ylabel('Tumor size')
    ax.set_xlabel('Treatment')
    ax.set_xticks([0,1],['Control',group])

measure_tumor('Drug')

def measure_many_tumors():
    loc,scale,n = 15,5,3 # mean, standard deviation, and sample size
    fig,axs = plt.subplots(ncols=10,nrows=10,figsize=(20,20),sharey=True,sharex=True)
    axs = axs.flatten()
    N = len(axs) # number of drugs
    data = np.zeros((N,2,n))
    pvals = np.zeros(N)
    for i in range(N):
        control = stats.norm.rvs(loc=loc,scale=scale,size=n)
        drug = stats.norm.rvs(loc=loc,scale=scale,size=n)
        data[i,0,:] = control
        data[i,1,:] = drug
        axs[i].scatter([0,0,0],control)
        axs[i].scatter([1,1,1],drug)
        p = stats.ttest_ind(control, drug)[1] # get p-value from t-test
        axs[i].set_title('p = %.3f'%p,y=0.8)
        if p<0.01:
            axs[i].set_facecolor('orange')
        elif p<0.05:
            axs[i].set_facecolor('yellow')
        elif p<0.06:
            axs[i].set_facecolor('lightyellow')
        pvals[i] = p
    axs[-1].set_xlim(-1,2)
    axs[-1].set_xticks([0,1],['',''])
    fig.text(0.5,0.1,'Treatment',ha='center')
    fig.text(0.1,0.5,'Tumor size',va='center',rotation='vertical')
    return data,pvals

data_100, pvals_100 = measure_many_tumors()

N = 10000
pvals = np.zeros(N)
loc,scale,n=15,5,3
for i in range(N):
    control = stats.norm.rvs(loc=loc,scale=scale,size=n)
    drug = stats.norm.rvs(loc=loc,scale=scale,size=n)
    p = stats.ttest_ind(control,drug)[1]
    pvals[i] = p
plt.hist(pvals,bins=20,density=True)
plt.xticks((0,0.05,1),(0,0.05,1))
plt.xlabel('p-value')
plt.ylabel('Probability density')
plt.axvline(0.05,0,1.1,linestyle='--',color='k')
N_positive = sum(pvals<0.05)
print('%i out of 10000 drugs tested have p-values < 0.05.'%N_positive)

465 out of 10000 drugs tested have p-values < 0.05.

N = 10000
pvals = np.zeros(N)
loc1,scale1 = 15,5
loc2,scale2 = 10,5
n = 3
for i in range(N):
    control = stats.norm.rvs(loc=loc1,scale=scale1,size=n)
    drug = stats.norm.rvs(loc=loc2,scale=scale2,size=n)
    p = stats.ttest_ind(control,drug)[1]
    pvals[i] = p
plt.hist(pvals,bins=20,density=True)
plt.xticks((0,0.05,1),(0,0.05,1))
plt.xlabel('p-value')
plt.ylabel('Probability density')
plt.axvline(0.05,0,1.1,linestyle='--',color='k')
N_positive = sum(pvals<0.05)
print('%i out of 10000 drugs tested have p-values < 0.05.'%N_positive)

1594 out of 10000 drugs tested have p-values < 0.05.

# Find the drugs that have p-values between 0.05 and 0.06
almost_significant_index = np.where(np.logical_and(pvals_100<0.06,pvals_100>0.05))[0]
print(almost_significant_index)

[ 0 89]

m = len(almost_significant_index)
fig,axs = plt.subplots(1,m,figsize=(6,3),sharey=True,sharex=True)
for i in range(m):
    idx = almost_significant_index[i]
    control = data_100[idx,0,:]
    drug = data_100[idx,1,:]
    axs[i].scatter([0,0,0],control)
    axs[i].scatter([1,1,1],drug)
    p = pvals_100[idx]
    axs[i].set_title('p = %.3f'%p,y=0.8)
    axs[i].set_facecolor('lightyellow')
    axs[i].set_xlabel('Treatment')
axs[0].set_ylabel('Tumor size')
axs[-1].set_xlim(-1,2)
axs[-1].set_xticks([0,1],['Control','Drug']);

n = data_100.shape[2]
extra_n = 10
extra_pvals = np.zeros((m,extra_n+1))
fig,ax = plt.subplots()
for i in range(m):
    idx = almost_significant_index[i]
    extra_control = stats.norm.rvs(loc=loc,scale=scale,size=extra_n)
    extra_drug = stats.norm.rvs(loc=loc,scale=scale,size=extra_n)
    control = np.append(data_100[idx,0,:],extra_control)
    drug = np.append(data_100[idx,1,:],extra_drug)
    for j in range(extra_n+1):
        p = stats.ttest_ind(control[:n+j],drug[:n+j])[1]
        extra_pvals[i,j] = p
    ax.plot(np.arange(extra_n+1),extra_pvals[i],'.-')
ax.axhline(0.05,c='k',linestyle='--')
y_max = np.ceil(np.min((extra_pvals.max()*11,10)))/10
ax.set_yticks((0,0.05,y_max),(0,0.05,y_max))
ax.set_ylabel('p-value')
ax.set_xlabel('# Additional measurements');

n = 3
N = 100
pvals = np.zeros((N,2))
i = 0
while i<N:
    control = stats.norm.rvs(loc=loc,scale=scale,size=n)
    drug = stats.norm.rvs(loc=loc,scale=scale,size=n)
    p = stats.ttest_ind(control, drug)[1]
    pvals[i,0] = p
    if 0.05<p<0.06:
        extra_control = stats.norm.rvs(loc=loc,scale=scale,size=1)
        extra_drug = stats.norm.rvs(loc=loc,scale=scale,size=1)
        p = stats.ttest_ind(np.append(control,extra_control),np.append(drug,extra_drug))[1]
        pvals[i,1] = p
        i += 1
N_positive = np.sum(pvals[:,1]<0.05)
print('Among %i drugs with an initial p-value between 0.05 and 0.06, %i have p-values < 0.05 after just one additional measurement.'%(N,N_positive))

Among 100 drugs with an initial p-value between 0.05 and 0.06, 34 have p-values < 0.05 after just one additional measurement.

n = 5000
N = 100
pvals = np.zeros((N,n-3))
loc,scale,n=15,5,5000
for i in range(N):
    control = stats.norm.rvs(loc=loc,scale=scale,size=n)
    drug = stats.norm.rvs(loc=loc,scale=scale,size=n)
    for j in range(n-3):
        p = stats.ttest_ind(control[:j+3], drug[:j+3])[1]
        pvals[i,j] = p
N_positive = np.any(pvals<0.05,axis=1).sum()
print('%i out of %i drugs tested have p-values < 0.05 before reaching n = %i.'%(N_positive,N,n))

57 out of 100 drugs tested have p-values < 0.05 before reaching n = 5000.

from matplotlib.patches import Polygon
def exp_pmf(ax,n,N,p,exp_name):
    x = np.arange(N+1)
    y = stats.binom.pmf(x,N,p)
    ax.plot(x,y,'.-')
    ax.set_title('Exp%s ($p%s=%.1f,N=%i$)'%(exp_name,exp_name,p,N))
    ax.set_ylim(0,y.max()*1.1)
    ax.set_xlabel('Number of survivors ($n$)')
    ax.set_ylabel('Probability, $P(n|p%s=%.1f,N=%i)$'%(exp_name,p,N))
    ix = np.arange(n,N)
    iy = stats.binom.pmf(ix,N,p)
    verts = [(n,0),*zip(ix, iy),(N,0)]
    poly = Polygon(verts,facecolor='lightblue')
    ax.add_patch(poly)
    xmax = np.argmax(y)
    ax.set_xticks((0,n,xmax,N),(0,n,xmax,N))
    ax.axvline(n,linestyle='--',c='gray')
    pval = stats.binom.sf(n-1,N,p)
    ax.text(n*1.03,stats.binom.pmf(n,N,p)+np.max(y)*0.03,
            '    p-value\n$=P(n\geqslant %i|N=%i,p_{%s}=%.1f)$\n$=%f$'%(n,N,exp_name,p,pval))
fig,ax = plt.subplots(2,1,figsize=(5.5,10))
exp_pmf(ax[0],8,15,0.4,'A')
exp_pmf(ax[1],157,300,0.4,'B')
fig.tight_layout()

p = np.arange(0,1.001,0.001)
fig,ax = plt.subplots()
ax.plot(p,16*stats.binom.pmf(8,15,p),label='$p(pA|n=8,N=15)$')
ax.plot(p,301*stats.binom.pmf(157,300,p),label='$p(pB|n=157,N=300)$')
ax.set_xlabel('$p$')
ax.set_ylabel('Posterior probability density')
ax.legend();

MCB111 w04 Section¶

p-hacking¶

Examples of p-Hacking:¶

Hypothetical scenario¶

A very "useful" hacking technique: Keep adding data until $p<0.05$?¶

A simple correction for multiple tests to reduce the overall false-positive rates¶

Comparing p-values of different experiments – don’t¶