%pylab inline
from scipy.special import comb
from scipy.stats import norm
import scipy.stats as stats
def underlying_dist(bins):
    loc, scale = 15,5
    fig,ax = subplots(ncols= 1, sharey = True)
    fig.set_figwidth(5)
    n3 = norm.rvs(loc = loc, scale=scale, size = 100000)
    ax.hist(n3, bins=bins)
def measure_tumor(group):
    loc, scale = 15,5

    fig,ax = subplots(ncols= 1, sharey = True)
    fig.set_figwidth(5)

    control = norm.rvs(loc = loc, scale=scale, size = 3)
    drug = norm.rvs(loc = loc, scale=scale, size = 3)

    ax.scatter([0,0,0],control)
    ax.scatter([1,1,1],drug)
    
    ax.set_ylim(0,25)
    ax.set_xlim(-1,2)

    ax.set_ylabel('Tumor size', fontsize = 18)
    ax.set_xlabel('Treatment', fontsize = 18)
    ax.set_xticklabels(['','','control','',group,'',''], fontsize = 18)

def measure_many_tumor():
    loc, scale = 15,5
      
    fig,axs = subplots(ncols= 10, nrows =10, sharey = True, sharex = True)
    fig.set_figwidth(20)
    fig.set_figheight(20)
    axs = axs.flatten()
    pvals = []
    for ax in axs:
      control = norm.rvs(loc = loc, scale=scale, size = 3)
      drug = norm.rvs(loc = loc, scale=scale, size = 3)

      ax.scatter([0,0,0],control)
      ax.scatter([1,1,1],drug)
    
      ax.set_ylim(0,25)
      ax.set_xlim(-1,2)

      ax.set_yticklabels(['',''], fontsize = 18)
      ax.set_xticklabels(['',''], fontsize = 18)
      pvals.append(stats.ttest_ind(control, drug)[1])
    fig.text(0.5, 0.1, 'Treatment', ha='center',fontsize = 18)
    fig.text(0.1, 0.5, 'Tumor size', va='center', rotation='vertical',fontsize = 18)
    return pvals

Populating the interactive namespace from numpy and matplotlib


measure_tumor('drug1')

<ipython-input-1-eec1c45e2606>:28: UserWarning: FixedFormatter should only be used together with FixedLocator
  ax.set_xticklabels(['','','control','',group,'',''], fontsize = 18)


measure_tumor('drug2')

<ipython-input-1-eec1c45e2606>:28: UserWarning: FixedFormatter should only be used together with FixedLocator
  ax.set_xticklabels(['','','control','',group,'',''], fontsize = 18)


pvals = measure_many_tumor()

<ipython-input-1-eec1c45e2606>:48: UserWarning: FixedFormatter should only be used together with FixedLocator
  ax.set_yticklabels(['',''], fontsize = 18)
<ipython-input-1-eec1c45e2606>:49: UserWarning: FixedFormatter should only be used together with FixedLocator
  ax.set_xticklabels(['',''], fontsize = 18)


(np.array(pvals)<0.05)

array([False, False, False, False, False, False, False,  True, False,
       False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False,  True, False, False, False,  True,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False])


def running_p():
    
    loc, scale = 15,5 ## assume the drug has no effect on tumor!

    control_all = norm.rvs(loc = loc, scale=scale, size = 3)
    drug_all = norm.rvs(loc = loc, scale=scale, size = 3)

    p_values = [stats.ttest_ind(control_all, drug_all)[1]]

    K = 1

    while (p_values[-1] >= 0.05) & (K<5000):

        control = norm.rvs(loc = loc, scale=scale, size = 3)
        drug = norm.rvs(loc = loc, scale=scale, size = 3)

        control_all = np.concatenate([control_all,control])
        drug_all = np.concatenate([drug_all,drug])

        p_values.append(stats.ttest_ind(control_all, drug_all)[1])

        K = K + 1
        
    return p_values


plt.plot(running_p());
plt.xlabel('Number of new datasets added to the experiment',fontsize=12);
plt.ylabel('p-value',fontsize=12);


# takes a long time to simulate!

experiment_length = []
for i in range(100):
    experiment_length.append(len(running_p()))


print("The fraction of experiments that terminated before all datasets are used:")
print(sum(np.array(experiment_length)<5000)/100)

The fraction of experiments that terminated before all datasets are used:
0.6


plt.hist(experiment_length,bins=50);
plt.xlabel('Experiment length');


underlying_dist(bins = 10000)


pvals = []
loc, scale = 15,5
for i in range(10000):
  control = norm.rvs(loc = loc, scale=scale, size = 3)
  drug = norm.rvs(loc = loc, scale=scale, size = 3)
  pvals.append(stats.ttest_ind(control, drug)[1])


plt.hist(pvals,bins=25);

MCB 111 week 4 Section¶

p-values and p-hacking¶

Examples of p-Hacking:¶

Hypothetical scenario¶

Setting the threshold for significance to 0.05 means that approximately 5% of the statistical tests we do on data gathered from the same distribution will result in false positives.¶

A very "useful" hacking technique: Keep adding data until $p<0.05$?¶

A simple correction for multiple tests to reduce the overall false-positive rates¶