%pylab inline

Populating the interactive namespace from numpy and matplotlib

x = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross.reads')

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-2-be56f2ad1e0f> in <cell line: 1>()
----> 1 x = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross.reads')

/usr/local/lib/python3.10/dist-packages/numpy/lib/npyio.py in loadtxt(fname, dtype, comments, delimiter, converters, skiprows, usecols, unpack, ndmin, encoding, max_rows, quotechar, like)
   1336         delimiter = delimiter.decode('latin1')
   1337 
-> 1338     arr = _read(fname, dtype=dtype, comment=comment, delimiter=delimiter,
   1339                 converters=converters, skiplines=skiprows, usecols=usecols,
   1340                 unpack=unpack, ndmin=ndmin, encoding=encoding,

/usr/local/lib/python3.10/dist-packages/numpy/lib/npyio.py in _read(fname, delimiter, comment, quote, imaginary_unit, usecols, skiplines, max_rows, converters, ndmin, unpack, dtype, encoding)
    997 
    998         if read_dtype_via_object_chunks is None:
--> 999             arr = _load_from_filelike(
   1000                 data, delimiter=delimiter, comment=comment, quote=quote,
   1001                 imaginary_unit=imaginary_unit,

ValueError: the number of columns changed from 4 to 1 at row 10000; use `usecols` to select a subset and avoid this error

np.loadtxt?

data = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross.reads', max_rows=9999)
data.shape

(9999, 4)

data

array([[2., 1., 7., 0.],
       [3., 3., 2., 2.],
       [1., 6., 0., 3.],
       ...,
       [6., 2., 0., 2.],
       [1., 7., 0., 2.],
       [1., 0., 6., 3.]])

mapped_A = data[:,0]
mapped_C = data[:,1]
mapped_G = data[:,2]
mapped_T = data[:,3]

np.loadtxt('http://mcb111.org/w06/w06-homework_backcross_genome.afa')

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
ValueError: could not convert string to float: '>A'

The above exception was the direct cause of the following exception:

ValueError                                Traceback (most recent call last)
<ipython-input-7-a5ab630c95f4> in <cell line: 1>()
----> 1 np.loadtxt('http://mcb111.org/w06/w06-homework_backcross_genome.afa')

/usr/local/lib/python3.10/dist-packages/numpy/lib/npyio.py in loadtxt(fname, dtype, comments, delimiter, converters, skiprows, usecols, unpack, ndmin, encoding, max_rows, quotechar, like)
   1336         delimiter = delimiter.decode('latin1')
   1337 
-> 1338     arr = _read(fname, dtype=dtype, comment=comment, delimiter=delimiter,
   1339                 converters=converters, skiplines=skiprows, usecols=usecols,
   1340                 unpack=unpack, ndmin=ndmin, encoding=encoding,

/usr/local/lib/python3.10/dist-packages/numpy/lib/npyio.py in _read(fname, delimiter, comment, quote, imaginary_unit, usecols, skiplines, max_rows, converters, ndmin, unpack, dtype, encoding)
    997 
    998         if read_dtype_via_object_chunks is None:
--> 999             arr = _load_from_filelike(
   1000                 data, delimiter=delimiter, comment=comment, quote=quote,
   1001                 imaginary_unit=imaginary_unit,

ValueError: could not convert string '>A' to float64 at row 0, column 1.

data = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross_genome.afa',dtype=str)
data

array(['>A',
       'GACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGTGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGATCTTCGATTTTTTGGCAACCCAAAATGGAGGCGGACGAACGAGATGATAATGATAAGATGATTCAAAAAGACAATGCACGACAGAGAGAGCAGAAAAGATAATTAAATTGCCCCTCATTTTCTCTGGCAAATTGTAGGGTGAATTATGATCGCGTATGCGAGAGTGGTGCCAACATATTGTGCTCTTCGATTTTTTGGCAACCCAAAATGGAGGCGGATGAACGAGATGATAATATTTTCAAGTTGCCGCTAATCAAAAATAAATTCCTTGCAACATAAAATAAAGCACAAAATGCCCGCTCAAAAAAAGGCATGAATATATAAGCTCGAACATAGAACATAGGCTTGAACATATAATGACTGCCTTTCATTCTCTATCTTATATTACCGCAAACACAAAATGACAATGCACGACATAGAGAGAAAGAGAGATATTCAGATTGCCTCTCATTGTCTCACCCATATTATGGGAACCAAATATGAGCACGTATGCGAGAGGAGTGCCAACATATTGTGCTCTACGATTTTTTTGCAACCCAAAATGGCGGCGTACGAACGAGATGATAATATATTCAAATTGCCGCTAATCAGAAGCAAGTTTATTGCAATGTTCAGTGCAGCGCAAAATGGCCGCTCAAGAAAAGGCTCGAATATATATTGCCTGCCTCTCATTCACTCTCTTTTATTACCGCAAGACCAAAATGACAATGTACAACAGAGAGAGCAAGAGAGATATTTAGATTGCCTCTCCTTGTCTCTCCCATATTATAGAGACCGAAAATGATTGCGTATGCGAGAAGAGTGCCATTGTATTGAGCTCCTCGACCCAAAATAGCGTCGGACGAACGAGATTATATATTTAAAATGCCGATCATTTTCTCATCCATATAAATACTACCGAAAATGACTGTCTAAAGGTACTCATCGACTATATTTAAATCTGTGTATTTCTGTGAATAGATTGACCTTTGCAATTTTTAACGGCATTGTCTATTAAATTAATATAATTTTCTTTTTTGATGAATATTTAACCGAACATTTACTTGAAATTAAATTATAAAATTGGTTAAATAATGTTGAAATCTTACTTTCAGCTAAATGGGGCTATTTTGCAAGGGTTCCATCATGACATTGGTAAATAATTTTTAAAGAATTAATTGTAAGTTCCAATAGACTGGAAATTATTTTGCAATATCATTCTTATCCCTATTTCCAAAAGCGAATTATTAGTTGCGTGAAAATCAGAAGGAAAATTATTTAACGTGTTATGCCACGCCAAATAGCCGCGCAATAGGAAGCTAGACTATATAATGACTGCAACGAAAATTGTAAATTCCAATTAAAAGGATATTATTGTGCGATTTCACTTTAATTCTTATTTCAAAAAAGTTAATTATTAGTTGACGGAAATCAGAACGAATTTCACCGCAACGTCTTATGCAGCACAAAATGGCGGCGCAAAAGGATGGTTGCATATACAATAACTTCATCTCATTCAATCTCTCCTATATTACCGCAAACTCGAAAGCCAAAACACGAATGATGAAGAGGGATAGATTTTATTGGGACAAAAATGATAGGTCACGCGAGAGGAGTGGTCTAAATTTTACTCTCACAAAAATGTTGGCAATACAAAATGGCGGCGGAATGAAGAGGTGAAAATATATTAAAATTGCCGCTCATTTTCTTCGCGGTAGAATTAGGACTGAACGTTGCCGGGTATAGGATCTCTATTGATGGCCTTTACTTATAAAGTGTATTTCTACAGATCAAATTACTTTTTACTCTTTATCAATATTTAAATATTATAAATTGATTTAGTTAAAATACAATTCGAACAATCTTTTCTCCAAATAATAATAATGTTTAATACCTATTTGCGCATATGCGTTTATTTTTGGGATTTAATTTTAACATTTTTCAACAAAACCGTTACAAATGTAATTTTAAATCAGGAAACGACTTTGGTATGAAAATATGTTTTTTTGTGCGCTTTTAAACATGTAACTGCTCTTTTGTGCTGTTTTATTGAATGCTATCACAGCGTAAAATTTTAGTTTTAATACCAATACATTGGGAATAATTTGCGATTTCATTCTATTCTTATGCCCAAATAAGGAAATAGTTTCCGGCAAAAAATCAGAATTTAGCTTTTACAAAAACTAGAGAGGAGAGGACAATATTATAATTGTAGACCGTTTTAAACACTTTAAAATGTTTAACCATTTATCAATTATTCTACTAAATGTAGGTGATTTTATTTATTAGAATACGAATTCTTTATCTGAATCGAACTAAGTAAGCCTAAGCGCTTAGGAAAAATACATACTTGACGAGTAGAGTGAAATAATTACAAATATTAGACATATCCATTGCTACTCGCATGTAGAGATTTCCACTTATGTTTTCTCTACTTTCAGCAACCGAGAAGAGAACCCACGTTTGAACAAGTATCGGCGTGTGGACAACAGCTATCCCCGCTTCATAACGAATGAGGCTGCCGAGGACCTGATTTACAAGAAGTCCATGGGCGAGCGGGATCAGCCACAGAGCTCAGAGCGGATCTCAATATTTAATCCGCCAGTATACACGCAGCACCAGGTGCGCAATGAAGCCCCCTACATACCCACCACATTTGACCTCCTCTCAGACGATGAGGAGTCGTCACAGAGAGTTGCCAACGCCGGGCCATCTTTCAGGCCCTTGACTTACTCGGATGCTGTGCGTCTAAGCCAGAATGGCTTCGCCAACTCCCGCGTAAGTGGGCACTCCAGCTATACGGTGCGCAGACCACCGGCACTAGTTGACAGAAGCATTCTATCCCAGGAAATGGAGCGCATGGACCAAGAGCAGTATATCTACCTTATCCGTACCGCAGCCCAAAGTAATTCCGTGGGCAGTCACTACGCCGAACCGGTTACTGATAACTCGGAGGTCAAGAAAGTCAGTGAAACCAACAAAAGGTAAATAAATTTTTTATATCCATCCATATCCGAATCAGTGGCAATAATGCAAAATGCTGATTTTATCACCAATTAGTGACGCACCACAGCCGTTAACCCCTCAACCTACCAGACTCACCAGAACAGAATCCTTGCACCGTCGTTTTGCCAGCTGCGTCAACTTAAATGATGACTTCGCCGAGCAATTTAAAGCAAGAGCGGCGGACTGTGAAGAGAAATCCAAACATCGTCTTAGATTAGCTGAAGAGCAGAGGCTTTTTTCGAATTTCAGTGCTATAAAGAACATAGATGAACTCCGTGCCTATGAACGAAAAGTAGTGGAAAACATATTCCAGTCTTGTATCGCCCACAAGCCCATTTTTGTACTCGGGCCCTTGGACAAGCCAAATGTGAAGAAAGTGACCAAGCTCATTCCGTTAACAGAGGAGCACCACGATCGCTTTAACGAAATTACACAGGATGATAAATCGACGGTATGGCAACGAATATATTGATGTCTTTCGTACCCATTGAAAACGTTGTGGTGCTTGCGCTTTAAAATCTTATATTAGGAAATTATTTTTAAATTTAACCTACACATAACTACCGAAGACATATGCACGTTTATTAATGGGAAATGGCTTAACGACGAGGTCATTAACTTTTACATGTCCTTGCTGACAGAACGGTCGGAGAAGAGATCTGGCGTACTTCCCGCCACTTACGCCATAAACACATTCTTCGTGCCCCGCCTCCTGCAAGCTGGGCATGCAGGCATTAAGCGCTGGACTCGCAAAGTGGACTTGTTCAGCAAGGACATAATCCCGGTACCAGTGCACTGCAACGGCGTCCACTGGTGCATGGCCATCATACACTTGCGGAACAAGACAATCCGGTATTATGACTCAAAGGGAAAGCCAAACCGACCAGTGCTGGACGCTCTAGAGAAATATCTACGCGAAGAGTCAATATTCAAGCCCAAAAAGCAGTTTGATACCAGCGATTTTGTTATTGAGAGCGTGCAGAATATACCACGACAGTTAGATGGCAGCGATTGCGGTATCTTCAGCTGCATGTTCGCCGAGTATATAACGTGTGATGTGCCAATTACCTTTACCCAGTCGGAAATGTTGTACTTCCGCAAGAAGATGGCTCTAGAAATCGTCGACGGAGAGTTGTGACAGTAGAATCACACAGCTACGCAAGAATGTGGAGAATCCAGTTTAGTTATTTTTACAAATCTTACGTAAACACTCCAAGCATGAATTCGCAACAAGTGCTTAGCTATTTAATTGAATTGAGCTGGCCGAGAGATGTGCTGGTGCAATAACTTGTTCTCATATCTGATTGTAACAGAGAATCTAGTTTTTCAATAAAATTTCCCCAAGTAAAAACAATGCGAATAGGGACGTATTAATTGCCGAATCTCTTCGAGTTAATAATTAATTTTTACAATACAGCAAGCTGAGAATATGCAATTGTAATGTCCAATTCAATATTTGTAATTTACTATTTTAAGCCTAACTCTTATCTAGGGATTACTCGATTCCAACTATATTAGAGTAGAAGAAAACAATTTATTGTAACGAAGTACAAAGATCATTCTAGAAAATCACTCATACAAACCTCTAAGGCTCAAAACCGAGGTATGATCTTTAAATAAGTCAAAATTAGGAGTTTTCAGTTTGAGACCTACAACTAAATAGATCGGTGTTCTTCCACAAAATATTGTAAAGCCAGTTTGTTAAATAAAATACATGTTTTATTAATAATCCTAAGCTAAATACTCAATTATATACTTTATATGGTCGGAAAAGCTTCCTTCTGCCTGTAACATACTTCTCAACGAATCTACAATACTATTGTATATACTATACCTTTTACTATACGAGTAACGGAGTAACGG',
       '>B',
       'GACAATGCACGACAGAATAAGCAGAACAAATATTTAGATTGACTCTAATTTGCTCTCCCATAATATACGGAGAAATATGATCGCGTTGGCGAGTGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCTAAAATAGTGGCGGATGAACGAGACGATAATAGATTCAAGTTGCCGCTAATCAGAAACAAATTAATTGCCACGTTAAATACAGGACGGTATATGATCTTGTATGGGAGAGTAGTGCCAACATATTGTGCTAAGGAGTGCCTCTCGTTATCTTTCTTAGATTTCCGTAAAACCAAAAACACAATACACGACAGAAAGAGAGTGCAGCGGAGACATTTAGATTGCCTATTAAATATGATCGCGTATTCGAGAGTACTGCTAACATATTGTGCTCTCTATAAAAGGACAGCCTCTCATTGTGTCGTGTTTTACCGCAAACCCAAACCGACAATACACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCGTATTATTGGGAGAAATATGATCGCGTATGCGAGAGTTGTGCCAACCTATTGAGCTCTTTGATTGTTGAGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATACAAGTTGCCGCTAATCAGAAATAAAATCATTGCAACGTTAACTACAGCACCATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTAGGGTAATGAGTGCCGCTCATGCTCTGTCGTATATCACCGCGAACCCCAAAAGACAATACACGACAGAAAGAGAGAGCTACGGAGACATTTAGATTGCCTATGAAATATTATCGCGTATGAGACAGTAGTCCCAATATATTATGCCCTCTAAATAATGAATGCCCCTCATTCTGTCTTCTCTAACCGAAAACCCAAATACACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATTGGGAGAAAGATAATCGCATATGCGAGAGTAGTGCCAACATATTGTTCGCATTGATTGATTGCCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTATAGTTGGCGCTAATCAGAAATAAATTCATTGCATCGGAAAATACAGCACAATATATGATCGCATATGCGTGAGTAGTGCCAACATATTGTGCTAGTGATTACCTCTCATTCTCCGTCTTATATTACCGCATACCTACGAAGCCGATACACGACAGAGAGAGAGAGCTGTGGAGAGATTTTGGTTGCCTATTAAATATGATCGCGTATACGAGAGTAGTGGCAACATATTGTGCTCTCTATATAATGACTGCCTCTCAGTCTGTCTTATTTTGCCGCAACCCCAAATCGACAATGCTCGACAGCGGAAGCAGAACAGATATTGAGTTTGCCTCTCATTTTGTCTCCCATATTATAGGGAGAAATCTGATCGCGCATGCGAGAGTAGGGCCCACATATTGTGCCCTGTGGTTTTTTGGCAACCCAAAATGGTCGCGAATGAACGAGATGATATCAGATTCAAGTGGCCGCTAATCAGAAACTAATTCATTGCACCGTTAACACAAGCACAATATATGAGCGCATATGCGAGAGTAGAGTCAACATATTGTGCGAATAAGGGCCTTTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGGCAATACACGACAGAGAGAGGGAGCAGCGGCGATATTTATACTGCCTATTATATATGATCGCGTATGCGAGAGTAGTGGCATAAGTTTGTGCTCTCTATATAATGACTGCCTCACATACTGACTTATTTTACTGCAAACCCAAATGGGCAATGCCCGACAGAGGAAGCAGAACAGATATTTAGATTGCCACTCATTTTCTATCCCATATTATAGGGAGAATTATGATCGTGTATGCGAGAGTAGTACCCATATATTGTGCTCTTTGATTTTTTGGCAACACAAAATGCTGACGGATGAACGAGATGATAATATATTCAGGTTGCCGCTAATCAGGAATAAATTCATTGCAACGTTAAATACAGCATAATATAGGACCGCGTATGCGAGAGTAGTGTAGACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACTCAAAAAGACAATCCACGAAAGGGAAAGAGAGCAGCGGAGACAGTTAGATTGCCTATTAATTCTCATCGTGTATGCGAGGGTAGGGCCAGCACATTGTGCTCTCTATATAATGATTACCTCTCTTTCTGTCTTATTTTACCGCAAACCCAACTCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGTTTGCCTTTCATTTTCTCTCCCATATTATAGGGAGACATATGATCCCGTATGCGAGAGTCGTGCCAACATATTGTGCTCTTTGATATTTTGGCAAACCAAAACTGTGGCGGGTGAACCAGACGAGAGTATCTTCAAGTTGCCGGTAATCAGAGATACATTCATTGCACTGTCAATTACAGTACAATATATCATCGCGTATGCGAGAGTAGTGCCAACATATTGCGTTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAAAGAGACAGAGCATCGGAGATATTTAGATTGCCTATCAAATGTGATCGCGTTTGCGAGAATAGTGCCAACATATTGTGCTCTCTCTATAATGACTGCCTTTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCAAGTCAGAGGACGCAGAACCGATATTTAGATTGCCTCTCATTTTCTCTCCCATGTTTTAGGGAGAAATATGATCGGGTATGCGATAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGCACGAGATGATAATATATACAAGTTGCCGCAAATCAGAAATAAATTCATTGCAAGGTTAAATACACCACATTATATGACGGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGATTGCCTCTCCTTCTACGTCTAATATTACCGCAAACCCAGAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATGGTTAGATTGCCCATTAACTATGATCGCGGATGCGAGACAAGTGCCAACCTATTGTACTCTCTATCTAATGACAGATGCTCGTTCTGTCTTATTTTACGGCAAACCCAAATCGAAAATGCACGACAGAGGAAGCAGAAGAGATATTTCGATTGCATCTCATTTTCTCTCCTATATTATCGGTACAAATATGATGGCGTATGACAGAGTAGTGCCCACACATGGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGGTGAACGAGAAGATACGATATTCAAGTTGCCGGTAATCAGAAAGAAATTCATTGCAACGTAAAATACAGCAGAATATATGATCGCGTATGTGAGAGTAATTCCATCATATTGGGCTAATGGGTGCCTATCGTTCTCTGTCTTATATGCCCGCAATCCCAAAAACACAATACACGACAGAAAGAGAGAGCAACGGAGATATTAAGATTGCCTATTAAATATGAACGCGGATGCGGGAGTAGTGCGAACAGATTGTGCTCTATTTATAATGACTGCCTATCATTCTGTCTTAAGTTACCGCAATCTCAAATCGACAAAGCACGACAGAGGAAGCATAACAGATATTTAGACTGTCACTCATTTTGTCTCCCATATGATATGGAGAAATCAAATCGAATATCCGAGAGTAGTGCCAACATATTGTGATCTTAGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGAAGGTACGGTTTTCAAAGTGCCGCTGATCAGAAATAAATTCATGATAAGGTTAAATACAGCTCATTATATGATAGCGTATGCGAGGGTAGGGCCAACACATTGTGCTAATGGGTGTCTCTCGTTCTCTGGCTTATGTTACCGCAAACCCAAAAAGACAATACACGGCAGAGAGAGGGAGCAGCGGAAATATTTAGGTTGGCTATTAAATATGATCACGTATGCGAGAGTGGTGCCAACATATTATGCTCTCTATAGTATGACTGTCTCTTACTCTGTCTTATTTTACCGCACACCCAAATCGACAATGCACGACAGAGGGAACAGAACAGATATTTAGATTGCCTCTCATTTACTCTCCCATATTATAGGGAGAAATATGATCGAGTATGCGAGAGTAGTGTCAACATATTGTGCACTTTGATCGCATGGCAACCCCTAATGGTGGCGGATGAACGAGATGATAATATTTTCAAGTTACCGCTAATCAGAAATAAATTCATTGCAACCTTAAAGACAGCACTATATACTATCGTGTATACAAGAGTATTGCCAACGTTTTGTGCTAATGAGTGCCTGTCGTGGTCTGTGTTATAGTACCGCAAACCCAAAAAGACAAGACACGACGGAGAAAGAGAGCAGCGGAGATATTCAGACTGCATATTAAACATGTTCGCGTATGCGAGAGTAGTGCCAATATATTGGGCTCTCTATATAACGATTGCCTCTCATTCTGTCTTATTTTAACTCAAACCTAAATCGACAAGGCACGACAGGGGAAGCAGAACCGATAACTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGACAAATATGAACGCGTATGCGAGAGTAGTGCAAACATATTCTGCTCTTTGATTCTTTGGCAACCCAAAATGGTGGGGGATGAACGAGATGATAATATATTGAAGTTGCCGCTAATCAAAAATAAATTCATTGGAACGTTAAATAGAGCACAATATATGATCGCGGATGCGGGAGTAGTGCCAACATATTGTGCTGATGAGTGCATCTCGTTCTCTGCCTTGTATTACCGCTAACCCAAAAAGCCAATACACGACAGAGAGAAAGAGCAGCGGAGATATTTAGAATGCCTATTAACTATGATCGCGTGTGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGCCGGCCTGTCATTCTGGCTTATTTTACCGCACAACCCAATCGACACTGCACGACAGAGCAACCAGAACAGACATTTAGATTGCCTCTCATTTTCTCTCGCCTATTATAGGGTGAAATAACATCGCGCATGCGAGAGTAGTCCCAACATATTGTGATCTTCGATTTTTTGGTACACCAAAATGGAGGCGGACGATCGAGATAAGAATGCGTAGCTGCTTCAAAAAGACAATGCACGACAGAGATAGCAGAGAAGATAATTAACTTGCCCCTCATTATCTCTGGTAAATTGTAGGGTGAATTATGATCCCGTAAGCGAGAGTGGTGCCGCCATGTCGTGCTCTACGATTTTTTCGCGACCCAAAATGGGGGCGGATGACCGAGATGATAATATCTTCAAGTTGCCGCTAATCAAAAATAAATTCCTTGCAACATAAAATAAAGCACAAAATGCCCGCACAAAAAAAGGCATGAATATATAAGCGCGAACATAGAACATAGGTTTGAACATATAATGACAGCCTTTCATTCTCTGGATAAAATCACCCCAAACACAAAATTGCATTGCACGACAAAGAGAGTAAGTCAGATAATCCGATTGCCTCTCATTGCCTCACCAATGTTACGGGAACCAAATATGAGCACGTGGGCGAGAGGAGTGCTAACATAGTGTGCTCTACGATTTTTTTGCAACCCTAAATGGCGGCGTACGAACGACATGATAATATACTCAAATTGCCGCTAATCAGAAGCAAGTTTGTTGCAATGCTCAGTGAAGCGCAAAATGGCCGCCCTAGAAATGCCTTTAATTTATATTGACTGCCTCTCCTTCTCTCTCTTTTATTACATCAAGACCAAAATGACAATGTACAACAGGGTGAGCAAGAGAGATATTTAGAATGACTTTCCTTGTCTCTCCCATATTAAGGAGACCGAAAGTGATAGCGTATGCGAGAAGAGTGTCATTGTATTGAGCTCCTCGAACCAAAATAGCGTCTGACGAGCGACATTATATATTTAAAACGCCGATCCTTTTCCCATCCATATAAATACTACCGAAAATGACTGTCTAAAGGTACTCAGCGACTATAGTAAAATCTGTGAATTACTGTGGACAGGTTGACCTTTTCAATTTTTACCGGCATTGTCAAGTAAATTAATATAATTTTCTTTTTAGATGATTATTTAACAGAACTTTTACTTGAAAATATTTTATAAAATTCGTTTTATAATATTGAAATCTTACTTTCAGTTAAATGGGGCTAGTTTGCAAGGGTTCCATCATGACCTTTTTAAATAGGTTTGAAAGAATTAATTGTAAGTTCCAATAGACTGGAAATTATTTTACAATTGCATTTTTATACCCAGATCCATCATCGAATTGTTAGTTGCATGAAAATCAGAAGGAAAAATCTTTAACTTGTTAGGCCCTGCCACATAGCCGCGCAATAGGGAGAGAGACCATATAATCACTGCAAGGAAAAATGTAAATGCCAATTAGAAGGATAAGATTGGGAGCCTTCATTTTAATTCTAATTTCAAAAAACTTAATGATGAGATGACGGAAATCAGAACGAATTTCTCCGCAACGTCATTACCAGCACAAAATGGCGGCGCAAAAGGATGGTTGCAGATACAATAACTACATCTCATTCCATCTCTCCTATATTTCCGCAAACTCGAAAGCCAAAACACGAATGATTATGAGGGATAGGTTGTGTTGGGACAAAAATTTTAGGTCACGCGATAGGAGTGGTCTAAATTTTACTCTTACAAAAATGTTGGCGATACAAAATGGCGGCGGAATAAAGAGGTGGAAATTTATTAAGATTGCCGCTTATGTGCTTCGCGGTGGAATTAGGACTGAACGGTCCCGAGTATAAGCTCTCGATTGCTGGCCTTTACCTATAAAGTGTATTACTACAGATTAAATTACTTTTTACCGTTTATCAATATTTAAATATTATATATTGATTTAGTTATACTACAATTCGAACAATCTTTTCTCCAAATAATAATAATGGTTAATACCTATTTGATCATATACGTTTATGTTTGGGATTTAATTTTAACATTTTTCAACGTAACCGTTATAGATGTAGTTTTATATCAGGAAACGACTTTGGTATGAAATTATGTTGTTTTGCGCTCTTTTAAACATGTAACTGCTATTATGTGCTCTTTTATTGAATCCTATCGCTACGTAAAATATTAGTTTTAATATCAATACATTGGTACTAATTCGCGATTTCATTCTATTCTTATGCCCAAATAAGGAAATAGTTTCCGGCGAAAACTCACAATTTACCTTTTACAAAAACTAGAGACGAGAGGACAATATTATAATTGTAGACCGTTATAAACACTTTAAAATGTTTTACCATTTATAAATTATTTTACTAATCGTAGGTATTTTTACTTATTAGAATACGAATTCTGTATCTGATGCGAACTAAGTATGCCTAATCGCTTAGAAAATATACATACTTGACGAGTAGAGCGATAAATTAACAAATATTAGACATATTCATTGCAACCCGCAGGTAGTGATTTCCACTTATGTTTTCGCTACTTCCAGCAACAGACAAGAGAACCCGCGTTTGAACTAGTTTCGGCGTGTAGACAACAGCTATCCACGCTTCATAACGAATGAGGCTGCGGAGGACCTGATTAACAGGAAGCCCATGGGCGTGCGGGATAAGCCACAGGCCTCAGAGCGGATCTCAAAATTAAATCTGGCAGAATACGCGCAGCACCAGGTGCGCAATGAAGCACCCTACATACCCACCACATTTGACCTCCTCTCAGACGATTAGAAGGCATCACAGAGAGTTGCCAACGCCGCGACATCTATGAGGGCCTTGACTTACTCGGATGCTGTGCGTCTAAGCCGGAATGGCATCGCCAACTCCCCCGTAAGTGGGCACTCCAGCTATACGGTGCGCAGACCACTGGCACTCGATGACAGAAGCATTCTATCCCACGAAATGGAGCGCATGGACCTACAGTAGTATATAAACCTTAACCTGACCGCAGCCCAAAGTAATTCCGTGAGCAGTCACTACGCCGAACCGGTTACTGATAACTCGGAGGTTAAGAAAGTCAATGAAATCAACGAGAGGTAAATAAATTTTTTTTATCCATTCACATCCGAAGCAGTGGTAATAAAGCAAAATGCTGATCCTATCACCAATTAGTAACGCACCACAGGCGTTAACCCCCCAATCTACGAGACGCTCCGGAACAGATTCATTGCACCGTCGTTTTACCAGCTGCGTCAACTTATACGATGGCTTCGCCACGCAATCTGAATCCAGAGCGGCAGACTGTGAAGAGAAGTCCAAACATCGTCCTAGATTAGCTCATGAGCAGAGGGTTTTTTGGAAGTTCTGTGCTAAAAAGAACATAGAAGAACTCCGCGCCTATGTACGAAAAATAGTGCAAAACATATTCCCGTCTTGTATCGCCCTCAAGCCCATCTTTGTACTCTGGCTCTTGTACAAGCCAAATGTGAGGCAAGTGACCAAGCTCATTCAGTCAACATAGGAGCACCACGATAGCTTTACCGAAATTACACAGGATGATATATCGACGTTATTGTAACGAATATATTGATGTCTTTCGTACCCATTGAAAAGGTTGTGGTGCTTGCGATTTAAAATCTTATATTATGAATTTATTTTTAAATTGAACGTACACATAACTACCGAAGACATATGCACGTTTATTAATGGGAAATGGCTTAACGAAGAGGGCTTAAATTCTTACATGTCCTTGTTCACAGAACGCTCGGAGAAGAGATCTGGCGTGCTTCCCGCCACTTACTCCATAAACTCATTCTTCGTGCAACGGCTCCTGCATGCTAGGCATGCAGGAACTAAGCGCTGGGCTCGCAAAGTGGACTTGTCCAGCATGGACATAATCCCGGTACCAGCGCTCTGCGACGGCGACCACTGGTGCATGGCCATCATACACTAGCATAACAATACAACCCGGAAAAATGACACAAAGGGAAAGCCTTACCGAACAGTGCGGGACGCTCTAGAGAAATGACTACGCGTAAAGTCAATATTCAAGCCCAAAAAGTAGTTTGATATCAGCGATTTTGTTATTGCGAGCGTGCAGAATATACCACGACAGTTAGATGCCAGCGCTCGCGGTAACGTCAGCTGCATGTTCGCCGAGTTTATAACGTTTGGTGTGCCAATTACAGTTACCCACTCCGATATGTCGTACTTCCGCAAGACGATGACTCTAGAAATCGTCGACGGAGAGTTGTGACAGTAGAATCCTACAGCTACGATAGAATGTGGAGAATGCAGTTTAGTTATTTTGACAAATCTTACGTAAACTATCCAAGCATGAATGAGTAACAAGTGCTTAGCTATTGAATGAAACTGAGCTGGCCGAGTGATGTGCTGGTGCAATAACTTGTTCTCATATCTTATTGAAACAGAGAATCCAGTTATTCAATAAAACTTTCCCAAGTAATAACAATGCGAATAGTGACGTAATTATTGCAGAAACTCTTCGAGTTTATAATTAATTTTTACAACACAGCAGGCCGAGAATATGCAATTGTAATGTCCATTTCAATATTTGGAATTTACTAATTTAAGCATAACTCTTATCTAGGGATTACTAGATTCTAACTATATTCGAGTAGAATAAAACAATTTATAGTAACAAAGTACAAAGATCCTTATAGATAATCACTCATACCAACCTCAAAAGATCAAAACCGAGGTATGATCTTTCAATAAGTCAAAATTAGGAGTTTTCAGTTGGAGACCTACAACTAAATAGATCGGTGTTCTTCCACAAAATATTCTAAAGCCAGTTTATTAAATTAAATACATGTTTTATTAATAATCCCAAGCTAACTACTCACTTATAAACTTTATCTGGTCTAAAAAGCTTCCTCCTGCCTGTAACATACTTTTCAACGAATCTACAATACTATTGTATATACTATACCTTTTACTCTACCGGTAACGGTCTAACGG'],
      dtype='<U10000')

data.shape

(4,)

seq = []
header = []
for row in data:
    if row.startswith('>'):
        header.append(row[1:])
    else:
        seq.append([c for c in row])

species = np.array(header)
sequence = np.array(seq)

print(species)
print(sequence)

['A' 'B']
[['G' 'A' 'C' ... 'C' 'G' 'G']
 ['G' 'A' 'C' ... 'C' 'G' 'G']]

species[0], sequence[0]

('A', array(['G', 'A', 'C', ..., 'C', 'G', 'G'], dtype='<U1'))

np.loadtxt('http://mcb111.org/w06/w06-homework_backcross_genome.info', dtype=str,max_rows = 2, comments= None)

array([['#t', '1', 'pos', '1600', 'st', '1->2'],
       ['#t', '2', 'pos', '3441', 'st', '2->1']], dtype='<U4')

import numpy as np

L = 5

log_bAB = np.zeros(L)
log_bBB = np.zeros(L)

for i in np.arange(L-2, -1, -1):
  # why L-2?
  # if an array x has length L,
  # then to access the very last index,
  # we need to index it like so: x[L-1]
  # but in our backward probability,
  # we actually already fill in the last index with b_Z(L) = 1
  # (and with logs, log b_Z(L) = log 1 = 0)
  # so, in our computation, we need to start indexing at L-2 :)
  log_bAB[i] = -0.5 + log_bAB[i+1]

log_bAB

array([-2. , -1.5, -1. , -0.5,  0. ])

log_bAB[L-1]

0.0

print(np.arange(3, -1, -1))
print(np.arange(2, 5.1))

[3 2 1 0]
[2. 3. 4. 5.]

from math import factorial

def log_factorial(n):
  return np.log(factorial(n))

log_factorial(10), log_factorial(0)

(15.104412573075516, 0.0)

data = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross_genome.afa',dtype=str)
seq = []
header = []
for row in data:
    if row.startswith('>'):
        header.append(row[1:])
    else:
        seq.append([c for c in row])

species = np.array(header)
sequence = np.array(seq)

species[0],sequence[0][203]

('A', 'A')

species[1],sequence[1][203]

('B', 'C')

%pylab inline
# Simulate points
w1 = 0.5
w0 = 3
sigma2 = 3
N = 50
err = np.random.normal(0,sigma2,N)
X = np.array(sorted(np.random.uniform(-10,10,N)))
T = w0 + X*w1 + err

plt.plot(X,T,".")
plt.show()

Populating the interactive namespace from numpy and matplotlib

from scipy.special import logsumexp
def log_posterior(x, t, w0, w1,sigma2):
    logconst = -0.5*np.log(2*np.pi)*sigma2
    logP = 0        # flat prior
    logP = sum(-(t - w0 - w1*x)*(t - w0 - w1*x)/2/sigma2 + logconst)
    return logP

w0_prev = 0
w1_prev = 0

posterior_prev=  log_posterior(X, T, w0_prev, w1_prev,sigma2)

iterations = 100000

w0_sampled = np.empty(iterations)
w1_sampled = np.empty(iterations)

for i in range(iterations):
    # draw a new set of parameters using previous value
    w0_cur = w0_prev+np.random.normal(0, 0.1)
    w1_cur = w1_prev+np.random.normal(0, 0.1)

    # calculate the posterior with the new parameters
    posterior_cur =  log_posterior(X, T, w0_cur, w1_cur,sigma2)

    #calculate the ratio
    alpha = logsumexp(posterior_cur-posterior_prev)
    if alpha >0:
        u = np.random.uniform()
        if u>=alpha: # reject the current
            w0_prev = w0_prev
            w1_prev = w1_prev
            posterior_prev = posterior_prev

        elif u<alpha: # accept with probability alpha
            w0_prev = w0_cur
            w1_prev = w1_cur
            posterior_prev = posterior_cur

    # Update the result arrays
    w0_sampled[i] = w0_prev
    w1_sampled[i] = w1_prev

plt.plot(list(range(iterations)), w0_sampled)
plt.hlines(np.mean(w0_sampled[1000:]), -2000, iterations+2000, 'r')
plt.xlabel("Iterations")
plt.ylabel("sampled w_0")
plt.show()

plt.plot(list(range(iterations)), w1_sampled)
plt.hlines(np.mean(w1_sampled[1000:]), -2000, iterations+2000,'r')
plt.xlabel("Iterations")
plt.ylabel("sampled w_1")
plt.show()

from scipy.special import logsumexp
def log_posterior(x, t, w0, w1,sigma2):
    logconst = -0.5*np.log(2*np.pi)*sigma2
    logP = 0        # flat prior
    logP = sum(-(t - w0 - w1*x)*(t - w0 - w1*x)/2/sigma2 + logconst)
    return logP



w0_prev = 0
w1_prev = 0

posterior_prev=  log_posterior(X, T, w0_prev, w1_prev,sigma2)


w0_sampled = []
w1_sampled = []

i = 0
stop=1
while stop == 1:

    # draw a new set of parameters using previous value
    w0_cur = w0_prev+np.random.normal(0, 0.1)
    w1_cur = w1_prev+np.random.normal(0, 0.1)

    # calculate the posterior with the new parameters
    posterior_cur =  log_posterior(X, T, w0_cur, w1_cur,sigma2)

    #calculate the ratio
    alpha = logsumexp(posterior_cur-posterior_prev)
    if alpha >0:
        u = np.random.uniform()
        if u>=alpha: # reject the current
            w0_prev = w0_prev
            w1_prev = w1_prev
            posterior_prev = posterior_prev

        elif u<alpha: # accept with probability alpha
            w0_prev = w0_cur
            w1_prev = w1_cur
            posterior_prev = posterior_cur

    # Update the result arrays
    w0_sampled.append(w0_prev)
    w1_sampled.append(w1_prev)

    i += 1

    if i >101:
        if (np.mean(w0_sampled[-10:-1]) - w0_sampled[-1] == 0) and (np.mean(w1_sampled[-10:-1]) - w1_sampled[-1] == 0):
            stop = 0

len(w0_sampled)

71842

plt.plot(list(range(len(w0_sampled))), w0_sampled)
plt.hlines(np.mean(w0_sampled[1000:]), 0, 2000, 'r')
plt.xlabel("Iterations")
plt.ylabel("sampled w_0")
plt.show()

plt.plot(list(range(len(w1_sampled))), w1_sampled)
plt.hlines(np.mean(w1_sampled[1000:]), 0, 2000,'r')
plt.xlabel("Iterations")
plt.ylabel("sampled w_1")
plt.show()

Data wrangling and the data in HW6¶

How do we get around this?¶

Problem overview¶

Multinomials¶

$P(X_i | G_i)$¶

$P(G_i | Z_i)$¶

While loops!¶