%pylab inline

Populating the interactive namespace from numpy and matplotlib


x = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross.reads')

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-16-be56f2ad1e0f> in <module>()
----> 1 x = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross.reads')

/usr/local/lib/python3.7/dist-packages/numpy/lib/npyio.py in loadtxt(fname, dtype, comments, delimiter, converters, skiprows, usecols, unpack, ndmin, encoding, max_rows)
   1137         # converting the data
   1138         X = None
-> 1139         for x in read_data(_loadtxt_chunksize):
   1140             if X is None:
   1141                 X = np.array(x, dtype)

/usr/local/lib/python3.7/dist-packages/numpy/lib/npyio.py in read_data(chunk_size)
   1062                 line_num = i + skiprows + 1
   1063                 raise ValueError("Wrong number of columns at line %d"
-> 1064                                  % line_num)
   1065 
   1066             # Convert each value according to its column and store

ValueError: Wrong number of columns at line 10000


np.loadtxt?


data = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross.reads',max_rows=9999)
data.shape

(9999, 4)


data[2,:]

6.0


data[50][2]==data[50,2]

True


mapped_A = data[:,0]
mapped_C = data[:,1]
mapped_G = data[:,2]
mapped_T = data[:,3]


data = np.loadtxt('http://mcb111.org/w06/w06-homework_backcross_genome.afa',dtype=str)
data

array(['>A',
       'GACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGAGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATATTTAGATTGCCTATTAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGACTGCCTCTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGTGAAATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGATCTTCGATTTTTTGGCAACCCAAAATGGAGGCGGACGAACGAGATGATAATGATAAGATGATTCAAAAAGACAATGCACGACAGAGAGAGCAGAAAAGATAATTAAATTGCCCCTCATTTTCTCTGGCAAATTGTAGGGTGAATTATGATCGCGTATGCGAGAGTGGTGCCAACATATTGTGCTCTTCGATTTTTTGGCAACCCAAAATGGAGGCGGATGAACGAGATGATAATATTTTCAAGTTGCCGCTAATCAAAAATAAATTCCTTGCAACATAAAATAAAGCACAAAATGCCCGCTCAAAAAAAGGCATGAATATATAAGCTCGAACATAGAACATAGGCTTGAACATATAATGACTGCCTTTCATTCTCTATCTTATATTACCGCAAACACAAAATGACAATGCACGACATAGAGAGAAAGAGAGATATTCAGATTGCCTCTCATTGTCTCACCCATATTATGGGAACCAAATATGAGCACGTATGCGAGAGGAGTGCCAACATATTGTGCTCTACGATTTTTTTGCAACCCAAAATGGCGGCGTACGAACGAGATGATAATATATTCAAATTGCCGCTAATCAGAAGCAAGTTTATTGCAATGTTCAGTGCAGCGCAAAATGGCCGCTCAAGAAAAGGCTCGAATATATATTGCCTGCCTCTCATTCACTCTCTTTTATTACCGCAAGACCAAAATGACAATGTACAACAGAGAGAGCAAGAGAGATATTTAGATTGCCTCTCCTTGTCTCTCCCATATTATAGAGACCGAAAATGATTGCGTATGCGAGAAGAGTGCCATTGTATTGAGCTCCTCGACCCAAAATAGCGTCGGACGAACGAGATTATATATTTAAAATGCCGATCATTTTCTCATCCATATAAATACTACCGAAAATGACTGTCTAAAGGTACTCATCGACTATATTTAAATCTGTGTATTTCTGTGAATAGATTGACCTTTGCAATTTTTAACGGCATTGTCTATTAAATTAATATAATTTTCTTTTTTGATGAATATTTAACCGAACATTTACTTGAAATTAAATTATAAAATTGGTTAAATAATGTTGAAATCTTACTTTCAGCTAAATGGGGCTATTTTGCAAGGGTTCCATCATGACATTGGTAAATAATTTTTAAAGAATTAATTGTAAGTTCCAATAGACTGGAAATTATTTTGCAATATCATTCTTATCCCTATTTCCAAAAGCGAATTATTAGTTGCGTGAAAATCAGAAGGAAAATTATTTAACGTGTTATGCCACGCCAAATAGCCGCGCAATAGGAAGCTAGACTATATAATGACTGCAACGAAAATTGTAAATTCCAATTAAAAGGATATTATTGTGCGATTTCACTTTAATTCTTATTTCAAAAAAGTTAATTATTAGTTGACGGAAATCAGAACGAATTTCACCGCAACGTCTTATGCAGCACAAAATGGCGGCGCAAAAGGATGGTTGCATATACAATAACTTCATCTCATTCAATCTCTCCTATATTACCGCAAACTCGAAAGCCAAAACACGAATGATGAAGAGGGATAGATTTTATTGGGACAAAAATGATAGGTCACGCGAGAGGAGTGGTCTAAATTTTACTCTCACAAAAATGTTGGCAATACAAAATGGCGGCGGAATGAAGAGGTGAAAATATATTAAAATTGCCGCTCATTTTCTTCGCGGTAGAATTAGGACTGAACGTTGCCGGGTATAGGATCTCTATTGATGGCCTTTACTTATAAAGTGTATTTCTACAGATCAAATTACTTTTTACTCTTTATCAATATTTAAATATTATAAATTGATTTAGTTAAAATACAATTCGAACAATCTTTTCTCCAAATAATAATAATGTTTAATACCTATTTGCGCATATGCGTTTATTTTTGGGATTTAATTTTAACATTTTTCAACAAAACCGTTACAAATGTAATTTTAAATCAGGAAACGACTTTGGTATGAAAATATGTTTTTTTGTGCGCTTTTAAACATGTAACTGCTCTTTTGTGCTGTTTTATTGAATGCTATCACAGCGTAAAATTTTAGTTTTAATACCAATACATTGGGAATAATTTGCGATTTCATTCTATTCTTATGCCCAAATAAGGAAATAGTTTCCGGCAAAAAATCAGAATTTAGCTTTTACAAAAACTAGAGAGGAGAGGACAATATTATAATTGTAGACCGTTTTAAACACTTTAAAATGTTTAACCATTTATCAATTATTCTACTAAATGTAGGTGATTTTATTTATTAGAATACGAATTCTTTATCTGAATCGAACTAAGTAAGCCTAAGCGCTTAGGAAAAATACATACTTGACGAGTAGAGTGAAATAATTACAAATATTAGACATATCCATTGCTACTCGCATGTAGAGATTTCCACTTATGTTTTCTCTACTTTCAGCAACCGAGAAGAGAACCCACGTTTGAACAAGTATCGGCGTGTGGACAACAGCTATCCCCGCTTCATAACGAATGAGGCTGCCGAGGACCTGATTTACAAGAAGTCCATGGGCGAGCGGGATCAGCCACAGAGCTCAGAGCGGATCTCAATATTTAATCCGCCAGTATACACGCAGCACCAGGTGCGCAATGAAGCCCCCTACATACCCACCACATTTGACCTCCTCTCAGACGATGAGGAGTCGTCACAGAGAGTTGCCAACGCCGGGCCATCTTTCAGGCCCTTGACTTACTCGGATGCTGTGCGTCTAAGCCAGAATGGCTTCGCCAACTCCCGCGTAAGTGGGCACTCCAGCTATACGGTGCGCAGACCACCGGCACTAGTTGACAGAAGCATTCTATCCCAGGAAATGGAGCGCATGGACCAAGAGCAGTATATCTACCTTATCCGTACCGCAGCCCAAAGTAATTCCGTGGGCAGTCACTACGCCGAACCGGTTACTGATAACTCGGAGGTCAAGAAAGTCAGTGAAACCAACAAAAGGTAAATAAATTTTTTATATCCATCCATATCCGAATCAGTGGCAATAATGCAAAATGCTGATTTTATCACCAATTAGTGACGCACCACAGCCGTTAACCCCTCAACCTACCAGACTCACCAGAACAGAATCCTTGCACCGTCGTTTTGCCAGCTGCGTCAACTTAAATGATGACTTCGCCGAGCAATTTAAAGCAAGAGCGGCGGACTGTGAAGAGAAATCCAAACATCGTCTTAGATTAGCTGAAGAGCAGAGGCTTTTTTCGAATTTCAGTGCTATAAAGAACATAGATGAACTCCGTGCCTATGAACGAAAAGTAGTGGAAAACATATTCCAGTCTTGTATCGCCCACAAGCCCATTTTTGTACTCGGGCCCTTGGACAAGCCAAATGTGAAGAAAGTGACCAAGCTCATTCCGTTAACAGAGGAGCACCACGATCGCTTTAACGAAATTACACAGGATGATAAATCGACGGTATGGCAACGAATATATTGATGTCTTTCGTACCCATTGAAAACGTTGTGGTGCTTGCGCTTTAAAATCTTATATTAGGAAATTATTTTTAAATTTAACCTACACATAACTACCGAAGACATATGCACGTTTATTAATGGGAAATGGCTTAACGACGAGGTCATTAACTTTTACATGTCCTTGCTGACAGAACGGTCGGAGAAGAGATCTGGCGTACTTCCCGCCACTTACGCCATAAACACATTCTTCGTGCCCCGCCTCCTGCAAGCTGGGCATGCAGGCATTAAGCGCTGGACTCGCAAAGTGGACTTGTTCAGCAAGGACATAATCCCGGTACCAGTGCACTGCAACGGCGTCCACTGGTGCATGGCCATCATACACTTGCGGAACAAGACAATCCGGTATTATGACTCAAAGGGAAAGCCAAACCGACCAGTGCTGGACGCTCTAGAGAAATATCTACGCGAAGAGTCAATATTCAAGCCCAAAAAGCAGTTTGATACCAGCGATTTTGTTATTGAGAGCGTGCAGAATATACCACGACAGTTAGATGGCAGCGATTGCGGTATCTTCAGCTGCATGTTCGCCGAGTATATAACGTGTGATGTGCCAATTACCTTTACCCAGTCGGAAATGTTGTACTTCCGCAAGAAGATGGCTCTAGAAATCGTCGACGGAGAGTTGTGACAGTAGAATCACACAGCTACGCAAGAATGTGGAGAATCCAGTTTAGTTATTTTTACAAATCTTACGTAAACACTCCAAGCATGAATTCGCAACAAGTGCTTAGCTATTTAATTGAATTGAGCTGGCCGAGAGATGTGCTGGTGCAATAACTTGTTCTCATATCTGATTGTAACAGAGAATCTAGTTTTTCAATAAAATTTCCCCAAGTAAAAACAATGCGAATAGGGACGTATTAATTGCCGAATCTCTTCGAGTTAATAATTAATTTTTACAATACAGCAAGCTGAGAATATGCAATTGTAATGTCCAATTCAATATTTGTAATTTACTATTTTAAGCCTAACTCTTATCTAGGGATTACTCGATTCCAACTATATTAGAGTAGAAGAAAACAATTTATTGTAACGAAGTACAAAGATCATTCTAGAAAATCACTCATACAAACCTCTAAGGCTCAAAACCGAGGTATGATCTTTAAATAAGTCAAAATTAGGAGTTTTCAGTTTGAGACCTACAACTAAATAGATCGGTGTTCTTCCACAAAATATTGTAAAGCCAGTTTGTTAAATAAAATACATGTTTTATTAATAATCCTAAGCTAAATACTCAATTATATACTTTATATGGTCGGAAAAGCTTCCTTCTGCCTGTAACATACTTCTCAACGAATCTACAATACTATTGTATATACTATACCTTTTACTATACGAGTAACGGAGTAACGG',
       '>B',
       'GACAATGCACGACAGAATAAGCAGAACAAATATTTAGATTGACTCTAATTTGCTCTCCCATAATATACGGAGAAATATGATCGCGTTGGCGAGTGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCTAAAATAGTGGCGGATGAACGAGACGATAATAGATTCAAGTTGCCGCTAATCAGAAACAAATTAATTGCCACGTTAAATACAGGACGGTATATGATCTTGTATGGGAGAGTAGTGCCAACATATTGTGCTAAGGAGTGCCTCTCGTTATCTTTCTTAGATTTCCGTAAAACCAAAAACACAATACACGACAGAAAGAGAGTGCAGCGGAGACATTTAGATTGCCTATTAAATATGATCGCGTATTCGAGAGTACTGCTAACATATTGTGCTCTCTATAAAAGGACAGCCTCTCATTGTGTCGTGTTTTACCGCAAACCCAAACCGACAATACACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCGTATTATTGGGAGAAATATGATCGCGTATGCGAGAGTTGTGCCAACCTATTGAGCTCTTTGATTGTTGAGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATACAAGTTGCCGCTAATCAGAAATAAAATCATTGCAACGTTAACTACAGCACCATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTAGGGTAATGAGTGCCGCTCATGCTCTGTCGTATATCACCGCGAACCCCAAAAGACAATACACGACAGAAAGAGAGAGCTACGGAGACATTTAGATTGCCTATGAAATATTATCGCGTATGAGACAGTAGTCCCAATATATTATGCCCTCTAAATAATGAATGCCCCTCATTCTGTCTTCTCTAACCGAAAACCCAAATACACAATGCACGACAGAGGAAGCAGAACAGATATTTAGATTGCCTCTCATTTTCTCTCCCATATTATTGGGAGAAAGATAATCGCATATGCGAGAGTAGTGCCAACATATTGTTCGCATTGATTGATTGCCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTATAGTTGGCGCTAATCAGAAATAAATTCATTGCATCGGAAAATACAGCACAATATATGATCGCATATGCGTGAGTAGTGCCAACATATTGTGCTAGTGATTACCTCTCATTCTCCGTCTTATATTACCGCATACCTACGAAGCCGATACACGACAGAGAGAGAGAGCTGTGGAGAGATTTTGGTTGCCTATTAAATATGATCGCGTATACGAGAGTAGTGGCAACATATTGTGCTCTCTATATAATGACTGCCTCTCAGTCTGTCTTATTTTGCCGCAACCCCAAATCGACAATGCTCGACAGCGGAAGCAGAACAGATATTGAGTTTGCCTCTCATTTTGTCTCCCATATTATAGGGAGAAATCTGATCGCGCATGCGAGAGTAGGGCCCACATATTGTGCCCTGTGGTTTTTTGGCAACCCAAAATGGTCGCGAATGAACGAGATGATATCAGATTCAAGTGGCCGCTAATCAGAAACTAATTCATTGCACCGTTAACACAAGCACAATATATGAGCGCATATGCGAGAGTAGAGTCAACATATTGTGCGAATAAGGGCCTTTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGGCAATACACGACAGAGAGAGGGAGCAGCGGCGATATTTATACTGCCTATTATATATGATCGCGTATGCGAGAGTAGTGGCATAAGTTTGTGCTCTCTATATAATGACTGCCTCACATACTGACTTATTTTACTGCAAACCCAAATGGGCAATGCCCGACAGAGGAAGCAGAACAGATATTTAGATTGCCACTCATTTTCTATCCCATATTATAGGGAGAATTATGATCGTGTATGCGAGAGTAGTACCCATATATTGTGCTCTTTGATTTTTTGGCAACACAAAATGCTGACGGATGAACGAGATGATAATATATTCAGGTTGCCGCTAATCAGGAATAAATTCATTGCAACGTTAAATACAGCATAATATAGGACCGCGTATGCGAGAGTAGTGTAGACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACTCAAAAAGACAATCCACGAAAGGGAAAGAGAGCAGCGGAGACAGTTAGATTGCCTATTAATTCTCATCGTGTATGCGAGGGTAGGGCCAGCACATTGTGCTCTCTATATAATGATTACCTCTCTTTCTGTCTTATTTTACCGCAAACCCAACTCGACAATGCACGACAGAGGAAGCAGAACAGATATTTAGTTTGCCTTTCATTTTCTCTCCCATATTATAGGGAGACATATGATCCCGTATGCGAGAGTCGTGCCAACATATTGTGCTCTTTGATATTTTGGCAAACCAAAACTGTGGCGGGTGAACCAGACGAGAGTATCTTCAAGTTGCCGGTAATCAGAGATACATTCATTGCACTGTCAATTACAGTACAATATATCATCGCGTATGCGAGAGTAGTGCCAACATATTGCGTTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCGCAAACCCAAAAAGACAATACACGACAAAGAGACAGAGCATCGGAGATATTTAGATTGCCTATCAAATGTGATCGCGTTTGCGAGAATAGTGCCAACATATTGTGCTCTCTCTATAATGACTGCCTTTCATTCTGTCTTATTTTACCGCAAACCCAAATCGACAATGCAAGTCAGAGGACGCAGAACCGATATTTAGATTGCCTCTCATTTTCTCTCCCATGTTTTAGGGAGAAATATGATCGGGTATGCGATAGTAGTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGCACGAGATGATAATATATACAAGTTGCCGCAAATCAGAAATAAATTCATTGCAAGGTTAAATACACCACATTATATGACGGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGATTGCCTCTCCTTCTACGTCTAATATTACCGCAAACCCAGAAAGACAATACACGACAGAGAGAGAGAGCAGCGGAGATGGTTAGATTGCCCATTAACTATGATCGCGGATGCGAGACAAGTGCCAACCTATTGTACTCTCTATCTAATGACAGATGCTCGTTCTGTCTTATTTTACGGCAAACCCAAATCGAAAATGCACGACAGAGGAAGCAGAAGAGATATTTCGATTGCATCTCATTTTCTCTCCTATATTATCGGTACAAATATGATGGCGTATGACAGAGTAGTGCCCACACATGGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGGTGAACGAGAAGATACGATATTCAAGTTGCCGGTAATCAGAAAGAAATTCATTGCAACGTAAAATACAGCAGAATATATGATCGCGTATGTGAGAGTAATTCCATCATATTGGGCTAATGGGTGCCTATCGTTCTCTGTCTTATATGCCCGCAATCCCAAAAACACAATACACGACAGAAAGAGAGAGCAACGGAGATATTAAGATTGCCTATTAAATATGAACGCGGATGCGGGAGTAGTGCGAACAGATTGTGCTCTATTTATAATGACTGCCTATCATTCTGTCTTAAGTTACCGCAATCTCAAATCGACAAAGCACGACAGAGGAAGCATAACAGATATTTAGACTGTCACTCATTTTGTCTCCCATATGATATGGAGAAATCAAATCGAATATCCGAGAGTAGTGCCAACATATTGTGATCTTAGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGAAGGTACGGTTTTCAAAGTGCCGCTGATCAGAAATAAATTCATGATAAGGTTAAATACAGCTCATTATATGATAGCGTATGCGAGGGTAGGGCCAACACATTGTGCTAATGGGTGTCTCTCGTTCTCTGGCTTATGTTACCGCAAACCCAAAAAGACAATACACGGCAGAGAGAGGGAGCAGCGGAAATATTTAGGTTGGCTATTAAATATGATCACGTATGCGAGAGTGGTGCCAACATATTATGCTCTCTATAGTATGACTGTCTCTTACTCTGTCTTATTTTACCGCACACCCAAATCGACAATGCACGACAGAGGGAACAGAACAGATATTTAGATTGCCTCTCATTTACTCTCCCATATTATAGGGAGAAATATGATCGAGTATGCGAGAGTAGTGTCAACATATTGTGCACTTTGATCGCATGGCAACCCCTAATGGTGGCGGATGAACGAGATGATAATATTTTCAAGTTACCGCTAATCAGAAATAAATTCATTGCAACCTTAAAGACAGCACTATATACTATCGTGTATACAAGAGTATTGCCAACGTTTTGTGCTAATGAGTGCCTGTCGTGGTCTGTGTTATAGTACCGCAAACCCAAAAAGACAAGACACGACGGAGAAAGAGAGCAGCGGAGATATTCAGACTGCATATTAAACATGTTCGCGTATGCGAGAGTAGTGCCAATATATTGGGCTCTCTATATAACGATTGCCTCTCATTCTGTCTTATTTTAACTCAAACCTAAATCGACAAGGCACGACAGGGGAAGCAGAACCGATAACTAGATTGCCTCTCATTTTCTCTCCCATATTATAGGGACAAATATGAACGCGTATGCGAGAGTAGTGCAAACATATTCTGCTCTTTGATTCTTTGGCAACCCAAAATGGTGGGGGATGAACGAGATGATAATATATTGAAGTTGCCGCTAATCAAAAATAAATTCATTGGAACGTTAAATAGAGCACAATATATGATCGCGGATGCGGGAGTAGTGCCAACATATTGTGCTGATGAGTGCATCTCGTTCTCTGCCTTGTATTACCGCTAACCCAAAAAGCCAATACACGACAGAGAGAAAGAGCAGCGGAGATATTTAGAATGCCTATTAACTATGATCGCGTGTGCGAGAGTAGTGCCAACATATTGTGCTCTCTATATAATGCCGGCCTGTCATTCTGGCTTATTTTACCGCACAACCCAATCGACACTGCACGACAGAGCAACCAGAACAGACATTTAGATTGCCTCTCATTTTCTCTCGCCTATTATAGGGTGAAATAACATCGCGCATGCGAGAGTAGTCCCAACATATTGTGATCTTCGATTTTTTGGTACACCAAAATGGAGGCGGACGATCGAGATAAGAATGCGTAGCTGCTTCAAAAAGACAATGCACGACAGAGATAGCAGAGAAGATAATTAACTTGCCCCTCATTATCTCTGGTAAATTGTAGGGTGAATTATGATCCCGTAAGCGAGAGTGGTGCCGCCATGTCGTGCTCTACGATTTTTTCGCGACCCAAAATGGGGGCGGATGACCGAGATGATAATATCTTCAAGTTGCCGCTAATCAAAAATAAATTCCTTGCAACATAAAATAAAGCACAAAATGCCCGCACAAAAAAAGGCATGAATATATAAGCGCGAACATAGAACATAGGTTTGAACATATAATGACAGCCTTTCATTCTCTGGATAAAATCACCCCAAACACAAAATTGCATTGCACGACAAAGAGAGTAAGTCAGATAATCCGATTGCCTCTCATTGCCTCACCAATGTTACGGGAACCAAATATGAGCACGTGGGCGAGAGGAGTGCTAACATAGTGTGCTCTACGATTTTTTTGCAACCCTAAATGGCGGCGTACGAACGACATGATAATATACTCAAATTGCCGCTAATCAGAAGCAAGTTTGTTGCAATGCTCAGTGAAGCGCAAAATGGCCGCCCTAGAAATGCCTTTAATTTATATTGACTGCCTCTCCTTCTCTCTCTTTTATTACATCAAGACCAAAATGACAATGTACAACAGGGTGAGCAAGAGAGATATTTAGAATGACTTTCCTTGTCTCTCCCATATTAAGGAGACCGAAAGTGATAGCGTATGCGAGAAGAGTGTCATTGTATTGAGCTCCTCGAACCAAAATAGCGTCTGACGAGCGACATTATATATTTAAAACGCCGATCCTTTTCCCATCCATATAAATACTACCGAAAATGACTGTCTAAAGGTACTCAGCGACTATAGTAAAATCTGTGAATTACTGTGGACAGGTTGACCTTTTCAATTTTTACCGGCATTGTCAAGTAAATTAATATAATTTTCTTTTTAGATGATTATTTAACAGAACTTTTACTTGAAAATATTTTATAAAATTCGTTTTATAATATTGAAATCTTACTTTCAGTTAAATGGGGCTAGTTTGCAAGGGTTCCATCATGACCTTTTTAAATAGGTTTGAAAGAATTAATTGTAAGTTCCAATAGACTGGAAATTATTTTACAATTGCATTTTTATACCCAGATCCATCATCGAATTGTTAGTTGCATGAAAATCAGAAGGAAAAATCTTTAACTTGTTAGGCCCTGCCACATAGCCGCGCAATAGGGAGAGAGACCATATAATCACTGCAAGGAAAAATGTAAATGCCAATTAGAAGGATAAGATTGGGAGCCTTCATTTTAATTCTAATTTCAAAAAACTTAATGATGAGATGACGGAAATCAGAACGAATTTCTCCGCAACGTCATTACCAGCACAAAATGGCGGCGCAAAAGGATGGTTGCAGATACAATAACTACATCTCATTCCATCTCTCCTATATTTCCGCAAACTCGAAAGCCAAAACACGAATGATTATGAGGGATAGGTTGTGTTGGGACAAAAATTTTAGGTCACGCGATAGGAGTGGTCTAAATTTTACTCTTACAAAAATGTTGGCGATACAAAATGGCGGCGGAATAAAGAGGTGGAAATTTATTAAGATTGCCGCTTATGTGCTTCGCGGTGGAATTAGGACTGAACGGTCCCGAGTATAAGCTCTCGATTGCTGGCCTTTACCTATAAAGTGTATTACTACAGATTAAATTACTTTTTACCGTTTATCAATATTTAAATATTATATATTGATTTAGTTATACTACAATTCGAACAATCTTTTCTCCAAATAATAATAATGGTTAATACCTATTTGATCATATACGTTTATGTTTGGGATTTAATTTTAACATTTTTCAACGTAACCGTTATAGATGTAGTTTTATATCAGGAAACGACTTTGGTATGAAATTATGTTGTTTTGCGCTCTTTTAAACATGTAACTGCTATTATGTGCTCTTTTATTGAATCCTATCGCTACGTAAAATATTAGTTTTAATATCAATACATTGGTACTAATTCGCGATTTCATTCTATTCTTATGCCCAAATAAGGAAATAGTTTCCGGCGAAAACTCACAATTTACCTTTTACAAAAACTAGAGACGAGAGGACAATATTATAATTGTAGACCGTTATAAACACTTTAAAATGTTTTACCATTTATAAATTATTTTACTAATCGTAGGTATTTTTACTTATTAGAATACGAATTCTGTATCTGATGCGAACTAAGTATGCCTAATCGCTTAGAAAATATACATACTTGACGAGTAGAGCGATAAATTAACAAATATTAGACATATTCATTGCAACCCGCAGGTAGTGATTTCCACTTATGTTTTCGCTACTTCCAGCAACAGACAAGAGAACCCGCGTTTGAACTAGTTTCGGCGTGTAGACAACAGCTATCCACGCTTCATAACGAATGAGGCTGCGGAGGACCTGATTAACAGGAAGCCCATGGGCGTGCGGGATAAGCCACAGGCCTCAGAGCGGATCTCAAAATTAAATCTGGCAGAATACGCGCAGCACCAGGTGCGCAATGAAGCACCCTACATACCCACCACATTTGACCTCCTCTCAGACGATTAGAAGGCATCACAGAGAGTTGCCAACGCCGCGACATCTATGAGGGCCTTGACTTACTCGGATGCTGTGCGTCTAAGCCGGAATGGCATCGCCAACTCCCCCGTAAGTGGGCACTCCAGCTATACGGTGCGCAGACCACTGGCACTCGATGACAGAAGCATTCTATCCCACGAAATGGAGCGCATGGACCTACAGTAGTATATAAACCTTAACCTGACCGCAGCCCAAAGTAATTCCGTGAGCAGTCACTACGCCGAACCGGTTACTGATAACTCGGAGGTTAAGAAAGTCAATGAAATCAACGAGAGGTAAATAAATTTTTTTTATCCATTCACATCCGAAGCAGTGGTAATAAAGCAAAATGCTGATCCTATCACCAATTAGTAACGCACCACAGGCGTTAACCCCCCAATCTACGAGACGCTCCGGAACAGATTCATTGCACCGTCGTTTTACCAGCTGCGTCAACTTATACGATGGCTTCGCCACGCAATCTGAATCCAGAGCGGCAGACTGTGAAGAGAAGTCCAAACATCGTCCTAGATTAGCTCATGAGCAGAGGGTTTTTTGGAAGTTCTGTGCTAAAAAGAACATAGAAGAACTCCGCGCCTATGTACGAAAAATAGTGCAAAACATATTCCCGTCTTGTATCGCCCTCAAGCCCATCTTTGTACTCTGGCTCTTGTACAAGCCAAATGTGAGGCAAGTGACCAAGCTCATTCAGTCAACATAGGAGCACCACGATAGCTTTACCGAAATTACACAGGATGATATATCGACGTTATTGTAACGAATATATTGATGTCTTTCGTACCCATTGAAAAGGTTGTGGTGCTTGCGATTTAAAATCTTATATTATGAATTTATTTTTAAATTGAACGTACACATAACTACCGAAGACATATGCACGTTTATTAATGGGAAATGGCTTAACGAAGAGGGCTTAAATTCTTACATGTCCTTGTTCACAGAACGCTCGGAGAAGAGATCTGGCGTGCTTCCCGCCACTTACTCCATAAACTCATTCTTCGTGCAACGGCTCCTGCATGCTAGGCATGCAGGAACTAAGCGCTGGGCTCGCAAAGTGGACTTGTCCAGCATGGACATAATCCCGGTACCAGCGCTCTGCGACGGCGACCACTGGTGCATGGCCATCATACACTAGCATAACAATACAACCCGGAAAAATGACACAAAGGGAAAGCCTTACCGAACAGTGCGGGACGCTCTAGAGAAATGACTACGCGTAAAGTCAATATTCAAGCCCAAAAAGTAGTTTGATATCAGCGATTTTGTTATTGCGAGCGTGCAGAATATACCACGACAGTTAGATGCCAGCGCTCGCGGTAACGTCAGCTGCATGTTCGCCGAGTTTATAACGTTTGGTGTGCCAATTACAGTTACCCACTCCGATATGTCGTACTTCCGCAAGACGATGACTCTAGAAATCGTCGACGGAGAGTTGTGACAGTAGAATCCTACAGCTACGATAGAATGTGGAGAATGCAGTTTAGTTATTTTGACAAATCTTACGTAAACTATCCAAGCATGAATGAGTAACAAGTGCTTAGCTATTGAATGAAACTGAGCTGGCCGAGTGATGTGCTGGTGCAATAACTTGTTCTCATATCTTATTGAAACAGAGAATCCAGTTATTCAATAAAACTTTCCCAAGTAATAACAATGCGAATAGTGACGTAATTATTGCAGAAACTCTTCGAGTTTATAATTAATTTTTACAACACAGCAGGCCGAGAATATGCAATTGTAATGTCCATTTCAATATTTGGAATTTACTAATTTAAGCATAACTCTTATCTAGGGATTACTAGATTCTAACTATATTCGAGTAGAATAAAACAATTTATAGTAACAAAGTACAAAGATCCTTATAGATAATCACTCATACCAACCTCAAAAGATCAAAACCGAGGTATGATCTTTCAATAAGTCAAAATTAGGAGTTTTCAGTTGGAGACCTACAACTAAATAGATCGGTGTTCTTCCACAAAATATTCTAAAGCCAGTTTATTAAATTAAATACATGTTTTATTAATAATCCCAAGCTAACTACTCACTTATAAACTTTATCTGGTCTAAAAAGCTTCCTCCTGCCTGTAACATACTTTTCAACGAATCTACAATACTATTGTATATACTATACCTTTTACTCTACCGGTAACGGTCTAACGG'],
      dtype='<U10000')


for i in range(9999):
    
    Gi = data[1][i]+data[3][i]
    func_PXgivenG(Gi,Xi)

'TT'


# This toy example allows you to calculate the Fibonacci Sequence

# Initialize an empty numpy array
L = 10
result_array = np.zeros([L])
result_array

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])


# assign values to the first and the second element for the Fibonacci Sequence
result_array[0] = 0
result_array[1] = 1
result_array

array([0., 1., 0., 0., 0., 0., 0., 0., 0., 0.])


# update the array in a for-loop, while using previously calculate values during earlier iterations

for i in np.arange(2,L):
    
    result_array[i] = result_array[i-1] + result_array[i-2]

result_array

array([ 0.,  1.,  1.,  2.,  3.,  5.,  8., 13., 21., 34.])


# you can reverse the order and update from the right side too (analogous to the backward algorithm)

# Initialize an empty numpy array
L = 10
result_array = np.zeros([L])
result_array

# assign values to the last two element for the Fibonacci Sequence
result_array[-1] = 0
result_array[-2] = 1
result_array

array([0., 0., 0., 0., 0., 0., 0., 0., 1., 0.])


# update the array in a for-loop, while using previously calculate values during earlier iterations

for i in np.arange(L-3,-1,-1):
    
    result_array[i] = result_array[i+1] + result_array[i+2]

result_array

array([1428.,  883.,  545.,  338.,  207.,  131.,   76.,   55.,   21.,
         34.])


np.arange(L-3,-1,-1) # np.arange(start, stop, stepsize) # "start" is inclusive, "stop" is exclusive

array([7, 6, 5, 4, 3, 2, 1, 0])


# Example: calculate the Fibonacci sequence until the last result is larger than 100

result_array = np.array([0,1])
result_array

array([0, 1])


while result_array[-1] < 100:
    
    new_result = result_array[-1] + result_array[-2]
    result_array = np.append(result_array,new_result)
    
result_array

array([  0,   1,   1,   2,   3,   5,   8,  13,  21,  34,  55,  89, 144])


# Example: calculate the Fibonacci sequence 
# until the difference between the last two results are greater than 100
# And discard all earlier results

x0 = 0
x1 = 1

while (x1-x0) < 100:
    
    # calculate new result
    x_new = x0 + x1

    # update the variables
    x0 = x1
    x1 = x_new
    
print(x0,x1)

233 377


# In this week we are updating "p" using the EM algorithm

# For any function that updates "p" we can define it before hand and use it in a while loop

# Here is a dummy example called logistic map (the detail is unimportant, it's just a 
# function to calculate a new p from an old p)

# Historically, this mapping of p has inspired research on chaos dynamics

def func_update_p(p,λ):
    
    return λ*p*(1-p)


λ = 3.75 # chaos
# λ = 1 # population dies
# λ = 1.5 # population persists
# λ = 3.5 # populaton oscilation
p0 = 0.5
p1 = func_update_p(p0,λ)

result_array=np.array([p0,p1])

N_max = 200
n = 0

while (abs(p1-p0) > 0.00001) & (n < N_max):
    
    # calculate new result
    p_new = func_update_p(p1,λ)

    # update the variables
    p0 = p1
    p1 = p_new
    
    result_array = np.append(result_array,p_new)
    
    n = n + 1
    
print(p0,p1)

0.9131976055921124 0.2972540202485443


plt.figure(figsize=(12,4))
plt.plot(result_array)
plt.ylabel("p")
plt.xlabel("# Iterations")
plt.ylim(0,1)

(0.0, 1.0)

Data wrangling and the data in HW6¶

How do we get around this?¶

Tips on implementing iterations¶

If the full dimension of final results is known and all results should be kept¶

If the total number of iteractions is unknown and all results should be kept¶

If the total number of iterations is unknown and only the final result should be kept¶