Pseudodomonas syringae: Difference between revisions

From Cbcb
Jump to navigation Jump to search
 
(27 intermediate revisions by the same user not shown)
Line 1: Line 1:
'''Pseudomonas syringae pv. tomato str. DC3000'''
'''Pseudomonas syringae pv. tomato str. DC3000'''
== Data ==


Originally sequenced and finished at TIGR: published Sept 2003
Originally sequenced and finished at TIGR: published Sept 2003


== Data ==
=== NCBI ===
=== NCBI ===
   AA: no assembly
   AA: no assembly
Line 11: Line 13:


Chromosome + 2 plasmids:
Chromosome + 2 plasmids:
   Name          Length    %GC
   Name          Length    %GC   Info
   NC_004578.1    6,397,126 58.40
   NC_004578.1    6,397,126 58.40 chromosome
   NC_004633.1    73,661    55.15
   NC_004633.1    73,661    55.15 plasmid pDC3000A
   NC_004632.1    67,473    56.17
   NC_004632.1    67,473    56.17 plasmid pDC3000B
  total          6,538,260
 
  Little similarity between the chromosome and plasmids.
  The 2 plasmids share a significant amount of DNA; see /fs/szasmg2/Bacteria/Pseudomonas_syringae/Data/nucmer/NC_004633-NC_004632.png


=== UNC: Jeff Dangl ===
=== UNC: Jeff Dangl ===


New sequence:
New sequence:
Read stats
  Type              File                            #reads            min    median  max    sum            mean    stdev  n50
  Solexa            DC3000.reads.filtered.fasta    6,340,136        32      32      32      202884352      32      0      32
  454p(end+linker)  DC3000.format.454Reads.fna      123,992          38      86      329    15623908        126.01  58.89  142
454                DC3000.TCA.454reads.format.fna  77,466            35      244    371    18627363        240.46  26.85  245
   * Solexa 3 lanes;  
   * Solexa 3 lanes;  
   * 454 shotgun 1/4 Plate (250bp read);  
   * 454 shotgun 1/4 Plate (250bp read);  
Line 25: Line 39:
       * the linker sequence is: GTTGGAACCGAAAGGGTTTGAATTCAAACCCTTTCGGTTCCAAC
       * the linker sequence is: GTTGGAACCGAAAGGGTTTGAATTCAAACCCTTTCGGTTCCAAC
       * <span style="color:red">there are some (not many) 454 paired end sequences that contain multiple instances of the linker (tandem): Example EUEIEUN01ANUGL_length=128_xy=0154_1891 </span>
       * <span style="color:red">there are some (not many) 454 paired end sequences that contain multiple instances of the linker (tandem): Example EUEIEUN01ANUGL_length=128_xy=0154_1891 </span>
Data stats
  .                              #elem            min    median  max    sum            mean    stdev  n50
  DC3000.reads.filtered.fasta    6,340,136        32      32      32      202884352      32      0      32      DC3000 Solexa Reads
  DC3000.format.454Reads.fna      123,992          38      86      329    15623908        126.01  58.89  142    DC3000 454 Paired Reads (forward+linkerr+reverse)
  DC3000.TCA.454reads.format.fna  77,466            35      244    371    18627363        240.46  26.85  245    DC3000 454 Reads
  DC3000Plasmids.fa              2                67473  73661  73661  141134          70567  3094    73661  Pseudomonas syringae pv. tomato DC3000 Plasmids
  Psudomonas_syringae.fa          1                6397126 6397126 6397126 6397126        6397126 0      6397126 Pseudomonas syringae pv. tomato DC3000 reference
    
    
   <span style="color:red">
   <span style="color:red">
   Quality values are missing for all data sets!!!
   Quality values are missing for all data sets!!!
   I assigned default qual=3 to all the base (.frg & .afg files)  </span>
   I assigned default qual=3 to all the base (.frg & .afg files)  </span>
454p
* Out of 123992 454 paired ends, 111028 (90%) align to linker (nucmer -c 20 -l 20)
* Non linked(end) sequences (5' & 3')
          #elem  min    max    mean    median  n50    sum
  five    111028  0      265    37      21      61      4090475
  three  111028  0      266    39      20      81      4385391
* 20bp is the mode
* 75% of the end sequences are 19-21 bp long
* 67871 out of 111028 end pairs align within 5kbp
            #elem  min    max    mean    stdev  sum
  distance  67871  1      4991    2450    702    166283200


UNC sequence data: (not avail any more?)
UNC sequence data: (not avail any more?)
Line 56: Line 75:


== Assemblies ==
== Assemblies ==
=== CBCB (old) ===


<span style="color:red">!!! All AMOSCmp assemblies contain tandem duplications in Solexa only coverage areas</span>
=== 454 AMOScmp ===
  /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/454/2007_1015_AMOSCmp-relaxed
  no trimming;
  AMOScmp -D MINCLUSTER=20 -D MAXTRIM=10 -D MAJORITY=50 ...
 
  Stats:
  desc            #elem  min    max    mean    stdev  sum
  contigs        6131    43      8261    966.57  829.44  5926089
  pos_gaps        5622    1      10394  110.32  283.78  620259
  Slight improvement by doing alignment based trimming of the 454 reads
 
=== Solexa AMOScmp ===
 
  /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa/2008_0116_AMOSCmp-relaxed
  Duplication if ALIGNWIGGLE=15


1. AMOSCmp
  Align all reads (Solexa) to the reference using nucmer.  
   '''454 single reads + Solexa reads '''
 
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Solexa-454/2007_1009_AMOSCmp-relaxed
   6340136 reads
   142 contigs (37 negative gaps, 89 positive gaps)
   5641782 (88.98%) aligned by nucmer -c 20 -l 20
   No read trimming was done.  
   3453618 (54.47%) aligned by nucmer -c 32 -l 20
   AMOScmp used the following parameters:
   2707005 (42.69%) aligned by nucmer -c 32 -l 32
    nucmer -c  20
 
    casm-layout -t 20 -o 5
   AMOScmp -D MAJORITY=50 -D MINOVL=5 -D MINCLUSTER=20 -D ALIGNWIGGLE=2 ...
   "-t 20" allows for 20 bp long dirty sequence ends which seem to solve the "low quality" problem.
 
   => 22 large contigs
  Stats:
    
  desc            #elem  min    max    mean            stdev          sum
  '''454 single reads + 30 bp Solexa reads ''' => 167 contigs , 49 negative gaps, 100 positive gaps
   contigs        187    20     577910 34862.83        91691.51        6519350
   '''454 single reads + 25 bp Solexa reads ''' => 293 contigs,  144 negative gaps, 131 positive gaps
   pos_gaps        147    1      1716    131.05          288.69          19265
 
=== Solexa maq ===
 
  /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa/2008_0213_maq/maq
 
  Stats:
  desc            #elem  min    max    mean            stdev          sum
  contigs         106    32      2067205 61489.83        230284.47      6517923
   pos_gaps        104    1      3278    195.54          511.06          20337
 
=== 454 + Solexa AMOScmp ===
 
   Locations:
    /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa-454/2008_1016_AMOSCmp-relaxed/
    ftp://ftp.cbcb.umd.edu/pub/data/dpuiu/Pseudomonas_syringae/Solexa-454/


2. AMOSCmp
   AMOScmp -D MINCLUSTER=20 -D MAXTRIM=20 -D MINOVL=5 -D MAJORITY=50 -D ALIGNWIGGLE=2 ...
   '''454 single reads + Solexa reads + 454 paired ends'''
  Only the 454 paired ends that contain 1 single complete adaptor sequence were used (allmost all)
  /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Solexa-454-454p/2007_1011_AMOSCmp-relaxed-filtered
  149 contigs; very similar to the prev ome


3. AMOSCmp (MAJORITY=50) -> best
  All stats:
   '''454 single reads + Solexa reads '''
   desc            #elem   min    max    mean            stdev          sum
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Solexa-454/2007_1015_AMOSCmp-relaxed-MAJORITY50
   contigs         139    20      1895644 46899.82        243273.92      6519075
   131 contigs (18 negative gaps)
   pos_gaps        124     1      1809    156.78          323.66          19441
  No read trimming was done.  
   AMOScmp used the following parameters:
    nucmer -c  20
     casm-layout -t 20 -o 5 '''-m 50'''
  No read trimming was done.  
  "-t 20" allows for 20 bp long  dirty sequence ends which seem to solve the "low quality" problem.
  '''"-m 20" merges some contigs together'''
  => 10 large contigs


   contig#        len    gc%
   Chromosome stats:
   4              2290968 59.00
   desc            #elem   min    max    mean           stdev          sum
   7              1817904 58.18
   contigs        8      85757   1895607 799498.75      692179.25      6395990
  3              1405326 58.08
   pos_gape        2      4      9       6.5             3.53            13
  5              648413  58.48
  2              192413  57.86
  6              87152  58.02
  131           71251  56.47
   1              32939   54.86
  130            29120  59.36
   9             20309  53.56
  95             3589    59.46


=== 454 + Solexa + 454p AMOScmp ===


   Rerun Solexa32,Solexa30,Solexa25 with '''"nucmer -b 2 -g 5"'''
   Only the 454 paired ends that contain 1 single complete adaptor sequence were used (allmost all)
 
   149 contigs; very similar to the prev ome
  2007_1015_AMOSCmp-relaxed-Solexa32/
  2007_1015_AMOSCmp-relaxed-Solexa30/
  2007_1015_AMOSCmp-relaxed-Solexa25/
  /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa-454/qc.combine.3
    
  $ show-coords 1con-contigs.delta | grep gi | awk '{print $7}' | getSummary.pl # sum of ref alignments: 13608985
  $ show-coords 1con-contigs.delta | grep gi | awk '{print $8}' | getSummary.pl # sum of qry alignments: 13747738
  138,753 bp in duplications for Solexa32 ???
    61,741 bp in duplications for Solexa30 ???
    10,881 bp in duplications for Solexa25 ???


  Copy of assembly files:
=== Sanger AMOScmp ===
  /fs/ftp-cbcb/pub/data/dpuiu/Pseudomonas_syringae
  ftp://ftp.cbcb.umd.edu/pub/data/dpuiu/Pseudomonas_syringae/Solexa-454


4. AMOSCmp
  '''Sanger reads'''
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1011_AMOSCmp-relaxed
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1011_AMOSCmp-relaxed
   <span style="color:red">Many miss-oriented mates in the 4.8M-5M region of the chromosome</span>
   <span style="color:red">Many miss-oriented mates in the 4.8M-5M region of the chromosome</span>
Line 132: Line 147:
   [[Media:Pseudodomonas_syringae.Sanger.AMOSCmp.chromosome_problem.png|Chromosome problem]]
   [[Media:Pseudodomonas_syringae.Sanger.AMOSCmp.chromosome_problem.png|Chromosome problem]]


5. Celera 3.11  
=== Sanger Celera 3.11 ===
  '''Sanger reads'''
 
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1011_WGA
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1011_WGA
   22 scaff, 46 contigs, 181 degens
   22 scaff, 46 contigs, 181 degens
Line 152: Line 167:
   4898971  4955870  |  175592  118697  |    56900    56896  |    99.98  |  6397126  175592  |    0.89    32.40  | gi|28867243|ref|NC_004578.1|    7180000001443
   4898971  4955870  |  175592  118697  |    56900    56896  |    99.98  |  6397126  175592  |    0.89    32.40  | gi|28867243|ref|NC_004578.1|    7180000001443


6. AMOSCmp (Chromosome+3 plasmids ref)
=== Sanger AMOScmp (Chromosome+3 plasmids ref) ===
  '''Sanger reads'''
 
   Reference=complete genome(chromosome+3 plasmids) use "circular contig" in Celera 3.11 assembly
   Reference=complete genome(chromosome+3 plasmids) use "circular contig" in Celera 3.11 assembly
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1012_AMOSCmp-relaxed-3plasmids
   /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1012_AMOSCmp-relaxed-3plasmids
Line 160: Line 175:
   AA ready for submission: /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1012_AMOSCmp-relaxed-3plasmids/AA/umd-20071030-141700.tar.gz
   AA ready for submission: /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1012_AMOSCmp-relaxed-3plasmids/AA/umd-20071030-141700.tar.gz


=== CBCB (new) ===
=== Solexa assembled at different read coverages ===
 
==== Alignment based trimming ====
 
!!! Reduced the duplications significantly
 
Solution:
 
1. align all reads (Solexa) to the reference using nucmer. I initially used  minmatch=20, mincluster=20 (-c 20 -l 20)
 
  6340136 reads
  5641782 (88.98%) aligned by nucmer -c 20 -l 20
  3453618 (54.47%) aligned by nucmer -c 32 -l 20
 
=== Solexa assemblied for different read coverages ===


Location
  Location: /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa/sample/
  /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Solexa/sample/
    
    
   Several AMOScmp assemblies, using 100%, 90% ... 10% of the P. syringae Solexa reads.  
   Several assemblies, using 10%,20%, ... 100%, of the P. syringae Solexa reads.  
   These would correspond to 30X, 27X, 24X .. 3X coverage  
   These would correspond to 3X,6X ... 30X coverage  
   The read sampling was done randomly. One sample set for each coverage.
   The read sampling was done randomly. One sample set for each coverage.
 
----
----


   <span style="color:red">
   Assembler: Sanger maq
   The contig sequences were generated using AMOS bank2fasta. EMBOSS infoseq was used to get contig lengths.  
   The positive gap sizes (bases not covered) were taken from the .scaff file.
  all contigs
   ~dpuiu/bin/getSummary.pl was used to compute contig/gap summaries(mean/max/sum ...)
  cvg  %reads  #ctgs  min    max    mean            stdev          sum
   </span>
  3    10      43136  32      7712    135.11          140.61          5828148
 
  6    20      11243  32      20190  570.01          686.5          6408705
'''Chromosome + 2 plasmids'''
  9    30      2972    32      27962  2185.32        2804.56        6494784
   12    40      1058    32      63125  6152.98        7871.7          6509855
   15    50      455    32      163430  14319.01        19663.15        6515153
   18    60      267    32      328882  24406.61        46172.62        6516567
  21    70      166    32      671064  39260.9        84200.42        6517311
   24    80      143    32      906652  45577.16        111875.19      6517535
  27    90      117    32      1433643 55708.4        164246.61      6517883
  30    100    106    32      2067205 61489.83        230284.47      6517923


[[Media:Ps.Solexa.cvg.qc.combine|qc stats for Solexa assemblies done at different coverage levels]]
   chromo contigs
  cvg: 30,27,24...3
   cvg   %reads  #ctgs   min    max    mean           stdev           sum
   
   3     10      42845  32      1845    133.32          118.36          5712348
   $ more contig.chromo.summary positiveGaps.chromo.summary
   6    20     11124  32      9650    565.41          625.32          6289649
   ::::::::::::::
   9    30     2876   32      26076   2216.64        2714.92        6375063
  contig.summary
   12   40     965     32      63125   6621.71        7893.19        6389957
  ::::::::::::::
   15    50      362    32      163430  17665.19        20565.31        6394800
   %reads  #elem   #elem0  #elem<0 min    median  max     sum     mean   stdev   n50
   18   60     167     32      328882 38299.32       53660.75        6395987
   100     5502    0      0      32      338    32148  7296600 1326.17 2157.6  3714
   21   70     75      257     671064  85287.52        108858.19      6396564
   90     6463    0      0      32      330    25252  7252304 1122.13 1799.43 3009
   24    80      49      940     906652 130546.42       160470.1        6396775
   80     7570   0      0      32      303    20690   7209479 952.38  1487.03 2573
   27    90     25     42603   1433643 255877.72       277650.54       6396943
   70      9030   0      0      32     309     26306  7170384 794.06  1219.53 1986
   30    100     18      42603   2067205 355387.77       465907.88       6396980
  60      10571  0      0      32      295    22249   7124996 674.01  961.22  1608
   50      12598  0      0      32      274    22204  7075934 561.67  767.55  1266
   40      15343  0      0      32      252    9176   7011485 456.98  575.64  934
  30     21248  0      0      32      202     7751    6931907 326.24  376.06  597
  20      38702  0      0      32      117    3276    6807914 175.91 178.92  278
  10      84545  0      0      32     56      2652    6267925 74.14  57.62  90
  ::::::::::::::
   positiveGaps.summary
  ::::::::::::::
  %reads  #elem  #elem0  #elem<0 min    median  max    sum    mean   stdev  n50
  100    117    10     0      0      22      3065    19625  167.74  418.75 1308
  90     130     16      0      0      19      2100    19725  151.73  369.07  1211
   80      142     18      0      0      15      2174    20034  141.08 361.86  1209
  70      178    15      0       0      9      3417    20443  114.85  395.13  1823
   60     263    35     0      0      6      3875    21161   80.46  345.97  1457
  50      450    64      0       0      4      3398    22305  49.57  278.39  1823
  40      1047    156    0       0      4      3398    26488  25.3    173.77  929
   30     2915   446     0      0      4      3426    39094   13.41  115.74  104
  20      11154  1324    0       0      5      3420    110485  9.91    57.22  19
  10      44751  3321    0       0      9      3875    631930  14.12  35.45  25


'''Chromosome (only)'''
  all gaps
  cvg  %reads  #gaps  min    max    mean    stdev  sum
  3    10      43137  1      3874    16.46  38.01  710112
  6    20      11242  1      3919    11.52  64.43  129555
  9    30      2971    1      3418    14.63  114.29  43476
  12    40      1056    1      3873    26.89  196.7  28405
  15    50      454    1      3415    50.89  291.04  23107
  18    60      265    1      3870    81.86  380.9  21693
  21    70      165    1      3868    126.96  486.88  20949
  24    80      141    1      3414    146.98  461.06  20725
  27    90      115    1      3418    177.19  520.11  20377
  30    100    104    1      3278    195.54  511.06  20337


   $ more contig.chromo.summary positiveGaps.chromo.summary
   chromo gaps
  ::::::::::::::
   cvg   %reads  #gaps   min    max    mean    stdev  sum
  contig.chromo.summary
   3     10     42846   1       240     15.98   16.33   684778
   ::::::::::::::
   6     20     11125   1       146     9.66    9.72   107477
   %reads  #elem   #elem0  #elem<0 min    median  max     sum     mean    stdev  n50
   9     30      2876    1       76     7.67   7.73    22063
   100     5352    0      0      32     387    18942   7152892 1336.49 2069.25 3674
   12    40     965     1       58     7.42    7.8     7169
  90      6313    0       0      32      362     16470   7110882 1126.39 1721.34 2969
   15   50     362    1      48     6.42   7.08    2326
  80      7411    0      0      32      322    15227   7069778 953.96  1436.49 2521
   18    60     167    1       58     6.82   7.63   1139
   70      8865    0      0      32      324     14901  7032202 793.25  1154.9  1968
   21    70      76      1       55     7.39   7.9    562
  60     10406   0       0      32      304     10231  6988498 671.58  919.5  1586
   24    80     49     1       55     7.16   10.08  351
  50      12389  0      0      32      279    7246   6941706 560.31  733.75  1247
   27    90     25     1       45     7.31    10.12   183
   40      15131  0      0      32      256     5409    6879810 454.68  554.17  920
   30    100     18      1       55     8.11   13.62   146
  30      20998  0       0      32     204    4102   6801160 323.9  358.93  588
   20     38368  0      0      32      117     2220    6680303 174.11  170.14  274
  10      83839  0       0      32     56      762    6144687 73.29  51.16  89
  ::::::::::::::
  positiveGaps.chromo.summary
  ::::::::::::::
  .      #elem  #elem0  #elem<0 min    median  max    sum     mean    stdev  n50
   100    15      5      0      0      1      33     107    7.13   10.84  33
  90      24      7       0      0      2      42      146    6.08    10.38  42
   80     38      11      0       0      2      36     212    5.58   8.84   26
   70      76      11      0      0      3       33     413    5.43   6.66    11
   60     163    29     0       0      4      33     1016    6.23   7.04    13
   50     347    60     0       0      3      49     1843    5.31    6.45    11
   40      947    151    0      0      4      53      5709    6.03    7.18    12
   30     2819   442     0      0      4       63     17882  6.34    7.34    12
  20      11029  1320    0      0      5      610    88516  8.03    10.84  15
  10      44485  3313   0      0      9      197    606841  13.64   15.05  24


----
----


   <span style="color:red">
   Assembler: AMOScmp
  Nucmer was used to align contigs to reference
  "~dpuiu/bin/getNucmerCoverage.pl -M 0" was used to identify the 0 cvg regions
  </span>
 
'''Chromosome + 2 plasmids'''
 
  '''Table.? Gap sizes in P. syringae main chromosome & 2 plasmids for different Solexa assemblies'''
 
  $ more Solexa.coords.0cvg.summary
  %reads  #elem  #elem0  #elem<0 min    median  max    sum    mean    stdev  n50
  100    104    0      0      1      62      1179    15804  151.96  236.77  486
  90      108    0      0      1      54      1697    15896  147.19  261.28  486
  80      117    0      0      1      35      1697    16057  137.24  253.9  486
  70      151    0      0      1      17      1697    16240  107.55  230.46  490
  60      223    0      0      1      10      1189    16872  75.66  177.66  455
  50      371    0      0      1      6      1703    17841  48.09  155.85  445
  40      888    0      0      1      5      1703    21504  24.22  104.94  296
  30      2539    0      0      1      5      1697    33875  13.34  63.75  36
  20      10198  0      0      1      6      1709    104225  10.22  33.56  17
  10      42284  0      0      1      10      1711    619965  14.66  21.88  24
 
'''Chromosome (only)'''
 
  '''Table.? Gap sizes in P. syringae main chromosome for different Solexa assemblies'''
    
    
   $ more Solexa.coords.0cvg.chromo.summary
   all contigs
   %reads  #elem   #elem0  #elem<0 min    median  max     sum     mean   stdev   n50
  cvg   %reads  #ctgs   min    max    mean           stdev           sum
   100     6      0      0      1      17     33     94      15.67  12.85  33
   3     10     61330  20     9181    97.08          101.04          5954113
   90      11      0      0      1      6       42     132    12     13.02  42
   6     20     18764  20     19803  343.93          431.9          6453593
   80     21     0      0      1      6      35      199    9.48    10.38  26
   9    30     5723    20     28103  1137.41        1498.76        6509417
   70     54     0      0      1      4      33      367    6.8    7.19    14
   12    40     2045    20     33780  3186.49        4337.72        6516385
   60     124     0      0      1      5      33     922    7.44    7.36    13
   15    50     859     20     90346  7588.66        11436.97        6518661
   50     269     0      0      1      4      49     1768    6.57    6.68    11
   18    60     479     20     219894  13609.97        22470.18        6519176
   40     780     0      0      1      5      53     5428    6.96    7.08    11
   21    70     319     20     289494  20436.94        37964.34        6519384
   30     2432    0      0      1      5      63     17447  7.17    7.19    12
   24    80     246    20     385663  26502.45        61309.04        6519605
   20      10078  0      0      1      6      150    87195  8.65    8.97    14
   27    90      237    20      577910  27510.48        71767.85        6519985
   10     42115  0      0      1      10      197    601641 14.29  14.7    24
   30    100    187    20     577910 34862.83        91691.51        6519350


   => six 0 cvg regions in the chromosome if 100% of Solexa reads are used
   chromo contigs
  cvg   %reads #ctgs  min    max    mean            stdev          sum
  3    10      60923  20      1052    95.8            79.21          5836796
  6    20      18583  20      4800    340.81          368.44          6333397
  9    30      5567    22      20245  1147.53        1401.05        6388303
  12    40      1883    20      33780  3396.09        4327.93        6394855
  15    50      699    24      90346  9151.31        12023.55        6396771
  18    60      313    29      219894  20437.56        25135.49        6396957
  21    70      155    32      289494  41271.96        45893.6        6397154
  24    80      82      28      385663  78014.63        85498.69        6397200
  27    90      64      35      577910  99957.57        109269.83      6397285
  30    100    40      46      577910  159930.32      139830.19      6397213


Regions:
  all gaps
  cvg  %reads  #gaps  min    max    mean    stdev  sum
  3    10      45068  1      2228    14.89  26.44  671499
  6    20      11034  1      3148    10.81  49.56  119340
  9    30      2816    1      2296    16.57  106.54  46663
  12    40      1022    1      1903    25.98  125.51  26559
  15    50      456    1      1716    46.91  159.75  21394
  18    60      294    1      1445    68.35  189.57  20097
  21    70      221    1      1716    88.33  225.56  19523
  24    80      182    1      1716    105.12  244.55  19132
  27    90      181    1      1716    103.78  235.41  18785
  30    100    147    1      1716    131.05  288.69  19265


   Ref                            start   end
   chromo gaps
   gi|28867243|ref|NC_004578.1|   1022626 1022643 0
  cvg   %reads  #gaps   min    max    mean   stdev  sum
   gi|28867243|ref|NC_004578.1|    1206959 1206992 0 # near a transposease
   3    10      44767  1      197    14.45   14.86  647093
   gi|28867243|ref|NC_004578.1|    3000373 3000405 0
   6    20      10884  1       1008   9.02   17.01  98181
   gi|28867243|ref|NC_004578.1|   3402234 3402240 0
   9    30      2677    1       2296   9.88    70.77   26464
  gi|28867243|ref|NC_004578.1|   3496311 3496312 0
   12    40      869    1      685    7.8    24.09   6786
   gi|28867243|ref|NC_004578.1|   4711568 4711573 0
   15    50      303    1      59      6.55    6.88    1986
 
   18    60      137    1      33      7.35    7.22    1007
  $ extractseq chromo.1con -regions '1022626-1022643,1206959-1206992,3000373-3000405,3402234-3402240,3496311-3496312,4711568-4711573' stdout -separate | awk '{print $1}'
   21    70      65      1      33      6.83    6.9    444
 
   24    80      27      1      36      8.37    9.74    226
  >NC_004578.1_1022626_1022643
   27    90      18      1      42      8.83    11.44   159
   GGGGTTTTTATTGGGGCT
   30    100    10      1      33      10.7    12.58   107
    
  >NC_004578.1_1206959_1206992  # near a transposease
   TAGAGATATTTTCAATACTAAAAAATATATTTTC
    
   >NC_004578.1_3000373_3000405
   GGCGCGACAGGCTTCCAGACGAGGTCTGCACGC
    
   >NC_004578.1_3402234_3402240
   CGGCTAC
    
  >NC_004578.1_3496311_3496312
  GA
 
  >NC_004578.1_4711568_4711573
   TGCCCG

Latest revision as of 17:16, 28 May 2008

Pseudomonas syringae pv. tomato str. DC3000


Data

Originally sequenced and finished at TIGR: published Sept 2003

NCBI

 AA: no assembly
 TA 80,959 reads 
 Genome Project
 Taxonomy TaxId=223283

Chromosome + 2 plasmids:

 Name           Length    %GC    Info
 NC_004578.1    6,397,126 58.40  chromosome
 NC_004633.1    73,661    55.15  plasmid pDC3000A
 NC_004632.1    67,473    56.17  plasmid pDC3000B
 total          6,538,260
 Little similarity between the chromosome and plasmids.
 The 2 plasmids share a significant amount of DNA; see /fs/szasmg2/Bacteria/Pseudomonas_syringae/Data/nucmer/NC_004633-NC_004632.png

UNC: Jeff Dangl

New sequence:

Read stats

 Type               File                            #reads            min     median  max     sum             mean    stdev   n50
 Solexa             DC3000.reads.filtered.fasta     6,340,136         32      32      32      202884352       32      0       32
 454p(end+linker)   DC3000.format.454Reads.fna      123,992           38      86      329     15623908        126.01  58.89   142
454                DC3000.TCA.454reads.format.fna   77,466            35      244     371     18627363        240.46  26.85   245 
 * Solexa 3 lanes; 
 * 454 shotgun 1/4 Plate (250bp read); 
 * 454 paired ends 1/4 Plate : 
     * contain a 44 bp linker in the middle
     * the linker sequence is: GTTGGAACCGAAAGGGTTTGAATTCAAACCCTTTCGGTTCCAAC
     * there are some (not many) 454 paired end sequences that contain multiple instances of the linker (tandem): Example EUEIEUN01ANUGL_length=128_xy=0154_1891 
 
 
 Quality values are missing for all data sets!!!
 I assigned default qual=3 to all the base (.frg & .afg files)  

454p

  • Out of 123992 454 paired ends, 111028 (90%) align to linker (nucmer -c 20 -l 20)
  • Non linked(end) sequences (5' & 3')
         #elem   min     max     mean    median  n50     sum
 five    111028  0       265     37      21      61      4090475
 three   111028  0       266     39      20      81      4385391
  • 20bp is the mode
  • 75% of the end sequences are 19-21 bp long
  • 67871 out of 111028 end pairs align within 5kbp
            #elem   min     max     mean    stdev   sum
 distance   67871   1       4991    2450    702     166283200

UNC sequence data: (not avail any more?)

 http://biology622.dhcp.unc.edu/~labweb/DCData/

UNC (e-mail):

 * Theoretical minimum number of contigs we can obtain is 268 (our reads fail to cover 269 nucleotides). 
 * Our de novo assembly spans the genome in 853 contigs totaling 6,313,026 bp. 
 * 98.7% of the genome is covered by a contig; 
 * 84% of the genome is covered by contigs 10,000 bp or greater. 
 * The average gap size between contigs is 98 bp; 
 * average contig size 7401 bp. 
 * The N50 = 37,444 bp. 
 * Our largest BAMBUS "scaffold" is 2,565,761 bp

Files location:

 /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Data
 /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly

Assemblies

454 AMOScmp

 /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/454/2007_1015_AMOSCmp-relaxed
 no trimming; 
 AMOScmp -D MINCLUSTER=20 -D MAXTRIM=10 -D MAJORITY=50 ...
 Stats:
 desc            #elem   min     max     mean    stdev   sum
 contigs         6131    43      8261    966.57  829.44  5926089
 pos_gaps        5622    1       10394   110.32  283.78  620259

 Slight improvement by doing alignment based trimming of the 454 reads

Solexa AMOScmp

 /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa/2008_0116_AMOSCmp-relaxed
 Duplication if ALIGNWIGGLE=15
 Align all reads (Solexa) to the reference using nucmer. 
 6340136 reads
 5641782 (88.98%) aligned by nucmer -c 20 -l 20
 3453618 (54.47%) aligned by nucmer -c 32 -l 20
 2707005 (42.69%) aligned by nucmer -c 32 -l 32
 AMOScmp -D MAJORITY=50 -D MINOVL=5 -D MINCLUSTER=20 -D ALIGNWIGGLE=2 ...
 Stats:
 desc            #elem   min     max     mean            stdev           sum
 contigs         187     20      577910  34862.83        91691.51        6519350
 pos_gaps        147     1       1716    131.05          288.69          19265

Solexa maq

 /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa/2008_0213_maq/maq
 Stats:
 desc            #elem   min     max     mean            stdev           sum
 contigs         106     32      2067205 61489.83        230284.47       6517923
 pos_gaps        104     1       3278    195.54          511.06          20337

454 + Solexa AMOScmp

 Locations: 
   /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa-454/2008_1016_AMOSCmp-relaxed/ 
   ftp://ftp.cbcb.umd.edu/pub/data/dpuiu/Pseudomonas_syringae/Solexa-454/ 
 AMOScmp -D MINCLUSTER=20 -D MAXTRIM=20 -D MINOVL=5 -D MAJORITY=50 -D ALIGNWIGGLE=2 ...
 All stats:
 desc            #elem   min     max     mean            stdev           sum
 contigs         139     20      1895644 46899.82        243273.92       6519075
 pos_gaps        124     1       1809    156.78          323.66          19441
 Chromosome stats:
 desc            #elem   min     max     mean            stdev           sum
 contigs         8       85757   1895607 799498.75       692179.25       6395990
 pos_gape        2       4       9       6.5             3.53            13

454 + Solexa + 454p AMOScmp

 Only the 454 paired ends that contain 1 single complete adaptor sequence were used (allmost all)
 149 contigs; very similar to the prev ome

Sanger AMOScmp

 /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1011_AMOSCmp-relaxed
 Many miss-oriented mates in the 4.8M-5M region of the chromosome
 22 contigs
 Chromosome
 Chromosome problem

Sanger Celera 3.11

 /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1011_WGA
 22 scaff, 46 contigs, 181 degens
 Scaffold 7180000001443 looks circular: possible 163,074 bp plasmid
 aligns to 4.8M-5M "problem" region in the chromosome
 7180000001443.png
     [S1]     [E1]  |     [S2]     [E2]  |  [LEN 1]  [LEN 2]  |  [% IDY]  |  [LEN R]  [LEN Q]  |  [COV R]  [COV Q]  | [TAGS]
 ===============================================================================================================================
        1   175592  |        1   175592  |   175592   175592  |   100.00  |   175592   175592  |   100.00   100.00  | 7180000001443   7180000001443   [IDENTITY]
        1    12519  |   163075   175592  |    12519    12518  |    99.98  |   175592   175592  |     7.13     7.13  | 7180000001443   7180000001443   [BEGIN]
   163075   175592  |        1    12519  |    12518    12519  |    99.98  |   175592   175592  |     7.13     7.13  | 7180000001443   7180000001443   [END]


     [S1]     [E1]  |     [S2]     [E2]  |  [LEN 1]  [LEN 2]  |  [% IDY]  |  [LEN R]  [LEN Q]  |  [COV R]  [COV Q] | [TAGS]
 ===============================================================================================================================
  4790727  4911492  |   120764        1  |   120766   120764  |    99.98  |  6397126   175592  |     1.89    68.78  | gi|28867243|ref|NC_004578.1|    7180000001443
  4898971  4955870  |   175592   118697  |    56900    56896  |    99.98  |  6397126   175592  |     0.89    32.40  | gi|28867243|ref|NC_004578.1|    7180000001443

Sanger AMOScmp (Chromosome+3 plasmids ref)

 Reference=complete genome(chromosome+3 plasmids) use "circular contig" in Celera 3.11 assembly
 /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1012_AMOSCmp-relaxed-3plasmids
 38 contigs: 15 for main chromosome, 1 for longer plasmid, 21 for shorter plasmid, 1 for "circular contig"
 The missoriented read pile corresponding to the chromosome (4. AMOSCmp of Sanger reads) has dissapeared
 AA ready for submission: /fs/szasmg2/Bacteria/Pseudodomonas_syringae/Assembly/Sanger/2007_1012_AMOSCmp-relaxed-3plasmids/AA/umd-20071030-141700.tar.gz

Solexa assembled at different read coverages

 Location: /fs/szasmg2/Bacteria/Pseudomonas_syringae/Assembly/Solexa/sample/
 
 Several assemblies, using 10%,20%, ... 100%, of the P. syringae Solexa reads. 
 These would correspond to 3X,6X ... 30X coverage 
 The read sampling was done randomly. One sample set for each coverage.

 Assembler: Sanger maq

 all contigs
 cvg   %reads  #ctgs   min     max     mean            stdev           sum
 3     10      43136   32      7712    135.11          140.61          5828148
 6     20      11243   32      20190   570.01          686.5           6408705
 9     30      2972    32      27962   2185.32         2804.56         6494784
 12    40      1058    32      63125   6152.98         7871.7          6509855
 15    50      455     32      163430  14319.01        19663.15        6515153
 18    60      267     32      328882  24406.61        46172.62        6516567
 21    70      166     32      671064  39260.9         84200.42        6517311
 24    80      143     32      906652  45577.16        111875.19       6517535
 27    90      117     32      1433643 55708.4         164246.61       6517883
 30    100     106     32      2067205 61489.83        230284.47       6517923
 chromo contigs
 cvg   %reads  #ctgs   min     max     mean            stdev           sum
 3     10      42845   32      1845    133.32          118.36          5712348
 6     20      11124   32      9650    565.41          625.32          6289649
 9     30      2876    32      26076   2216.64         2714.92         6375063
 12    40      965     32      63125   6621.71         7893.19         6389957
 15    50      362     32      163430  17665.19        20565.31        6394800
 18    60      167     32      328882  38299.32        53660.75        6395987
 21    70      75      257     671064  85287.52        108858.19       6396564
 24    80      49      940     906652  130546.42       160470.1        6396775
 27    90      25      42603   1433643 255877.72       277650.54       6396943
 30    100     18      42603   2067205 355387.77       465907.88       6396980
 all gaps
 cvg   %reads  #gaps   min     max     mean    stdev   sum
 3     10      43137   1       3874    16.46   38.01   710112
 6     20      11242   1       3919    11.52   64.43   129555
 9     30      2971    1       3418    14.63   114.29  43476
 12    40      1056    1       3873    26.89   196.7   28405
 15    50      454     1       3415    50.89   291.04  23107
 18    60      265     1       3870    81.86   380.9   21693
 21    70      165     1       3868    126.96  486.88  20949
 24    80      141     1       3414    146.98  461.06  20725
 27    90      115     1       3418    177.19  520.11  20377
 30    100     104     1       3278    195.54  511.06  20337
 chromo gaps
 cvg   %reads  #gaps   min     max     mean    stdev   sum
 3     10      42846   1       240     15.98   16.33   684778
 6     20      11125   1       146     9.66    9.72    107477
 9     30      2876    1       76      7.67    7.73    22063
 12    40      965     1       58      7.42    7.8     7169
 15    50      362     1       48      6.42    7.08    2326
 18    60      167     1       58      6.82    7.63    1139
 21    70      76      1       55      7.39    7.9     562
 24    80      49      1       55      7.16    10.08   351
 27    90      25      1       45      7.31    10.12   183
 30    100     18      1       55      8.11    13.62   146

 Assembler: AMOScmp
 
 all contigs
 cvg   %reads  #ctgs   min     max     mean            stdev           sum
 3     10      61330   20      9181    97.08           101.04          5954113
 6     20      18764   20      19803   343.93          431.9           6453593
 9     30      5723    20      28103   1137.41         1498.76         6509417
 12    40      2045    20      33780   3186.49         4337.72         6516385
 15    50      859     20      90346   7588.66         11436.97        6518661
 18    60      479     20      219894  13609.97        22470.18        6519176
 21    70      319     20      289494  20436.94        37964.34        6519384
 24    80      246     20      385663  26502.45        61309.04        6519605
 27    90      237     20      577910  27510.48        71767.85        6519985
 30    100     187     20      577910  34862.83        91691.51        6519350
 chromo contigs
 cvg   %reads  #ctgs   min     max     mean            stdev           sum
 3     10      60923   20      1052    95.8            79.21           5836796
 6     20      18583   20      4800    340.81          368.44          6333397
 9     30      5567    22      20245   1147.53         1401.05         6388303
 12    40      1883    20      33780   3396.09         4327.93         6394855
 15    50      699     24      90346   9151.31         12023.55        6396771
 18    60      313     29      219894  20437.56        25135.49        6396957
 21    70      155     32      289494  41271.96        45893.6         6397154
 24    80      82      28      385663  78014.63        85498.69        6397200
 27    90      64      35      577910  99957.57        109269.83       6397285
 30    100     40      46      577910  159930.32       139830.19       6397213
 all gaps
 cvg   %reads  #gaps   min     max     mean    stdev   sum
 3     10      45068   1       2228    14.89   26.44   671499
 6     20      11034   1       3148    10.81   49.56   119340
 9     30      2816    1       2296    16.57   106.54  46663
 12    40      1022    1       1903    25.98   125.51  26559
 15    50      456     1       1716    46.91   159.75  21394
 18    60      294     1       1445    68.35   189.57  20097
 21    70      221     1       1716    88.33   225.56  19523
 24    80      182     1       1716    105.12  244.55  19132
 27    90      181     1       1716    103.78  235.41  18785
 30    100     147     1       1716    131.05  288.69  19265
 chromo gaps
 cvg   %reads  #gaps   min     max     mean    stdev   sum
 3     10      44767   1       197     14.45   14.86   647093
 6     20      10884   1       1008    9.02    17.01   98181
 9     30      2677    1       2296    9.88    70.77   26464
 12    40      869     1       685     7.8     24.09   6786
 15    50      303     1       59      6.55    6.88    1986
 18    60      137     1       33      7.35    7.22    1007
 21    70      65      1       33      6.83    6.9     444
 24    80      27      1       36      8.37    9.74    226
 27    90      18      1       42      8.83    11.44   159
 30    100     10      1       33      10.7    12.58   107