生物序列常用的两种格式FASTQ和FASTA

生物序列常用的两种格式FASTQ和FASTA

经常进行基因组序列分析会碰到两种常用的格式FASTQ和FASTA。相比而言,FASTQ包含了更多的数据质量信息,因而通常为四行组成,而后者为两行。一个FASTQ数据的典型格式如下:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中第一行由@开头表示数据的描述信息,第二行是数据序列本身,第三行为+号,后面也可以跟随描述信息,第四行为数据质量描述。而一个典型的FASTA数据格式如下

>SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

很明显,描述信息是以>开头。没有数据质量信息。在典型的生物数据中,除了ATCT四种碱基外,如果该位点杂合或者包括多种碱基类型,则可以用其他的字母表示:

        A --> adenosine           M --> A C (amino)
        C --> cytidine            S --> G C (strong)
        G --> guanine             W --> A T (weak)
        T --> thymidine           B --> G T C
        U --> uridine             D --> G A T
        R --> G A (purine)        H --> A C T
        Y --> T C (pyrimidine)    V --> G C A
        K --> G T (keto)          N --> A G C T (any)
                                  -  gap of indeterminate length

如果是肽段,则对应的是氨基酸序列,典型的氨基酸密码子如下:

    A  alanine                         P  proline
    B  aspartate or asparagine         Q  glutamine
    C  cystine                         R  arginine
    D  aspartate                       S  serine
    E  glutamate                       T  threonine
    F  phenylalanine                   U  selenocysteine
    G  glycine                         V  valine
    H  histidine                       W  tryptophan
    I  isoleucine                      Y  tyrosine
    K  lysine                          Z  glutamate or glutamine
    L  leucine                         X  any
    M  methionine                      *  translation stop
    N  asparagine                      -  gap of indeterminate length

除非特别声明,文章均为牛会飞的博客原创,遵循署名-非商业使用-相同方式共享授权协议
转载请注明出处: https://blogfei.com/fastq-fasta-two-sequence-format/

暂无评论