WES (Whole Exome Sequencing) 데이터 분석

개요

    DNA의 염기 서열 중 단백질의 구성정보를 담고 있는 모든 exon을 합쳐서 exome이라고 한다.
    전장 유전체의 약 2-3%를 차지하고 있는 exome은 단백질의 기능과 밀접한 관련이 있어서,
    희귀질환뿐만 아니라 일반 질환의 원인 변이/유전자를 발굴하기위한 최적의 분석 방법이다.

데이터 분석

  1. Mutation profile analysis
  2. Structural variation identification
  3. Loss of function gene analysis
  4. Functional annotation using public database
  5. Rare disease causal mutation identification
  6. Disease gene/SNP prioritization
  7. Pedigree-based Analysis
  8. Network analysis

분석 순서 및 도구

    

분석 결과 및 설명

  1. Mutation Profile Analysis
    1. 변이(SNV, INDEL)에 대한 rsID, 종류(missense, nonsense, etc.), 기능(synonymous or nonsynonymous), 위치(exonic or intronic), 변이가 존재하는 유전자 주석, allele frequency: ANNOVAR
    2. 변이의 functional impact score: SIFT, PolyPhen2, CADD
    3. Read의 quality score distribution, depth coverage, alignment summary: Picard, BEDTools
  2. Loss of Function Variant/Gene Identification
    1. Nonsense 변이, splicing site에 변이, frameshift를 일으키는 indel, 첫번째 엑손을 포함한 deletion: VAT
  3. Genetic Risk Variant Annotation
    1. 질병/약물과 연관이 있다고 보고된 알려진 risk변이에 대한 주석달기: Promethease
    2. 질병의 위험도 및 조상 찾기: Interpretome
  4. Pedigree Analysis
    1. 가계도를 바탕으로 질환의 원인 변이 혹은 유전자 찾기: VAAST, pVAAST
  5. Pharmacogenetic Test
    1. 변이를 바탕으로 한 약물 반응성 예측을 위한 변이 주석 달기: PharmGKB
  6. Disease Gene Prioritization
    1. 현재까지 질환과 연관이 있다고 알려진 유전자를 기반으로 새롭게 찾은 변인 유전자 중 질환과 더 연관이 있는 유전자 순위 계산: ToppGene

분석 소요시간 및 결과 조건

  1. Bioinformatics

  2. 샘플 수 (명) 데이터 분석 소요시간 가격(원) 비고
    1~8
    8 일 QC + Alignment: 2 일
    Variant Calling: 3 일
    Basic Analysis: 3 일
    미 정 Reads: > 40 million
    Depth coverage: ~100x
    Mean read length: ~130 bp
    8~16 14 일 미 정
    >100 >60 일 미 정

  3. NGS Sequencing + Bioinformatics

  4. 샘플 수 (명) 실험 수행 및 데이터 분석 소요시간 가격(원) 비고
    1
    약 2 주 Sample prep. : 3 일
    Sequencing : 2 일
    QC + Alignment: 2 일
    Variant Calling: 3 일
    Basic Analysis: 3 일
    미 정 Reads: > 40 million
    Depth coverage: ~100x
    Mean read length: ~130 bp
    10 약 4 주 미 정
    >100 >8 주 미 정