banner
홈페이지 / 블로그 / MArVD2: 바이러스 데이터 세트에서 고세균 바이러스와 박테리아 바이러스를 구별하기 위한 기계 학습 강화 도구
블로그

MArVD2: 바이러스 데이터 세트에서 고세균 바이러스와 박테리아 바이러스를 구별하기 위한 기계 학습 강화 도구

Aug 11, 2023Aug 11, 2023

ISME 커뮤니케이션 3권, 기사 번호: 87(2023) 이 기사 인용

370 액세스

10 알트메트릭

측정항목 세부정보

바이러스 서열 공간에 대한 우리의 지식은 진보된 서열 분석 기술과 대규모 샘플링 및 분석 노력으로 폭발적으로 증가했습니다. 고세균은 많은 시스템에서 중요하고 풍부한 원핵생물이지만, 극한 환경 이외의 고세균 바이러스에 대한 우리의 지식은 제한적입니다. 이는 큐레이트된 바이러스의 데이터 세트에서 박테리아 바이러스와 고세균 바이러스를 구별하는 강력하고 처리량이 높으며 체계적인 방법이 부족하기 때문에 크게 발생합니다. 여기서는 새롭게 선별된 고세균 바이러스 데이터 세트에 대해 무작위 포레스트 기계 학습 알고리즘을 교육하고 테스트하여 이전 텍스트 기반 도구(MArVD)를 업그레이드합니다. 최적화 후 MArVD2는 확장성, 유용성 및 유연성 측면에서 이전 버전에 비해 크게 개선되었으며 고세균 바이러스 발견이 진행됨에 따라 사용자 정의 맞춤형 교육 데이터 세트를 허용합니다. 벤치마킹 결과, 고염수, 해양 및 온천 환경의 바이러스 서열로 훈련된 모델이 별도의 벤치마킹 데이터 세트에서 무작위 숲 예측 임계값 80%를 사용하여 2% 미만의 잘못된 탐지율로 고세균 바이러스의 85%를 올바르게 분류한 것으로 나타났습니다. 같은 서식지.

지구의 영양분과 에너지 순환은 작은 미생물 엔진에 의해 구동됩니다[1]. 박테리아가 더 일반적으로 연구되는 반면, 고세균도 중요하다는 인식이 커지고 있습니다 [2, 3]. 예를 들어, 고세균은 중해양에 있는 미생물 군집의 거의 절반을 차지할 수 있습니다[2]. 여기서 Nitrososphaeria(이전의 Thaumarchaeota)는 주요 암모니아 산화제로서 전 세계 온실가스 배출(N2O)에 기여하고 광역 아래 고정 질소 손실의 대부분을 차지합니다[3,4,5]. 최근 수십 년 동안 기후 변화로 인해 니트로소스파에리아가 번성하는 중해양 저산소 지역의 확장과 그에 따른 이 지역의 온실가스 배출 증가 사이의 피드백이 세계에서 가장 생산적인 해양 환경을 위협하고 있습니다. [6,7 ,8]. 습지와 영구 동토층 토양에서 지배적인 메탄 생성 Euryarchaeota는 세계 메탄 생산량의 최대 40%를 차지하며, 그 중 대부분은 함께 발생하는 메탄 영양 생물에 의해 더욱 산화됩니다[9]. 이는 세계 토양 탄소의 대부분이 영구 동토층 지역에 저장되어 있기 때문에 특히 우려되는 부분입니다. 영구 동토층은 지구 온도가 상승함에 따라 빠르게 습지로 전환되고 있으며, 따라서 미래에 대기 메탄의 잠재적인 주요 공급원이 될 것입니다[10]. 이러한 시스템과 다른 시스템에서 고세균이 수행하는 풍부하고 중요한 생지화학적 역할을 고려할 때, 이를 감염시키는 바이러스에 대한 지식은 강력한 생태학적 평가 및 예측 기후 모델링에 필수적입니다.

대부분의 자연 생태계에서 박테리아가 고세균과 관련하여 잘 연구된 것처럼 고세균 바이러스와 관련하여 박테리오파지도 마찬가지입니다. 메타지놈 시퀀싱, 생태유전학 샘플-시퀀스 파이프라인, 바이러스 식별의 모범 사례[11,12,13,14] 및 이러한 기능을 민주화한 iVirus와 같은 분석 플랫폼[15, 16]의 발전으로 다음과 같은 발견이 가능해졌습니다. 전 세계 환경에서 발생하는 수십만 개의 박테리아 바이러스 또는 파지입니다 [17,18,19,20]. 이러한 파지는 숙주 사망률, 수평적 유전자 전달 및 대사 재프로그래밍[21,22,23,24,25,26,27]에 실질적으로 영향을 미쳐 지구 해양 탄소 순환과 같은 중요한 생태계 기능에 영향을 미치는 것으로 알려져 있습니다[28]. 따라서 파지를 "보는" 우리의 능력은 강력하며 이로 인해 파지가 생태계에 어떤 영향을 미치는지에 대한 이해가 획기적인 도약을 이루었습니다.

대조적으로, 산성 온천, 고염수 연못, 혐기성 퇴적물 또는 열수 분출구와 같은 "극한" 환경에서 전통적으로 연구되어 온 고세균 바이러스는 대부분의 글로벌 규모의 메타게놈 기반 연구에서 심각하게 과소 대표됩니다 [29,30,31, 32,33]. 예를 들어, 현재까지 다중 메타게놈학 또는 배양 기반 연구에서 230개 미만의 해양 고세균 바이러스가 비밀리에 확인되었습니다[18, 32, 34,35,36,37,38,39,40,41,42]. 최근 단일 글로벌 해양 조사에서는 488,000개 이상의 바이러스 개체군이 밝혀졌으며, 이들 중 대부분은 파지로 추정됩니다[17]. 전체적으로, 우리는 현재 약 380개 미만의 고세균 바이러스로부터 이용 가능한 잘 문서화된 게놈 또는 대규모 게놈 단편이 있다고 추정하며, IMG/VR-db v3.0에는 또 다른 6027개의 추정 고세균 바이러스가 포함되어 있습니다. [43] 이는 아주 작은 부분입니다. 현재 파지에서 사용할 수 있는 수십만 개의 인구 게놈과 비교할 때 [17,18,19,20]. 이에 대한 설명은 새로운 고세균 바이러스 발견이 주로 극한 환경의 바이러스로 채워진 공개 참조 데이터베이스에 대한 서열 상동성 검색을 기반으로 하며 많은 고세균 바이러스는 이러한 참조와 상동성이 부족하기 때문일 수 있습니다[44]. 이러한 "극단적인" 고세균 바이러스는 그들이 나타내는 믿을 수 없을 정도로 다양한 형태와 생활방식에 관계없이 상대적으로 비극단적인 환경에서 온 고세균 바이러스를 잘 대표하지 못할 수도 있습니다[29, 45,46,47,48]. 따라서 파지와 고세균 바이러스 사이의 명확한 게놈 및 진화적 차이에도 불구하고 상대적으로 극단적이지 않은 환경의 데이터 세트에서 박테리오파지를 고세균 바이러스와 구별하는 것은 현재의 접근법을 사용하여 여전히 어려운 과제로 남아 있습니다 [29, 45, 46, 49,50,51,52 ]. 결과적으로, 상대적으로 극단적이지 않은 환경에서 고세균 바이러스의 생태학적 역할은 생지화학적 순환 및 숙주 군집 역학에 필수적일 수 있다는 증거가 있음에도 불구하고 대부분 불분명하게 남아 있습니다 [36, 53,54,55].

10kbp (Fig. 6A and C). The exception to this was SPEC which remained high and nearly unchanged across the variable sequence size fractioned datasets (1 kb, 2.5 kb, 5 kb, 7.5 kb, 10 kb, >10 kb). Further, the FDR stayed relatively low across all fragment sizes, never exceeding 15% (Fig. 6A, C)./p>10 kbp./p>50 and evalue >0.001. These annotations are then integrated into the VirSorter “affi_contigs.csv” gene annotation file retaining the VirSorter derived Pfam [86] designations >40 bitscore and <0.00001 evalue. Using this updated per gene annotation file, MArVD functions exactly as its first inception [32]. Only MArVD category 1 and 2 putative archaeal viruses, corresponding to viruses having over 66 or 50% of their annotated genes affiliating with archaeal viruses respectively, and with bitscore >75 and higher than those for the phage affiliations, were retained as MArVD predicted archaeal viruses. This updated version of MArVD enabled the creation of the new environmental archaeal virus datasets from the ETSP and GOV2.0 datasets needed to train and test MArVD2 as well as allows for a means to compare the performance of MArVD with MArVD2./p>10 kb lengths. For the >10kbp size fraction, a second test dataset with various amounts of microbial sequences was included with equal proportions of bacteria and archaea. Genomic fragments from microbial sequences were randomly selected from the IMG/M [79] database and only included if their size was between 10 kb and 200 kb. Microbial sequences were added at 10, 25, 50, 75, and 95% of the total data. Microbial sequences were ensured not to be viral by use of VirSorter. Dataset size in terms of the number of contigs was also tested with the benchmarking dataset being broken into sets 10, 25, 50, 75, and 95% of the total number of contigs from the original validation dataset./p>