EC 번호와 게놈서열 알면 생물의 대사 특성 알 수 있어
총 5360 종 EC 번호 예측 가능
(내외방송=정지원 기자) 아직까지 밝혀지지 않은 단백질 효소 기능이 인공지능 시스템을 이용해 빠르고 정확히 파악할 수 있게 됐다.
KAIST(한국과학기술원)는 "이상엽 생명화학공학과 특훈교수와 버나드 펄슨 캘리포니아대학교 샌디에이고 생명공학과 교수 공동 연구팀이 단백질 서열을 활용해 해당 단백질의 효소 기능을 예측할 수 있는 인공지능 '딥 EC 트랜스포머'를 개발했다"고 24일 밝혔다.
효소는 생물학적 반응을 촉진하는 단백질을 말하며 생명체의 대사 특성을 파악하려면 각 효소의 기능을 이해하는 것이 중요하다.
효소 고유 번호인 'EC 번호'와 게놈서열(DNA를 구성하는 구조의 서열)에 존재하는 효소의 종류를 알면 다양한 유기체(생물)의 대사 특성을 분석할 수 있다.
연구팀은 '딥 EC 트랜스포머'로 심층학습 기법과 단백질 상동성(유전자가 공통조상으로부터 유래) 분석 모듈(구성요소)을 활용해 단백질 서열의 효소 기능을 예측하고, 단백질 서열 전체 문맥에서 효소 기능 유지에 중요한 정보를 추측했다.
딥 EC 트랜스포머는 이 원리로 총 5360 종류의 EC 번호를 예측할 수 있다.
또, 인공지능이 추론하는 과정에서 정보 흐름을 분석해 효소 기능을 예측할 때 활성 부위나 보조 인자(효소를 활성화하는 물질) 결합 부위 등 정보를 사용한다는 것을 밝혀 직접 확인할 수 없는 '블랙박스' 현상을 해석했다.
연구팀은 딥 EC 트랜스포머를 활용해 생명체에서 밝혀지지 않았던 효소를 파악하고, 화합물을 생합성(세포의 작용으로 물질 합성)하기 위해 필요한 효소나 플라스틱을 생분해하기 위해 필요한 효소 등 다양한 대사 과정을 밝혀낼 수 있을 것으로 기대하고 있다.
이 교수는 "이를 통해 모든 효소 정보를 포함한 대사 네트워크를 기반으로 친환경 미생물 공장 개발을 수행할 수 있을 것"이라고 말했다.
김기배 박사과정이 제1저자로 참여한 이번 연구는 과학기술정통부 등의 지원을 받아 수행됐으며 국제학술지인 '네이처 커뮤니케이션즈(Nature Communications)'에 최근 게재됐다(논문명: Functional annotation of enzyme-encoding genes using deep learing with transformer layers).