세계 최고 성능의 기계학습 시스템 개발...KAIST "처리 속도와 통신 비용 대폭 감소"

기계 학습 시스템 성능 세계 최고 수준으로 끌어올릴 수 있어
행렬 연산자 융합 기술 'FuseME'
구글·IBM 시스템보다 처리 속도 238배↑, 통신 비용 64배↓

(왼쪽부터)김민수 KAIST 전산학부 교수와 한동형 박사.(사진=KAIST)

(내외방송=정지원 기자) 인공지능 딥러닝 모델을 처리하기 위해 필수적으로 사용되는 기계학습 시스템의 성능을 대폭 높일 수 있는 기술이 개발됐다.

KAIST는 20일 "김민수 전산학부 교수 연구팀이 이를 가능하게 할 세계 최고 수준의 행렬 연산자 융합 기술(FuseME)을 개발했다"고 밝혔다.

오늘날 산업에 광범위하게 사용되고 있는 딥러닝 모델들은 대부분 구글 텐서플로우나 IBM 시스템DS와 같은 기계학습 시스템을 이용해 처리된다.

딥러닝 모델의 규모가 점점 더 커지고, 그 모델에 사용되는 데이터의 규모가 점점 늘어나면서 이를 원활하게 처리할 수 있는 고성능 기계학습 시스템에 대한 중요성도 커지고 있다.

일반적으로 딥러닝 모델은 행렬 곱셈이나 합, 집계 등의 많은 행렬 연사자들로 구성된 방향성 비순환 그래프(Directed Acyclic Graph, 이하 DAG) 형태의 질의 계획으로 표현되고, 기계학습 시스템에 이를 처리한다.

모델과 데이터의 규모가 클 때는 DAG 질의 계획은 수많은 컴퓨터로 구성된 클러스터(하드디스크드라이브에 파일을 저장하는 논리적 단위)에서 처리된다.

지금까지는 더 큰 규모의 모델이나 데이터를 처리하기 위해 단순히 컴퓨터 클러스터의 규모를 증가시키는 방식이 주로 사용됐다.

클러스터의 사양에 비해 모델과 데이터의 규모가 커지면 처리에 실패하거나 시간이 오래 걸리는 문제가 발생했다.

하지만, 연구팀은 DAG 질의 계획을 구성하는 각 행렬 연산자로부터 생성되는 일종의 중간 데이터를 메모리에 저장하거나 네트워크 통신을 통해 다른 컴퓨터로 전송하는 것이 문제의 원인임을 알아냈다.

KAIST가 인공지능 딥러닝 모델을 처리하기 위해 필수적으로 사용되는 기계학습 시스템을 세계 최고 수준의 성능으로 끌어올리는 데 성공했다.(사진=KAIST)

중간 데이터를 저장하지 않거나 다른 컴퓨터로 전송하지 않도록 여러 행렬 연산자들을 하나의 연산자로 융합하는 세계 최고 성능의 융합 기술인 FuseME(Fused Matrix Engine)를 개발해 문제를 해결한 것이다.

FuseME 기술은 수십개 이상의 행렬 연산자들로 구성되는 DAG 질의 계획에서 어떤 연산자들끼리 서로 융합하는 게 더 우수한 성능을 내는지 비용 기반으로 판별해 그룹으로 묶는다.

또, 클러스터의 사양과 네트워크 통신 속도, 입력 데이터 크기 등을 모두 고려해 각 융합 연산자 그룹을 메모리 부족으로 인해 처리에 실패하지 않으면서 이론적으로 최적 성능을 낼 수 있는 CFO(Cuboid-based Fused Operator)라고 불리는 연산자로 융합하면서 한계를 극복했다.

행렬 곱 연산자까지 포함해 연산자를 융합하는 게 이 기술의 핵심이다.

연구팀은 구글과 IBM의 시스템을 비교한 결과, 딥러닝 모델의 처리 속도를 최대 8.8배 향상하고, 더 큰 규모의 모델과 데이터를 처리할 수 있다는 것을 확인했다.

뿐만 아니라 FuseME의 CFO 융합 연산자는 현재 최고 수준의 융합 연산자와 비교해 처리 속도를 최대 238배 향상시키고, 네트워크 통신 비용을 최대 64배 감소시키는 사실도 발견했다.

이 기술은 지난 2019년 연구팀이 개발한 DistME 기술을 한층 더 발전시킨 것으로 해당 분야에서 세계 최고 수준의 기술력으로 선도할 수 있다는 쾌거를 보여줬다.

김민수 교수는 "연구팀이 개발한 새로운 기술은 딥러닝 등 기계학습 모델의 처리 규모와 성능을 획기적으로 높일 수 있어 산업적 측면에서 파급 효과가 매우 클 것으로 기대한다"고 말했다.

이 연구는 한국연구재단 선도연구센터 사업과 중견연구자 지원 사업, 과기정통부 IITP SW스타랩 사업의 지원을 받아 수행됐다.

김 교수의 제자이자 현재 GraphAI 스타트업 공동 창업자인 한동형 박사가 제1저자로, 김 교수가 교신저자로 참여한 이 연구는 지난 16일 미국 필라델피아에서 열린 데이터베이스 국제학술대회 ACM SIGMOD에서 발표됐다(논문명: FuseME: Distributed Matrix Computation Engine based on Cuboid-based Fused Operator and Plan Generation).

정지원 기자 jiwon0833@nwtn.co.kr 다른기사 보기