[과학]막대한 인공지능 데이터를 효율적으로 구축하는 방법?
[과학]막대한 인공지능 데이터를 효율적으로 구축하는 방법?
  • 정지원 기자
  • 승인 2022.10.12 15:56
이 기사를 공유합니다

엄청난 노동력과 비용이 소요되는 훈련 데이터 구축 비용
'메타 질의 네트워크' 통해 방법론 검증
최종 예측 정확도 최대 20% 향상
(왼쪽부터)박동민 KAIST 데이터사이언스대학원 박사과정과 이재길 전산학부 교수.(사진=KAIST)
(왼쪽부터)박동민 KAIST 데이터사이언스대학원 박사과정과 이재길 전산학부 교수.(사진=KAIST)

(내외방송=정지원 과학전문 기자) 인공지능 데이터를 구축할 때 이름을 달아주는 레이블링 과정이나 정제 과정에서 엄청난 노동력과 시간적 비용이 소요되는데, 이를 최소화할 수 있는 방법이 개발됐다.

KAIST는 12일 '내외방송'에 보낸 자료에서 "이재길 전산학부 교수 연구팀이 인공지능의 심층학습 훈련 데이터 구축 비용을 최소화할 수 있는 새로운 데이터 동시 정제와 선택 기술을 개발했다"고 밝혔다.

심층학습 훈련 데이터를 구축하기 위해서는 수집과 정제, 선택과 레이블링 단계로 이뤄진다.

연구팀은 데이터의 정제와 선택을 동시에 수행해 비용을 최소화할 수 있는 방법을 제시했다.

이를 위해서 가장 심층학습 성능 향상에 도움이 될만한 데이터를 선택해 비용 내에서 최고의 효과를 내도록 최적의 순도(얼마나 순수한가) 지표와 정보도(정보의 양) 지표를 찾는다.

이 두 지표는 서로 상충되기 때문에 최적 균형을 찾는 것이 어려운데, 연구팀은 최적 균형이 정제 전 데이터의 분포 외 데이터 비율과 현재 심층신경망 훈련 정도에 따라 달라진다는 것을 발견했다.

연구팀이 개발한 '메타 질의 네트워크' 방법론의 동작 개념도.(사진=KAIST)
연구팀이 개발한 '메타 질의 네트워크' 방법론의 동작 개념도.(사진=KAIST)

연구팀은 작은 신경망 모델을 도입해 새롭게 선택돼 레이블링 된 데이터를 순도와 정보도 최적 균형을 찾기 위한 훈련 데이터로 활용했고, 레이블이 추가될 때마다 최적 균형을 갱신했다.

이는 추가적인 상위 레벨의 신경망을 사용했다는 점에서 '메타학습(다양한 데이터를 통해 효율적으로 학습)'의 일종이라고 볼 수 있다.

연구팀은 이 방법을 '메타 질의 네트워크'라고 이름을 붙이고 이미지 분류 문제에 대해 다양한 데이터와 광범위한 분포 외 데이터 비율 방법론을 검증했다.

그 결과 기존 방법론과 비교했을 때 최종 예측 정확도가 최대 20% 향상됐다.

즉, 연구팀이 분포 외 데이터의 비율이 낮고, 현재 심층신경망의 성능이 높을수록 정보도에 높은 가중치를 둬야 한다는 것을 발견해낸 것이다.

제1저자로 참여한 박동민 데이터사이언스대학원 박사과정은 "다양한 데이터 분포 상황에서 강건성(성능이 뛰어남)이 검증됐기 때문에 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층학습의 훈련 데이터 준비 비용 절감에 기여할 수 있을 것"이라고 말했다.

이외에도 신유주, 이영준 박사과정이 함께 참여한 이 연구는 정보통신기획평가원의 지원을 받아 수행됐으며 국제학술대회인 '신경정보처리시스템학회(NeurIPS)'에 오는 12월 발표될 예정이다(논문명: Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning).

 



오늘의 이슈
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 법인 : (주)내외뉴스
  • 인터넷신문등록번호 : 서울, 아04690
  • 인터넷신문등록일자 : 2017년 09월 04일
  • 발행일자 : 2017년 09월 04일
  • 제호 : 내외방송
  • 내외뉴스 주간신문 등록 : 서울, 다 08044
  • 등록일 : 2008년 08월 12일
  • 발행·편집인 : 최수환
  • 서울특별시 종로구 대학로 13 (뉴스센터)
  • 대표전화 : 02-762-5114
  • 팩스 : 02-747-5344
  • 청소년보호책임자 : 최유진
  • 내외방송 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 내외방송. All rights reserved. mail to webmaster@nwtn.co.kr
인신위 ND소프트