ETRI, AI 음향 인식 대회서 세계 1위···청각 장애인 돕는다
페이지 정보
- 작성자 : 강원도수어문화원
- 이메일 : kwdeaf@daum.net
- 작성일 : 20-07-21 09:08
- 조회 : 1,670회
관련링크
본문
ETRI, AI 음향 인식 대회서 세계 1위···청각 장애인 돕는다
'DCASE 2020'서 전 세계 기업, 대학팀과 겨뤄 입상
[이데일리 강민구 기자] 국내 연구진이 인공지능(AI)을 이용해 소리를 듣고, 상황을 파악해 음향 인식 기술력을 겨루는 국제대회에서 세계 1위를 달성했다.
한국전자통신연구원(ETRI)은 지난 3일 열린 ‘인공지능 기반 음향 이벤트 및 장면 인식 기술 경진 대회(DCASE)’의 ‘음향 장면 인식 분야’에 참가해 이 같이 성과를 냈다고 20일 밝혔다.
연구팀이 개발한 기술은 노약자나 청각 장애인을 위한 기술로 응용할 수 있다. 소리를 잘 듣지 못해 상황을 인식하지 못하는 계층을 위해 위험 회피를 돕는 기술로 활용성이 크다.
또 소리를 듣고 관련 정보를 도출하는 미디어 자동 태깅 기술, 자동차나 공장 라인 소리를 듣고 이상 유무를 알아내는 장비 상태 모니터링 등에 응용할 수 있다.
이번 대회는 세계 최대 전기·전자기술자협회(IEEE) AASP가 주관하고 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수 기관이 참가했다. 대회는 6개 분야에 총 138개 팀과 473개의 제안 시스템이 제출돼 지난 3월부터 6월 중순까지 과제별 기술 경쟁이 이뤄졌다.
ETRI가 참가한 ‘복수 단말 대상 음향 장면 인식’ 과제는 여러 종류의 단말기로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 분야다. 액션캠뿐 아니라 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호 특성을 종합해 정확하게 판단하는 분야로 ‘일반화 성능’이 관건이다.
과제에서는 학습용 음향 데이터로 프랑스 파리 지하철에서 나는 소리를 스마트폰으로 녹음한 파일이 주어졌다. 연구팀은 이를 인식하는 시스템을 개발하고, 평가에서는 학습에 쓰이지 않았던 액션캠으로 녹음한 지하철 소리에 따른 상황을 확인했다.
총 28개팀 92개 시스템이 출전한 가운데 ETRI 연구팀은 이 분야에서 시스템 순위 1, 2위를 차지했다. 조지아텍-중국과기대-텐센트-UEK 연합팀이 2등으로 뒤를 이었다.
연구팀은 이번 성과 비결로 △소리를 주파수 대역별로 나눠 모델이 각각 학습을 하도록 만든 ‘딥러닝 기반 트라이던트(Trident) 구조 신경망 개발’ △단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닌 ‘비균등 입력 특징 분할 기법’ 설계·적용을 꼽았다.
이를 통해 전년 대비 어려워진 과제에 대처하고, 학습에 사용한 단말뿐 아니라 새로운 단말의 음향 데이터를 접했을 때도 다른 참가팀들에 비해 앞선 성능을 보였다.
김흥묵 ETRI 미디어연구본부장은 “딥러닝 기반 음향 인식 기술은 앞으로 새로운 응용 서비스 기술 개발을 통해 국내 산업의 경쟁력 확보와 시장 활성화에 기여할 것”이라고 말했다.