[과학돋보기] 학습으로 인식한다…인간처럼 보고 이해하는 '시각 인공지능' / YTN 사이언스
■ 박종열 / ETRI 시각지능연구실 실장 [앵커] 딥러닝으로 인한 인공지능의 발전은 여러 분야에 접목되며 그 영역이 더욱 커지고 있는데요 특히 시각 지능을 기반으로 한 인공지능은 실제 생활에 적용되며 다양한 변화를 만들 것으로 전망됩니다 그래서 오늘 '과학돋보기' 시간에는 '시각 인공지능'에 대해서 알아보도록 하겠습니다 한국전자통신연구원 시각 지능연구실 박종열 실장과 함께합니다 안녕하세요? 요즘에도 불법 쓰레기 무단투기를 하시는 분들이 많다고 하는데요 이런 비양심적 행동을 하는 분들을 감시하는 인공지능이 등장했다고 하는데 어떤 프로그램인가요? [인터뷰] 저희 ETRI에서 개발한 시각 인공지능 '딥뷰 (Deep View)'기술입니다 불법 쓰레기 투기를 보면 현장에서 '찰칵' 소리를 내고 "사진이 촬영되었습니다 투기물을 가져가지 않으면 관련 법에 따라 처벌받게 됩니다"라는 메시지가 나가게 됩니다 딥뷰 기술은 사람을 알아보고 행동을 인식하는 기술인데요 사람의 관절 움직임을 보고 행인이 물건을 내려놓는지 또는 던지는지를 알 수 있습니다 [앵커] 찰칵 사진까지 찍힌다고 하니까 몰래 쓰레기 투기를 하러 왔다가, 놀라서 다시 가지고 갈 것 같은데요 사실 기존에도 이런 불법 쓰레기 투기를 감시하는 CCTV가 있는 것으로 알고 있거든요 기존 CCTV와 딥뷰, 어떤 차이가 있나요? [인터뷰] 기존 CCTV 기술은 정확도가 매우 낮았습니다 그래서 지방자치단체와 저희가 함께 개발에 나섰는데요 기존 CCTV 기술은 투기 지역을 지나가기만 해도 경고를 하는 등 잘못된 탐지가 굉장히 많았습니다 딥뷰 기술은 세밀한 행동을 이해해서 그를 통해서 딥러닝 기반으로 사물을 이해하고 사람을 움직이는 것을 이용해서 행동을 인식하는 기술입니다 특히 사람의 관절 위치를 찾고 그 사람이 들고 있는 물체를 인식한 다음에 사람과 물체의 관계를 모델링하는 방식으로 투기 행동을 인식합니다 여기서 포인트는 사람의 관절 움직임을 통해 행동을 인식하는 기술하고 사람이 들고 가는 물체를 추적하는 기술이 유기적으로 결합한 것입니다 일정 거리 이상 떨어져 있는지, 쓰레기를 던지는지, 완전히 버렸는지 등의 다양한 행동들에 대해서 기계 학습으로 인식하게 됩니다 실제 CCTV에 적용된 각각의 구성 알고리즘들은 스트리밍 방식에 맞도록 구성하였고, 실시간 처리를 위해 알고리즘 효율화에 집중하였습니다 [앵커] 저렇게 사람의 동작들을 파악하는 거군요 그러니까 전에 있었던 단순히 이미지 속의 사물의 종류를 구분하는 것을 넘어 상황까지 깊이 더 이해한다는 건데, 그럼 이 딥뷰가 어떤 행동에 대한 연관 관계를 파악할 수 있다고 볼 수 있을까요? [인터뷰] 화면에서 박스가 쳐진 것은 딥뷰가 사물의 존재를 알아본다는 것인데요 이를 '명사'를 인식한다고 표현합니다 '명사'라는 것은 사건의 주체가 되기도 하고 대상이 되기도 합니다 딥뷰는 '동사'도 알아보는데 타다, 걷는다, 넘어지다 와 같은 동사는 사물이나 사람의 움직임을 잡아내는 능력입니다 자전거가 있다는 것은 알아내는 것이 아니라 자전거가 서 있는지, 움직이는지, 넘어지는지 이런 여러 가지 상황들을 파악하는 것이 동사의 능력입니다 그리고 명사와 동사의 관계를 이해하고 그 장면의 의미가 무엇인지를 이해하는 것이 저희 과제의 목표이죠 기존의 패턴인식 방식은 특정 사물과 특정 움직임만을 인식하는데요 그 연관 관계까지는 보지 못했습니다 자전거를 타고 넘어진 건 알 수 있지만 왜 넘어졌는지를 알 수 없었던 것이죠 [앵커] 그러니까 [YTN 사이언스 기사원문]