“차세대 GPU 인스턴스, 클라우드서 최고 성능 제공”

 
[아이티데일리] 아마존웹서비스(AWS)는 차세대 ‘아마존 EC2’ GPU 인스턴스인 ‘P3 인스턴스’를 공개했다고 30일 밝혔다.

‘P3 인스턴스’는 머신러닝, 전산 유체역학, 전산 금융, 지진파 분석, 분자 모델링, 유전체학 및 자율주행차 시스템 등과 같이 뛰어난 부동 소수점 병렬 연산 성능을 요구하는 연산 집약적인 애플리케이션을 위해 설계됐다. 인스턴스 최초로 엔비디아 ‘테슬라 V100’ GPU가 내장된 ‘P3 인스턴스’는 현재 클라우드에서 사용 가능한 GPU 인스턴스 중 최고 성능을 자랑한다.

AWS는 ‘P3 인스턴스’를 사용하면 이전 세대의 ‘아마존 EC2’ GPU 컴퓨팅 인스턴스보다 최대 14배 우수한 성능으로 고급 애플리케이션을 구축 및 배포할 수 있으며, 수 일이 소요되던 머신 러닝 애플리케이션 트레이닝도 단 몇 시간 안에 할 수 있게 된다고 설명했다.

최대 8개의 엔비디아 ‘테슬라 V100’ GPU가 내장된 ‘P3 인스턴스’는 1페타플롭스(PFlops)의 혼합 정밀도(mixed-precision), 125테라플롭스(TFlops)의 단일 정밀도(single-precision), 그리고 62TFlops의 부동 소수점 배정밀도(double-precision) 성능을 제공한다. ‘테슬라 V100’에 채택된 엔비디아의 2세대 ‘NV링크 인터커넥트(NVLink interconnect)’는 용량이 300GB/s이며, GPU 간 고속, 로우 레이턴시(low-latency) 통신을 지원한다. ‘P3 인스턴스’는 맞춤형 인텔 ‘제온 E5’ 프로세서(브로드웰)와 488GB D램을 바탕으로 최대 64개의 vCPU를 갖추고 있으며, ENA(Elastic Network Adapter)를 통해 25Gbps 전용 네트워크 대역폭을 제공한다.

현재 AMI(AWS Deep Learning Machine Images)는 AWS 마켓플레이스(Marketplace)에서 제공되고 있으며, 작업을 시작하는 데 단 몇 분이면 충분하다. 딥러닝 AMI에는 ‘테슬라 V100’ GPU를 지원하는 최신 ‘아파치 MX넷(Apache MXNet)’과 ‘카페2(Caffe2)’, ‘텐서플로(TensorFlow)’가 설치돼 있다. 또한 ‘마이크로소프트 코그너티브 툴키트(Microsoft Cognitive Toolkit)’와 ‘파이토치(PyTorch)’ 등 다른 머신러닝 프레임워크가 ‘테슬라 V100’ GPU를 지원하게 된다면, 그 즉시 딥러닝 AMI를 업데이트해 ‘P3’ 인스턴스를 지원할 예정이다.

사용자들은 엔디비아 GPU 클라우드의 딥러닝 프레임워크 컨테이너를 통합하는 ‘엔디비아 볼타 딥러닝 AMI(NVIDIA Volta Deep Learning AMI)’를 사용하거나, ‘아마존 리눅스(Amazon Linux)’, ‘우분투 16.04(Ubuntu 16.04)’, ‘윈도우 서버 2012 R2(Windows Server 2012 R2)’나 ‘윈도우 서버 2016(Windows Server 2016)’을 통해 AMI 작업을 시작할 수 있다.

또한 ‘P3 인스턴스’를 사용하는 고객은 각자 애플리케이션에 맞는 최적의 프레임워크를 자유롭게 선택할 수 있다. 고객들은 ‘AWS 매니지먼트 콘솔(Management Console)’, ‘AWS 커맨드 라인 인터페이스(Command Line Interface)’, 그리고 ‘AWS SDK’를 통해 ‘P3’ 인스턴스를 사용할 수 있다.

‘아마존 EC2 P3 인스턴스’는 현재 미국 동부(버지니아), 미국 서부(오레곤), EU 서부(아일랜드), 아시아태평양(도쿄) 리전에서 사용 가능하며, 향후 더 많은 리전에서 사용할 수 있도록 지원할 예정이다. 1 ,4, 8개의 GPU를 지원하는 총 3가지 크기로 제공되며 온디맨드(On-deman), 예약 (Reserved) 또는 스팟(Spot) 인스턴스로 사용할 수 있다.

매트 가먼(Matt Garman) AWS 아마존 EC2 부문 부사장은 “‘P2 인스턴스’에 비해 최대 14배 우수한 성능을 갖춘 ‘P3 인스턴스’는 머신러닝 모델 학습에 소요되는 시간을 대폭 단축해 준다”면서, “이를 통해 개발자들은 신속하게 실험할 수 있게 되며, 온프레미스 GPU 클러스터에 많은 자본을 투자하지 않고도 머신러닝을 최적화할 수 있도록 한다. 또한 고성능 컴퓨팅 애플리케이션에도 최대 2.7배 향상된 배정밀도 부동 소수점 성능을 활용할 수 있다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지