Amazon Polly: 텍스트의 목소리를 해방하다

2025년 9월 3일

다양한 콘텐츠가 넘쳐나는 오늘날 디지털 시대에 음성은 정보 전달과 사용자 상호작용의 핵심 수단으로 자리 잡고 있습니다. 오디오북, 온라인 학습, 짧은 비디오 더빙, 지능형 고객 서비스 시스템 등 어떤 분야에서든 텍스트 음성 변환(TTS) 기술의 가치는 점점 더 중요해지고 있습니다. AWS의 텍스트 음성 변환 서비스인 Amazon Polly는 개발자와 기업에 자연스럽고 매끄럽고 지연 시간이 짧은 음성 합성 기능을 제공하여 콘텐츠가 마치 "말하는" 것처럼 전달될 수 있도록 합니다.

Amazon Polly란 무엇인가요?

Amazon Polly는 텍스트를 고품질 음성으로 실시간으로 변환하는 딥 러닝 기반 클라우드 서비스입니다. MP3, OGG, PCM 등의 출력 형식을 지원하여 저장 및 재생이 간편합니다. 인공신경망 텍스트 음성 변환(Neural TTS) 기술은 자연스럽고 감정 표현이 뛰어나 팟캐스트, 오디오북 등 다양한 환경에서 널리 사용됩니다.

주요 기능

다국어 및 다중 음성 스타일: 중국어, 영어, 일본어, 한국어 등 주요 언어를 포함하여 30개 이상의 언어와 60개 이상의 음성 모델을 지원합니다.
SSML 지원: 음성 합성 마크업 언어를 통해 사용자는 억양, 강세, 말하는 속도 등의 세부 사항을 유연하게 조정할 수 있습니다.
실시간 및 일괄 처리: 대화형 음성 애플리케이션과 콘텐츠 오디오의 일괄 생성에 사용할 수 있습니다.