# TTS 품질 저하 RCA — 오늘의 AI 한입 EP001

작성일: 2026-05-03
대상: `family_dialogue_sample_v2_prompted_jessica_bill.mp3`
판정: 사용 불가. 최종/후보 음성에서 제외.

## 1. 결론

이번 TTS 품질이 매우 낮게 나온 핵심 원인은 ElevenLabs 자체의 한계라기보다, **TTS 제작 업무프로세스가 잘못 운영된 것**이다.

가장 큰 문제는 다음 네 가지다.

1. 한국어 전용/대화형 보이스를 확보하지 못한 상태에서 영어권 premade voice로 한국어 부녀 대화를 만들었다.
2. ElevenLabs 고급 기능을 쓰겠다고 했지만, 실제로는 Voice Library와 Eleven v3 Audio Tags가 계정/쿼터 제한으로 막힌 상태였다.
3. 프롬프트를 충분히 넣었다고 표현했지만, API 구조상 Multilingual v2는 별도 연출 프롬프트를 깊게 반영하는 방식이 아니라 **텍스트/음성 선택/세팅**에 크게 좌우된다.
4. 샘플을 만들고 나서, 대표님께 보내기 전에 “한국어 부녀 대화로 들리는가?”라는 청각 QA를 통과시키지 못했다.

즉, 문제는 “ElevenLabs가 원래 이 정도 품질”이 아니라, **잘못된 보이스 선택 + 사용 불가 기능을 전제로 한 프로세스 + 사전 QA 부족**이다.

## 2. 실제 사용된 조건

샘플 파일:

`voice-tests/korean-family-dialogue-v3-premade-prompted/family_dialogue_sample_v2_prompted_jessica_bill.mp3`

기술 정보:

- 형식: MP3
- 샘플레이트: 44.1kHz
- 채널: mono
- 비트레이트: 128kbps
- 길이: 약 32.5초

사용 음성:

- 딸: `Jessica - Playful, Bright, Warm`
  - 설명: young/popular/playful American female voice
- 아버지: `Bill - Wise, Mature, Balanced`
  - 설명: friendly/comforting voice

문제:

- 두 음성 모두 한국어 전용 보이스가 아니다.
- 특히 딸 역할에 영어권 young/popular voice를 한국어로 사용하면 발음/억양/정서가 한국 성인 딸과 맞지 않을 가능성이 높다.
- 아버지 역할도 “한국 아버지”가 아니라 영어권 narrator voice를 한국어로 읽는 느낌이 될 수 있다.

## 3. 막힌 기능

### 3.1 ElevenLabs 한국어 Voice Library 후보

한국어 후보는 검색됐다.

예:

- `Han - Conversational`
- `Sung-ho - Steady and Conversational`
- `YoungSeok - Ordinary Korean, Podcast`
- `Harry Kim - Conversational`
- `Onyu - Calm & Friendly`
- `Sian - Tender, Calm & Clear`

하지만 API로 사용하려고 했을 때 다음 오류가 발생했다.

```text
paid_plan_required
Free users cannot use library voices via the API.
```

의미:

- 한국어에 더 맞는 Voice Library 음성은 현재 API 계정 상태에서 사용할 수 없었다.
- 따라서 실제 샘플은 한국어 보이스가 아니라 기본 premade voice로 만들어졌다.

### 3.2 Eleven v3 Audio Tags

Eleven v3 Audio Tags는 감정/대화 연출에 도움이 될 수 있으나, 테스트 중 다음 오류가 발생했다.

```text
quota_exceeded
This request exceeds your API key quota of 1000. You have 9 credits remaining, while 59 credits are required for this request.
```

의미:

- v3 Audio Tags 기반의 제대로 된 샘플은 완성하지 못했다.
- 따라서 “Audio Tags로 충분히 연출했다”고 볼 수 없다.

## 4. 업무프로세스상 실패 원인

### 원인 A — 보이스 캐스팅을 먼저 통과시키지 않았다

영상용 캐릭터가 정해졌다면, TTS도 “딸/아버지 보이스 캐스팅”을 먼저 해야 했다.

해야 했던 순서:

1. 한국어 여성/남성 후보 5~10개 검색
2. 딸 후보/아빠 후보를 나눠 10초 샘플 생성
3. 한국 부녀 대화 QA
4. 통과 후보만 전체 대본에 사용

실제 수행:

- 사용 가능한 premade voice 2개를 골라 바로 대화 샘플 생성
- 한국어/부녀관계 적합성보다 API 가능 여부를 우선함

### 원인 B — “프롬프트”로 해결할 수 있는 범위를 과대평가했다

TTS에서 프롬프트가 중요하긴 하지만, 잘못된 음성 자체를 완전히 바꾸지는 못한다.

- 영어권 음성을 한국 성인 딸로 만들기 어렵다.
- narrator 성향 음성을 한국 아버지로 만들기 어렵다.
- voice library/voice design/voice clone 없이 텍스트 지시만으로 나이·관계·억양을 완전히 바꾸기는 어렵다.

### 원인 C — 고급 기능의 실제 사용 가능 여부를 먼저 확인하지 않았다

Eleven v3, Audio Tags, Korean Voice Library는 품질 개선의 핵심 후보였지만, 실제 계정/쿼터에서 막혔다.

향후에는 “가능할 것”이 아니라 먼저 아래를 확인해야 한다.

- 해당 모델 사용 가능 여부
- 잔여 크레딧
- Voice Library API 사용 가능 여부
- 생성 비용/문자 수
- 샘플 1개를 끝까지 만들 수 있는지

### 원인 D — 출고 전 청각 QA가 없었다

대표님께 보내기 전에 다음 질문에 답했어야 했다.

- 딸이 한국 성인 딸처럼 들리는가?
- 아버지가 한국 아버지처럼 들리는가?
- 두 사람이 가족 대화처럼 들리는가?
- 기계음/외국어 억양/내레이터 톤이 심하지 않은가?

이 게이트를 통과하지 못했는데 샘플로 보냈다.

## 5. 재발 방지 프로세스

### 5.1 TTS 캐스팅 게이트

전체 영상 전 반드시 다음 산출물을 만든다.

- `voice_casting_candidates.md`
- 후보별 8~12초 샘플
- 딸 후보 최소 3개
- 아빠 후보 최소 3개
- 후보별 평가: 나이, 한국어 자연스러움, 관계감, 기계음, 발음

### 5.2 한국어 우선 원칙

다음 우선순위를 지킨다.

1. 한국어/서울/standard/conversational Voice Library 또는 한국어 특화 TTS
2. Supertone, CLOVA, ElevenLabs Korean library, Gemini 자연 대화 음성
3. 필요 시 Gemini 8초 영상에서 자연스러운 음성 샘플을 기준으로 역설계
4. 영어권 premade voice는 최후의 임시 테스트용. 최종 후보로 보고 금지.

### 5.3 기능 가용성 체크

TTS 제작 전 다음을 먼저 체크한다.

- 현재 계정 플랜
- 잔여 크레딧/문자 수
- 사용할 모델명
- 사용할 보이스 권한
- 테스트 1개 생성 가능 여부

### 5.4 통과 전 전체 제작 금지

20~30초 샘플이 아래 기준을 통과하기 전에는 전체 영상 제작 금지.

- 딸/아빠 나이 차이가 들림
- 한국 부녀 대화로 들림
- 한국어 억양이 자연스러움
- 기계음이 심하지 않음
- 대본이 생활형으로 들림

## 6. 다음 권장 조치

1. ElevenLabs 웹 UI에서 한국어 Voice Library 후보를 직접 들어보고, 사용 가능한 후보를 계정에 저장한다.
2. API가 계속 `paid_plan_required`이면 웹 UI 다운로드 방식 또는 플랜/크레딧 정비가 필요하다.
3. Supertone/CLOVA/Gemini TTS도 같은 대본으로 10~20초 후보 비교를 만든다.
4. 대표님께는 “한 개 샘플”이 아니라 최소 3개 후보를 온라인 자료실에서 비교 검수하도록 제공한다.
5. 통과 음성이 나오기 전까지 EP001 전체 영상 제작을 재개하지 않는다.
