# ElevenLabs TTS 에이전트 프롬프트 — 오늘의 AI 한입 부녀 대화

목표: 단순 한국어 낭독이 아니라, 한국의 친한 성인 딸과 아버지가 집에서 대화하는 듯한 TTS를 만든다.

## 핵심 원칙

- 딸과 아버지는 같은 나이대의 남녀 내레이터가 아니다.
- 딸은 젊은 성인 딸이어야 한다. 밝고 따뜻하지만 어린아이 같으면 안 된다.
- 아버지는 50~60대 한국 아버지 느낌이어야 한다. 편안하고 궁금해하지만 바보처럼 들리면 안 된다.
- 대사는 뉴스 낭독이 아니라 가족 대화처럼 들려야 한다.
- 전체 영상 제작 전에 20~30초 샘플만 만든다.

## ElevenLabs 음성 탐색 우선순위

1. Korean / ko / Seoul / conversational / casual / podcast / dialogue 계열 voice-library 우선 검색
2. 딸 후보:
   - female
   - young adult
   - Korean/Seoul/standard
   - natural, casual, warm, conversational
   - 피할 것: mature narrator, professional educator, news anchor
3. 아버지 후보:
   - male
   - old 또는 middle_aged
   - Korean/Seoul/standard
   - warm, grounded, conversational, fatherly
   - 피할 것: corporate narrator, broadcaster, dominant/firm, too young

## API/요금제 체크

- Voice Library 공유 음성 사용 시 API가 `paid_plan_required`를 반환하면 해당 후보는 현재 API 환경에서 사용 불가로 기록한다.
- Eleven v3 Audio Tags 사용 시 `quota_exceeded`가 나오면 v3 후보는 중단하고, 사용 가능 모델로 샘플만 만든다.
- 실패한 후보를 성공한 것처럼 보고하지 않는다.

## 텍스트 프롬프트/연출 지시

ElevenLabs Multilingual v2는 지시문을 말로 읽을 수 있으므로, 최종 입력에는 불필요한 지시문을 넣지 않는다. 대신 아래 방식으로 자연스러움을 만든다.

- 짧은 문장
- 자연스러운 물음표
- 쉼표와 마침표로 호흡 분리
- “솔직히?”, “맞아요.”, “딱 그거예요.” 같은 실제 대화 표현
- 한 줄당 한 감정만

Eleven v3 또는 Audio Tags 지원 모델에서는 아래처럼 짧은 태그를 테스트할 수 있다.
단, 태그가 음성으로 읽히면 실패 처리한다.

```text
[warm, casual, slight smile] 아빠, 컴퓨터나 휴대폰에서 업데이트 하라고 뜨면 보통 어떻게 하세요?
[relaxed, honest, conversational] 솔직히? 바쁘면 그냥 나중에 누르지.
[gentle, not scolding] 맞아요. 근데 그 “나중에”가 요즘은 좀 위험할 수 있어요.
[curious] 왜? 업데이트가 그렇게 큰일이야?
[patient, simple explanation] 새 기능 넣는 것만 업데이트가 아니거든요.
[understanding, light chuckle] 아, 그러니까 현관문 잠금장치 고치는 거랑 비슷하네?
[bright, approving] 딱 그거예요.
```

## 샘플 QA 기준

샘플은 아래를 모두 통과해야 한다.

- 딸이 중년 여성 내레이터처럼 들리지 않는다.
- 아버지가 같은 나이대 남성 해설자처럼 들리지 않는다.
- 아버지에게 나이와 따뜻함이 느껴진다.
- 두 사람이 실제로 대화하는 느낌이다.
- 한국어 억양이 너무 기계적이지 않다.
- 대본 자체가 기사 요약문처럼 들리지 않는다.

## 현재 테스트 기록

- ElevenLabs Voice Library Korean 후보 검색은 가능했다.
- Korean shared voice API 사용은 현재 계정에서 `paid_plan_required`로 막혔다.
- Eleven v3 Audio Tags 테스트는 현재 quota 부족으로 완성본 생성이 막혔다.
- 현재 가능한 경로는 premade voice + 충분히 다듬은 대본 + voice settings 샘플이다.