AI/GPT
[ GPT ] Text 로 질문하고 G대리가 음성으로 답하는 예제
Soso Dev
2025. 4. 20. 02:36
반응형
gpt-4o-audio-preview를 사용해 질문을 입력하면 오디오로 대답하는 GPT 예제를 만들기 위해서는 다음 요소가 필요합니다:
- OpenAI API (gpt-4o)
- OpenAI TTS API (/v1/audio/speech)
- 간단한 Python 스크립트
- 음성 재생을 위한 라이브러리 (playsound 등)
1. 설치 준비
pip install openai
2. Python 예제 코드
import base64
from openai import OpenAI
client = OpenAI()
completion = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "user",
"content": "How about california for trip?"
}
]
)
print(completion.choices[0])
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
with open("dog.wav", "wb") as f:
f.write(wav_bytes)
3. 예제 사용 방법
- 환경 변수 OPENAI_API_KEY에 API 키를 설정하거나 코드에 직접 넣어도 됩니다.
- 사용된 model은 gpt-4o-audio-preview 입니다.
참고 사항
- gpt-4o-audio-preview는 실제 음성 입출력까지 가능한 기능이지만, 현재 API에서는 **출력 음성(TTS)**만 공개된 상태입니다 (입력은 whisper 사용).
- 향후 Whisper로 음성 인식까지 붙이면 음성 질문 → 음성 답변도 가능합니다.
반응형