AI/GPT

[ GPT ] Text 로 질문하고 G대리가 음성으로 답하는 예제

Soso Dev 2025. 4. 20. 02:36
반응형

 

 

 

gpt-4o-audio-preview를 사용해 질문을 입력하면 오디오로 대답하는 GPT 예제를 만들기 위해서는 다음 요소가 필요합니다:

  1. OpenAI API (gpt-4o)
  2. OpenAI TTS API (/v1/audio/speech)
  3. 간단한 Python 스크립트
  4. 음성 재생을 위한 라이브러리 (playsound 등)

1. 설치 준비

pip install openai

2. Python 예제 코드

import base64
from openai import OpenAI

client = OpenAI()

completion = client.chat.completions.create(
    model="gpt-4o-audio-preview",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "How about california for trip?"
        }
    ]
)

print(completion.choices[0])

wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
with open("dog.wav", "wb") as f:
    f.write(wav_bytes)

3. 예제 사용 방법

  1. 환경 변수 OPENAI_API_KEY에 API 키를 설정하거나 코드에 직접 넣어도 됩니다.
  2. 사용된 model은 gpt-4o-audio-preview 입니다.

참고 사항

  • gpt-4o-audio-preview는 실제 음성 입출력까지 가능한 기능이지만, 현재 API에서는 **출력 음성(TTS)**만 공개된 상태입니다 (입력은 whisper 사용).
  • 향후 Whisper로 음성 인식까지 붙이면 음성 질문 → 음성 답변도 가능합니다.

 

반응형