-
[ChatGPT] 챗지피티로 음성인식 하는 파이썬 코드 작성 / 강의 요약, 회의록 작성 등 응용인공지능 2024. 6. 8. 19:02반응형
본 게시글에서는 openAI 사용을 위한 가상환경 세팅 등의 내용은 생략한다.
이에 대한 것은 아래 글에서 확인할 수 있다.
https://chocohaim1121.tistory.com/144
Jupyter 및 Conda 환경을 이용했다.
1. Anaconda Prompt를 실행한다.
2. ChatGPT 가상환경을 active 시킨 후 주피터 노트북을 연다.
conda activate 가상환경이름
3. 파이썬에서 OpenAI 사용
AI_key =
문자열의 형태로 key를 넣어주면 된다.
API key는 Chat GPT API를 결제하여야 사용할 수 있다. 그냥 ChatGPT 4 (pro) 결제랑 다른 것으로 알고 있으니, 좀 더 서치해서 구매하기를 바란다.
https://platform.openai.com/playground/chat?models=gpt-4o
이후 버전을 확인한다.
import openai print(openai.__version__)
나는 1.8.0 버전을 사용했다.
from openai import OpenAI client = OpenAI( api_key=AI_key, )
OpenAI 객체에 자신의 api_key를 전달하여 준비를 완료한다.
4. whisper-1 테스트
오디오를 특정 경로에 넣고, open으로 파일 정보를 변수에 저장한다.
이후, 아까 선언한 OpenAI 객체 (해당 게시글에서는 client라 명명함)에서 transcription.create 코드를 작성한다.
model은 whisper-1을 사용하여 음성 인식이 가능한 것으로 선택했다.
audio_file = open("./Audio/Segments/segment_1.mp4", "rb") transcription = client.audio.transcriptions.create( model="whisper-1", file=audio_file ) print(transcription.text)
결과는 아래와 같이 몇 초 뒤에 음성 인식이 된 결과를 확인할 수 있다.
response_format에 따라 몇 초에 그 말을 했는지도 적을 수 있는 등, 다양한 형식이 있다고 하니 참고하면 좋을 것 같다.
5. 사용 금액
0.04$정도 사용했다.
한시간 정도 분량에서 0.35$ 사용하는 것 같다. 480원?? 정도??
5. 응용
음성인식이 정확하지 않을 수 있으므로, 음성인식된 문장을 Chat GPT에 다시 넣어볼 수 있다. 아니면, 시스템 명령을 추가로 넣는 방법이 있다.
나는 모두 그냥 음성인식 한 다음, Chat GPT에게 문장을 다듬어달라고 했다. 물론 이 과정에서 오류가 생길 수 있지만, 자동으로 해준다는 건 큰 장점인 것 같다.
> 회의록 및 강의를 음성인식하고 요약해주는 데에 활용할 수 있을 것 같다.
Reference
https://platform.openai.com/docs/guides/speech-to-text/quickstarthttps://joymaster.tistory.com/entry/ChatGPT-%EC%9D%8C%EC%84%B1-%ED%9A%8C%EC%9D%98%EB%A1%9D-%EB%A7%8C%EB%93%A4%EA%B8%B0-Whisper
반응형'인공지능' 카테고리의 다른 글