본문 바로가기

Artificial Intelligence/Speech Recognition

(2)
OpenAI - Whisper JAX 수행하기 위한 Anaconda 환경 구성 및 테스트 Whisper란? Whisper는 2022년 9월에 OpenAI에서 공개된 범용 음성 인식 모델(general-purpose speech recognition model)입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 multilingual speech recognition, speech translation, language identification을 수행할 수 있는 multitasking model이기도 합니다. Transformer sequence-to-sequence 모델은 multilingual speech recognition, speech translation, spoken language identification, voice activity detection를 비롯한 var..
DeepSpeech에서 Kspon 데이터셋 학습을 위한 환경 구성 음성 인식은 인공지능 분야에서 중요한 주제 중 하나로, 음성을 텍스트로 변환하는 기술입니다. 이 기술은 음성 명령 인식, 자동 번역, 음성 검색 등 다양한 응용 분야에서 사용되고 있습니다. DeepSpeech의 초기 버전은 2017년에 처음으로 공개되었습니다. 이후 Mozilla는 지속적으로 DeepSpeech를 업데이트하고 개선해왔으며, 커뮤니티의 참여와 기여를 받아 오픈 소스 프로젝트로 발전시켜 왔습니다. 현재는 오래된 코드로 Benchmark로 구성하거나 과거 모델부터 구현하고 공부하기 위한 분들을 위한 환경 세팅을 공유하고자 작성하게 되었습니다. DeepSpeech는 다양한 데이터셋으로 학습할 수 있으며, 이 중 Kspon 데이터셋은 AI-Hub에서 공개된 한국어 음성 인식에 특화된 데이터셋입니다..