본문 바로가기

Artificial Intelligence

(21)

ChatGPT 사용시 프롬프트 엔지니어링 7요소 프롬프트 엔지니어링 7요소효과적인 프롬프트를 작성하기 위해 알아두면 좋은 7가지 요소가 있습니다. 하지만 상황에 따라 이 중 일부만 선택해도 충분합니다. Objective우선 AI에게 원하는 바를 명확하게 전달하는 것이 중요합니다. 서술어를 활용해 구체적으로 지시하는 거죠. "분석해줘", "요약해줘"와 같은 서술어 선택에 따라 결과물이 달라질 수 있습니다.서술어가 많아지면 그만큼 AI의 동작도 복잡해지니, 단계별로 절차를 설명하는 것도 좋은 방법입니다. 원하는 아웃풋 형식(포맷)을 미리 지정해주는 것도 도움이 됩니다. Context두번째로 중요한 건 배경 정보와 제약 사항 등 콘텍스트를 제공하는 일입니다. 하지만 너무 장황할 필요는 없습니다. 핵심만 간결하게 전달하는 게 포인트입니다.결과물에 직접적으로 ..

Insanely Fast Whisper 리뷰 https://github.com/Vaibhavs10/insanely-fast-whisper?tab=readme-ov-file GitHub - Vaibhavs10/insanely-fast-whisperContribute to Vaibhavs10/insanely-fast-whisper development by creating an account on GitHub.github.com Optimisation typeTime to Transcribe (150 mins of Audio) 추후 작성하기

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness FlashAttention: Fast and Memory-Efficient Exact Attention with IO-AwarenessTri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher RéPaper: https://arxiv.org/abs/2205.14135 추후 작성하기

A Visual Guide to Vision Transformers https://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transformer.html A Visual Guide to Vision Transformers | MDTURPA Visual Guide to Vision Transformers This is a visual guide to Vision Transformers (ViTs), a class of deep learning models that have achieved state-of-the-art performance on image classification tasks. Vision Transformers apply the transformer architecturblog.mdturp.ch 일..

이미지 화질 개선 AI 기술 삼성전자 딥러닝 기반 화질 개선 AI 기술 정리 S/W AI-ISP(Image Signal Processor) 출처 : https://r1.community.samsung.com/t5/camcyclopedia/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EA%B8%B0%EB%B0%98-%ED%99%94%EC%A7%88-%EA%B0%9C%EC%84%A0-ai-%EA%B8%B0%EC%88%A0/ba-p/20184604 딥러닝 기반 화질 개선 AI 기술 박상욱김종현 목차 1. 딥러닝 기반 화질 개선 AI 기술 개념 2. 저조도 화질 개선 AI 모델 : AI Nightography 3. 고화소 AI 영상 처리 알고리즘 : AI High-Resolution 딥러닝 기반 화질 개선 AI 기술 개념 딥러닝 r..

OpenAI - Whisper JAX 수행하기 위한 Anaconda 환경 구성 및 테스트 Whisper란? Whisper는 2022년 9월에 OpenAI에서 공개된 범용 음성 인식 모델(general-purpose speech recognition model)입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 multilingual speech recognition, speech translation, language identification을 수행할 수 있는 multitasking model이기도 합니다. Transformer sequence-to-sequence 모델은 multilingual speech recognition, speech translation, spoken language identification, voice activity detection를 비롯한 var..

DeepSpeech에서 Kspon 데이터셋 학습을 위한 환경 구성 음성 인식은 인공지능 분야에서 중요한 주제 중 하나로, 음성을 텍스트로 변환하는 기술입니다. 이 기술은 음성 명령 인식, 자동 번역, 음성 검색 등 다양한 응용 분야에서 사용되고 있습니다. DeepSpeech의 초기 버전은 2017년에 처음으로 공개되었습니다. 이후 Mozilla는 지속적으로 DeepSpeech를 업데이트하고 개선해왔으며, 커뮤니티의 참여와 기여를 받아 오픈 소스 프로젝트로 발전시켜 왔습니다. 현재는 오래된 코드로 Benchmark로 구성하거나 과거 모델부터 구현하고 공부하기 위한 분들을 위한 환경 세팅을 공유하고자 작성하게 되었습니다. DeepSpeech는 다양한 데이터셋으로 학습할 수 있으며, 이 중 Kspon 데이터셋은 AI-Hub에서 공개된 한국어 음성 인식에 특화된 데이터셋입니다..

GAN(Generative adversarial network) 이란? 1.1 GAN이란? GAN(Generative adversarial network) 동시에 두 개의 모델을 훈련하는 머신러닝의 한 종류 Generator는 가짜 데이터를 생성하도록 훈련 Discriminator는 실제 샘플과 가짜 샘플을 구분하도록 훈련 Generative(생성적) : 모델의 목적 - 새로운 데이터를 생성 Adversarial(적대적) : generator와 discriminator 사이의 경쟁 구도를 나타냄 1.2 GAN의 동작방식 Generator의 목표는 훈련 데이터와 구별이 안 될 정도로 훈련 데이터셋의 특징이 잘 나타난 샘플을 생성하는 것 Generator의 입력 값은 랜덤한 숫자로 구성된 벡터 생성자는 판별자의 분류 결과에서 피드백을 받아 학습 Discriminator의 목표는..

이전 1 2 3 다음

티스토리툴바