본문 바로가기

Artificial Intelligence

(19)
A Visual Guide to Vision Transformers https://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transformer.html A Visual Guide to Vision Transformers | MDTURPA Visual Guide to Vision Transformers This is a visual guide to Vision Transformers (ViTs), a class of deep learning models that have achieved state-of-the-art performance on image classification tasks. Vision Transformers apply the transformer architecturblog.mdturp.ch
이미지 화질 개선 AI 기술 삼성전자 딥러닝 기반 화질 개선 AI 기술 정리 S/W AI-ISP(Image Signal Processor) 출처 : https://r1.community.samsung.com/t5/camcyclopedia/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EA%B8%B0%EB%B0%98-%ED%99%94%EC%A7%88-%EA%B0%9C%EC%84%A0-ai-%EA%B8%B0%EC%88%A0/ba-p/20184604 딥러닝 기반 화질 개선 AI 기술 박상욱김종현 목차 1. 딥러닝 기반 화질 개선 AI 기술 개념 2. 저조도 화질 개선 AI 모델 : AI Nightography 3. 고화소 AI 영상 처리 알고리즘 : AI High-Resolution 딥러닝 기반 화질 개선 AI 기술 개념 딥러닝 r..
OpenAI - Whisper JAX 수행하기 위한 Anaconda 환경 구성 및 테스트 Whisper란? Whisper는 2022년 9월에 OpenAI에서 공개된 범용 음성 인식 모델(general-purpose speech recognition model)입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 multilingual speech recognition, speech translation, language identification을 수행할 수 있는 multitasking model이기도 합니다. Transformer sequence-to-sequence 모델은 multilingual speech recognition, speech translation, spoken language identification, voice activity detection를 비롯한 var..
DeepSpeech에서 Kspon 데이터셋 학습을 위한 환경 구성 음성 인식은 인공지능 분야에서 중요한 주제 중 하나로, 음성을 텍스트로 변환하는 기술입니다. 이 기술은 음성 명령 인식, 자동 번역, 음성 검색 등 다양한 응용 분야에서 사용되고 있습니다. DeepSpeech의 초기 버전은 2017년에 처음으로 공개되었습니다. 이후 Mozilla는 지속적으로 DeepSpeech를 업데이트하고 개선해왔으며, 커뮤니티의 참여와 기여를 받아 오픈 소스 프로젝트로 발전시켜 왔습니다. 현재는 오래된 코드로 Benchmark로 구성하거나 과거 모델부터 구현하고 공부하기 위한 분들을 위한 환경 세팅을 공유하고자 작성하게 되었습니다. DeepSpeech는 다양한 데이터셋으로 학습할 수 있으며, 이 중 Kspon 데이터셋은 AI-Hub에서 공개된 한국어 음성 인식에 특화된 데이터셋입니다..
GAN(Generative adversarial network) 이란? 1.1 GAN이란? GAN(Generative adversarial network) 동시에 두 개의 모델을 훈련하는 머신러닝의 한 종류 Generator는 가짜 데이터를 생성하도록 훈련 Discriminator는 실제 샘플과 가짜 샘플을 구분하도록 훈련 Generative(생성적) : 모델의 목적 - 새로운 데이터를 생성 Adversarial(적대적) : generator와 discriminator 사이의 경쟁 구도를 나타냄 1.2 GAN의 동작방식 Generator의 목표는 훈련 데이터와 구별이 안 될 정도로 훈련 데이터셋의 특징이 잘 나타난 샘플을 생성하는 것 Generator의 입력 값은 랜덤한 숫자로 구성된 벡터 생성자는 판별자의 분류 결과에서 피드백을 받아 학습 Discriminator의 목표는..
Top 10 Performance Tuning Practices for Pytorch https://medium.com/naver-shopping-dev/top-10-performance-tuning-practices-for-pytorch-e6c510152f76 Top 10 Performance Tuning Practices for Pytorch Pytorch 모델의 학습 및 추론을 가속화 할 수 있는 10가지 팁을 공유드립니다. 코드 몇 줄만 바꿈으로써 속도를 개선하고 모델의 품질 또한 유지할 수 있습니다. medium.com
CVPR 2022 Tutorial on Neural Fields in Computer Vision https://www.youtube.com/watch?v=PeRRp1cFuH4 Website: https://neuralfields.cs.brown.edu/cvpr22 Slides: https://drive.google.com/drive/folder... Community Website Features (https://neuralfields.cs.brown.edu) Neural Fielder Slack Community (Join Link: https://join.slack.com/t/neuralfields...) Neural Field Techniques: 00:35:38 - Architectures (Techniques) 00:52:35 - Hybrid Representations (Technique..
ImageNet Dataset 압축해제 및 처리 방법 ImageNet Dataset 압축해제 및 처리 방법 #!/bin/bash # # script to extract ImageNet dataset # ILSVRC2012_img_train.tar (about 138 GB) # ILSVRC2012_img_val.tar (about 6.3 GB) # make sure ILSVRC2012_img_train.tar & ILSVRC2012_img_val.tar in your current directory # # https://github.com/facebook/fb.resnet.torch/blob/master/INSTALL.md # # train/ # ├── n01440764 # │ ├── n01440764_10026.JPEG # │ ├── n01440764_10..