'Developers 공간 [Basic]/Vision & Audio' 카테고리의 글 목록

[Generative] Stable Diffusion 그 이후

이번 글에서는 StabilityAI에서 공개한 SD(Stable Diffusion)이 LDM기반으로 등장한 이후에, 개선된 다양한 모델의 히스토리를 살펴보고자합니다. 이런 다양한 SD들을 활용하기 위해서는 보통 Diffusers라는 라이브러리를 활용해 구현합니다. 따라서 다양한 모델들의 버전별 큰 특징들을 먼저 살펴보고, Diffusers라는 라이브러리를 활용해 구현할 때 성능 개선을 위해 사용하는 다양한 옵션에 대해서도 논문과 함께 살펴보고자 합니다.1. Core Models a. Stable Diffusion 2.0 b. Stable Diffusion XL c. Stable Diffusion 3.0 d. Stable Diffusion Turbo 2. Optional Imp..

2024.06.06

[NLP] GPT 기초 정리

GPT(Generative pre-trained transformers)는 OpenAI에서 개발된 LLM(Large Language Model)입니다. 정확하게는 PLM(Pre-trained LM, PTM)이라고 할 수 있는데, 최근 잘알려진 모델로는 GPT-4, LLaMA2, PaLM2 등이 있습니다. 이 중 GPT-Based의 모델들의 특징은 Decoder 기반으로 설계되었다는 것이고, 이들은 생성 task에 매우 강해 다른 NLP 데이터를 만드는 데에도 쓰이기도 합니다. 또한 이들이 사용하는 데이터는 주로 인터넷에서 크롤링 되었기 때문에, 결과물에 적절하지 않은 언어도 포함되기도 합니다.이들은 아래와 같은 NLP의 다양한 분야에서 뛰어난 성능을 보여줍니다.텍스트 생성(Text Generation..

2024.06.06

[Calibration] Camera와 좌표계 변환 기초

Image Processing, Computer Graphics, Computer Vision은 항상 개념이 헷갈리기도 합니다. 먼저, Image Processing은 2차원 이미지을 가공하는 방법으로 Computer Vision의 일부분이라고 할 수 있습니다. 또한 Computer Graphics는 3차원 공간상의 정보를 2차원으로 rendering하여 보여주는 것을 의미하며, 뒤에서 설명할 Computer Vision의 반대라고 볼 수 있습니다. 마지막으로 Computer Vision는 2차원 및 3차원 이미지에서 다양한 정보 및 3차원 정보를 얻어내는 것을 의미합니다. 이는 말그대로 컴퓨터의 눈을 뇌에서 해석하는 과정을 의미합니다. Computer Vision을 위해서는 Calibration이라는 ..

2022.12.21

[Dataset] Waymo Open Dataset 개요

Waymo Open Dataset : https://waymo.com/open/challenges/ WaymoPaper(Perception) : https://arxiv.org/pdf/1912.04838.pdf, WaymoPaper(Motion) :https://openaccess.thecvf.com/content/ICCV2021/papers/Ettinger_Large_Scale_Interactive_Motion_Forecasting_for_Autonomous_Driving_The_Waymo_ICCV_2021_paper.pdf Waymo datset은 매년 업데이트 되며, 다양한 챌린지가 존재하기 때문에 task마다 metric과 용어가 다르지만 공통되는 부분에 대해 먼저 알아보려고 합니다. 아래는 매년..

2022.12.21

태그

최근글

Developers 공간 [Basic]/Vision & Audio(4)

티스토리툴바