Developers 공간 [SOTA](12)
-
[Generative] Transparent Image Layer Diffusion using Latent Transparency (arxiv'24)
Paper : https://arxiv.org/pdf/2402.17113AuthorsLvmin Zhang et al, Stanford Univ., arxiv’24ControlNet 저자Main Ideapre-trained LDM을 활용해 transparent 이미지를 생성하도록 합니다.Task1. 하나의 transparent 이미지 생성Task2. multiple transparent layers 위 Task2 모델에서는 Shared Attention 메커니즘을 활용해 레이어간의 coherent하도록 학습합니다.HITL collection scheme을 활용해 데이터를 구축했습니다.Tasks : Transparent Image Generation (Unconditional, Conditional)Resu..
2024.05.02 -
[Generative] Align your Latents:High-Resolution Video Synthesis with Latent Diffusion Models (CVPR’23)
Paper : https://openaccess.thecvf.com/content/CVPR2023/html/Blattmann_Align_Your_Latents_High-Resolution_Video_Synthesis_With_Latent_Diffusion_Models_CVPR_2023_paper.htmlAuthorsNvidia + Andreas Blattmann et al, Toronto Univ., CVPR’23 DecMain IdeaLDM을 기반으로 computation & memory 측면에서 효율적인 접근으로 Vido Generation을 했습니다.기존 pre-trained된 image LDM을 활용temporal layer를 image에 align함으로써High Resolution & Long-..
2024.03.08 -
[ASR] Listen, Attend and Spell (ICASSP'16)
Paper : https://arxiv.org/pdf/1508.01211.pdfAuthorsLvmin Zhang et al + Google Brain, ICASSP'16Main Idea기존 DNN-HMM 모델과 다르게 (Acoustic Model, Pronunciation Model, Language Model)을 jointly하게 학습가능합니다.기존 CTC와 다르게 단어 간의 indenpendence 가정 없이 학습이 가능합니다.Tasks : ASR(Automatic Speech Recognition)Results : Google Voice Search Tasks 0. Before Start ... a. 용어 정리 b. NLP(Natural Language Processing) c..
2023.11.08 -
[Generative] DDPM : Denoising Diffusion Probabilistic Models (NIPS'20)
Paper : https://arxiv.org/abs/2006.11239 Authors Jonathan Ho et al, UC Berkeley, NIPS’20 Main Idea 기존 Diffusion 모델이 High Quality Sample을 Generation할 수 있다는 것을 보임. ε-prediction reverse process parametrization 기법을 제안했는데, 기존의 Score-based 모델과 비슷한 면을 보임. 게다가 기존 Energe-based 와 Score-based 모델에 비해 estimate할 것이 많지 않은 장점을 가짐. 대부분의 lossless codelength이 imperceptible한 이미지 표현에 사용된다는 것을 보였으며, lossy compression..
2023.06.20 -
[Multi-Modal Fusion] DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal (CVPR'22)
Paper : https://openaccess.thecvf.com/content/CVPR2022/papers/Li_DeepFusion_Lidar-Camera_Deep_Fusion_for_Multi-Modal_3D_Object_Detection_CVPR_2022_paper.pdf Authors Google + Johns Hopkins Univ, CVPR’22 Main Idea Image와 Lidar간의 correspondence를 향상시킬 수 있는 방법 제시 Tasks : 3D Object Detection Results : Waymo 1. Problem : Mid-Level Fusion과 Point Decoration 기법의 문제점 2. Approach : InverseAug & LearnableAli..
2022.12.26 -
[Multi-Modal Fusion] TransFusion : Robust LiDAR-Camera Fusion for 3D Object Detection with Transformer (CVPR'22)
Paper : https://openaccess.thecvf.com/content/CVPR2022/papers/Bai_TransFusion_Robust_LiDAR-Camera_Fusion_for_3D_Object_Detection_With_Transformers_CVPR_2022_paper.pdf Authors Huawei + Hong Kong Univ, CVPR’22 Main Idea Image와 Lidar간의 hard association을 soft association으로 대체 Tasks : 3D Object Detection Results : Waymo, nuScences (Leaderboard) 1. Problem : LiDAR-Camera fusion의 문제점 2. Approach : Soft..
2022.12.21