distributed(2)
-
[PyTorch] PyTorch Lightning 그리고 Distributed Computing
PyTorch Lightning은 PyTorch 코드를 구조화하고 간결하게 만들어주는 라이브러리로, 모델 학습 & 검증을 관리하기 쉽게 해줍니다. 이번 글에서는 PyTorch Lightning을 사용하는 방법과 Multi-Node를 포함한 Distributed Computing 방법들을 살펴보려고합니다. 그리고 마지막엔 PyTorch Lightning을 Multi-node distributed computing을 위해 사용하는 과정을 간단히 보이겠습니다.1. PyTorch Lightning2. Distributed Computing a. 다양한 Distributed Computing b. Multi Node Setting c. Horovod d. OpenMPI e...
2024.08.17 -
[PyTorch] DDP(Distributed Data Parallel) 셋팅하기
이번엔 Distributed 병렬 처리를 pytorch를 활용해 구현하는 방법에 대해 다뤄보고자 합니다.먼저 용어에 대해서 확실히 정리하고 나가자면 아래와 같습니다.Concurrent Computing (동시) : single 코어 혹은 multi 코어 에서 "동시에 처리되는 것으로 보이는 것"으로, hardware 구조로 인한 것이라기보다 software 구조로 인한 논리적 연산입니다. Parallel보다는 조금더 general한 개념입니다.Parallel Computing (병렬) : multi 코어에서 "동시에 처리되는 것"으로 hardware 구조에 의한 물리적 연산입니다.Distributed Computing (분산) : Link로 연결된 여러 개의 노드 혹은 프로세서에서 message pass..
2022.12.27