ASR(2)
-
[Audio] Python 활용해 Audio 및 Text 데이터 Pre-processing
A. 수단- OS/Platform/Tool : Linux, Kubernetes(k8s), Docker, AWS- Package Manager : node.js, yarn, brew, - Compiler/Transpillar : React, Nvcc, gcc/g++, Babel, Flutter- Module Bundler : React, Webpack, ParcelB. 언어- C/C++, python, Javacsript, Typescript, Go-Lang, CUDA, Dart, HTML/CSSC. 라이브러리 및 프레임워크 및 SDK- OpenCV, OpenCL, FastAPI, PyTorch, Tensorflow, Nsight 1. What? (현상)이번 글에서는 Audio 및 Text 데이터를 전처..
2024.01.14 -
[ASR] Listen, Attend and Spell (ICASSP'16)
Paper : https://arxiv.org/pdf/1508.01211.pdfAuthorsLvmin Zhang et al + Google Brain, ICASSP'16Main Idea기존 DNN-HMM 모델과 다르게 (Acoustic Model, Pronunciation Model, Language Model)을 jointly하게 학습가능합니다.기존 CTC와 다르게 단어 간의 indenpendence 가정 없이 학습이 가능합니다.Tasks : ASR(Automatic Speech Recognition)Results : Google Voice Search Tasks 0. Before Start ... a. 용어 정리 b. NLP(Natural Language Processing) c..
2023.11.08