DINHO's Blog
This is a space where I fulfill my infinite dreams
-
A generic non-invasive neuromotor interface for human-computer interaction 리뷰
오늘도 너무 오랜만에 왔습니다. 꾸준함이 중요하다 생각하는데, 스스로 그러지 못 해서 반성하게 되는 요즈음 입니다. 핑계를 대보자면 논문 쓰랴, 국가 과제 프로젝트 실적 채우랴, 교수님이 시키신 일 하랴 블로그는 뒷전으로 두게 되네요… 24년엔 많은 포스팅을 했는데, 25년에는 그러지 못 한 것 같아 많이 아쉽습니다. 오늘은 국가 과제 연구를 하면서 교수님께서...
-
Multi-Scale Sub-band CQT Discriminator리뷰
너무 오랜만에 포스팅입니다. 그 동안 논문 작성, 실험, 새로운 연구 주제 선정 등 많은 일들을 하다보니 시간이 이렇게 흘렀습니다. 그 과정에서 제 모델을 깃허브 에 공개했고, Huggingface에서 연락도 오고, 다른 연구자가 문의도 하고 정말 제가 연구자가 된 것 같은 기분이 들었습니다.😊 그 과정에서 다른 연구자가 제 깃허브를 보고 제안한 방법이...
-
Flow Matching for Generative Modeling 리뷰
오늘은 Flow Matching에 대해서 이야기 해보도록 하겠습니다. 어떤 모델에 대한 논문을 읽을 때는 벽을 느끼진 않았는데, 이 논문을 처음 읽었을 때는 정말 벽을 느꼈습니다.😥 그만큼 수학이 중요하다 생각이 드는 요즘입니다… 그래도 최대한 이야기해보도록 하겠습니다!! Flow Matching for Generative Modeling(Yaron Lipman et al. 2022) 논문에서 나온 내용입니다. 논문의 저자가 직접 논문을...
-
ETTA: Elucidating the Design Space of Text-to-Audio Models리뷰
오늘은 Sang-gil Lee, et al. “ETTA: Elucidating the Design Space of Text-to-Audio Models” 논문을 리뷰하겠습니다. INTRODUCTION Text-to-Audio(TTA)모델의 셜계 공간은 복잡하며, 수많은 상관 관계가 있는 요인이 포함됩니다. 이 논문에서도 설계 공간과 각 요인의 기여도를 이해하려고 시도했지만, 실험 간 결론 도출을 하는 데에는 실패했습니다. 이 논문에서는 TTA 모델을 구축하기 위한 기존 패러다임의...
-
MelFusion 이란?
오늘은 Chowdhury, Sanjoy, et al. “Melfusion: Synthesizing music from image and language cues using diffusion models.” 논문에서 소개한 MelFusion이라는 모델에 대해 이야기해보겠습니다. 이 논문은 탑 티어 컨퍼런스인 CVPR에서 Highlight, Top 2.8%의 엄청난 논문입니다! 한 번 같이 보겠습니다. Introduction, Method, Experiments and Results, Discussion 순서로 이야기하겠습니다. (기존 오디오 및 음악 생성형...