DINHO's Blog

A generic non-invasive neuromotor interface for human-computer interaction 리뷰

오늘도 너무 오랜만에 왔습니다. 꾸준함이 중요하다 생각하는데, 스스로 그러지 못 해서 반성하게 되는 요즈음 입니다. 핑계를 대보자면 논문 쓰랴, 국가 과제 프로젝트 실적 채우랴, 교수님이 시키신 일 하랴 블로그는 뒷전으로 두게 되네요… 24년엔 많은 포스팅을 했는데, 25년에는 그러지 못 한 것 같아 많이 아쉽습니다. 오늘은 국가 과제 연구를 하면서 교수님께서...

October 14, 2025

in 인공지능-분야-공부, 논문-리뷰

Multi-Scale Sub-band CQT Discriminator리뷰

너무 오랜만에 포스팅입니다. 그 동안 논문 작성, 실험, 새로운 연구 주제 선정 등 많은 일들을 하다보니 시간이 이렇게 흘렀습니다. 그 과정에서 제 모델을 깃허브 에 공개했고, Huggingface에서 연락도 오고, 다른 연구자가 문의도 하고 정말 제가 연구자가 된 것 같은 기분이 들었습니다.😊 그 과정에서 다른 연구자가 제 깃허브를 보고 제안한 방법이...

July 1, 2025

in 인공지능-분야-공부, 논문-리뷰

Flow Matching for Generative Modeling 리뷰

오늘은 Flow Matching에 대해서 이야기 해보도록 하겠습니다. 어떤 모델에 대한 논문을 읽을 때는 벽을 느끼진 않았는데, 이 논문을 처음 읽었을 때는 정말 벽을 느꼈습니다.😥 그만큼 수학이 중요하다 생각이 드는 요즘입니다… 그래도 최대한 이야기해보도록 하겠습니다!! Flow Matching for Generative Modeling(Yaron Lipman et al. 2022) 논문에서 나온 내용입니다. 논문의 저자가 직접 논문을...

March 26, 2025

in 인공지능-분야-공부, 논문-리뷰

ETTA: Elucidating the Design Space of Text-to-Audio Models리뷰

오늘은 Sang-gil Lee, et al. “ETTA: Elucidating the Design Space of Text-to-Audio Models” 논문을 리뷰하겠습니다. INTRODUCTION Text-to-Audio(TTA)모델의 셜계 공간은 복잡하며, 수많은 상관 관계가 있는 요인이 포함됩니다. 이 논문에서도 설계 공간과 각 요인의 기여도를 이해하려고 시도했지만, 실험 간 결론 도출을 하는 데에는 실패했습니다. 이 논문에서는 TTA 모델을 구축하기 위한 기존 패러다임의...

March 13, 2025

in 인공지능-분야-공부, 논문-리뷰

MelFusion 이란?

오늘은 Chowdhury, Sanjoy, et al. “Melfusion: Synthesizing music from image and language cues using diffusion models.” 논문에서 소개한 MelFusion이라는 모델에 대해 이야기해보겠습니다. 이 논문은 탑 티어 컨퍼런스인 CVPR에서 Highlight, Top 2.8%의 엄청난 논문입니다! 한 번 같이 보겠습니다. Introduction, Method, Experiments and Results, Discussion 순서로 이야기하겠습니다. (기존 오디오 및 음악 생성형...

February 27, 2025

in 인공지능-분야-공부, 논문-리뷰

« Prev 1 2 3 4 5 6 7 8 Next »