• ETTA: Elucidating the Design Space of Text-to-Audio Models리뷰

    오늘은 Sang-gil Lee, et al. “ETTA: Elucidating the Design Space of Text-to-Audio Models” 논문을 리뷰하겠습니다. INTRODUCTION Text-to-Audio(TTA)모델의 셜계 공간은 복잡하며, 수많은 상관 관계가 있는 요인이 포함됩니다. 이 논문에서도 설계 공간과 각 요인의 기여도를 이해하려고 시도했지만, 실험 간 결론 도출을 하는 데에는 실패했습니다. 이 논문에서는 TTA 모델을 구축하기 위한 기존 패러다임의...


  • MelFusion 이란?

    오늘은 Chowdhury, Sanjoy, et al. “Melfusion: Synthesizing music from image and language cues using diffusion models.” 논문에서 소개한 MelFusion이라는 모델에 대해 이야기해보겠습니다. 이 논문은 탑 티어 컨퍼런스인 CVPR에서 Highlight, Top 2.8%의 엄청난 논문입니다! 한 번 같이 보겠습니다. Introduction, Method, Experiments and Results, Discussion 순서로 이야기하겠습니다. (기존 오디오 및 음악 생성형...


  • FLUX that Plays Music리뷰

    오늘은 Fei, Zhengcong, et al. “Flux that plays music.”(2024) 논문 리뷰를 해보겠습니다. 바로 시작해보겠습니다. Introduction Text-to-Music은 주로 언어 모델 또는 확산(Diffusion) 모델을 활용합니다. 대표적으로 MusicLM, MusicGen, AudioLDM 등이 있습니다. (첨언: 여기서 이야기 하는 언어모델은 Transformer입니다!! Transformer는 언어모델에서 출발했지만 여러 분야에 사용됩니다.) 확산 모델은 고차원 데이터를 효과적으로 모델링하여 음악 생성에 강력한...


  • 딥러닝 소개 2

    제가 여름 방학 때 공부하면서 딥러닝에 대한 포스팅을 하기 위해 딥러닝 소개 를 포스팅했었는데요. 그 뒤로 공부만 하고 포스팅을 하지 못 했습니다…😅😥 이모저모 바쁘게 8월을 보내고 바로 학기가 시작하는 바람에 이렇게 되어 버렸네요… 이번 겨울 방학에는 무조건 이 시리즈를 마무리하겠습니다.🤩🤩(☞゚ヮ゚)☞(。・∀・)ノ 그럼 지난 포스트에 이어서 딥러닝 소개 2탄 시작하겠습니다. Building Neural...


  • Docker (Comparing with Conda)

    오늘은 Docker에 대해서 이야기해보도록 하겠습니다. 저는 기존에 Conda 가상환경을 사용헀었는데요, 비슷한 듯 다른 두 개념을 비교하면서 이야기해보겠습니다. What is Docker? Docker는 컨테이너 기술을 사용하여 애플리케이션을 격리된 환경에서 실행하고 배포할 수 있는 플랫폼입니다. 이를 통해 개발자와 운영자는 동일한 환경에서 애플리케이션을 실행할 수 있어서 한 번 빌드하고 어디서든 실행 이라는 철학을 실현할...