DINHO's Blog

Vision-Language-Action(VLA)란?

오늘은 Vision-Language-Action(VLA) 에 대해서 이야기해보겠습니다. 최근 로보틱스 분야를 공부하다 보면 VLM(Vision-Language Model)과 함께 정말 자주 보이는 단어인데요!! 간단하게 이야기하면 VLA는 보고(Vision), 명령을 이해하고(Language), 실제 행동(Action)까지 생성하는 모델입니다. 이번 포스팅은 Sapkota, Ranjan, et al. “Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges” 논문을 중심으로 정리해보겠습니다. 이 논문은 최근 3년 동안 발표된...

July 2, 2026

in 인공지능-분야-공부, 논문-리뷰

Vision Transformer(ViT)란?

오랜만에 인사드립니다! 현재 Vision Language Model에 공부를 시작하게 되었는데요. VLM의 중요한 내용인 Vision Transformer에 대해 이야기해보겠습니다. 오늘 소개드릴 논문은 Dosovitskiy, Alexey, et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” ICLR 2021. 입니다. 이 논문은 Transformer를 비전 도메인에 직접 적용한 기념비적인 논문으로, 이후 CLIP, BLIP,...

April 23, 2026

in 인공지능-분야-공부, 논문-리뷰

Live Music Models 리뷰

안녕하세요! 오늘은 Google DeepMind의 Lyria Team에서 발표한 “Live Music Models” 논문에 대해 리뷰를 해보겠습니다. 이 논문은 NeurIPS 2025 Creative AI Track에 게재된 논문으로, 실시간 라이브 음악 생성이라는 새로운 패러다임을 제시합니다. Introduction, Method, Experiments, Controllable Generation, Conclusion 순서로 이야기하겠습니다. Introduction 음악의 두 가지 형태 논문은 음악이 두 가지 상보적(complementary) 형태로 존재한다는...

April 9, 2026

in 인공지능-분야-공부, 논문-리뷰

SpeechLM이란?

오랜만에 인사드립니다! 연말 연초에 논문 Rebuttal 쓰랴 과제 제안서 작성하랴 기초전자및회로실험1 조교하랴 바쁘디 바쁜 시간을 보냈습니다. 석사 3학기인 만큼 포트폴리오 정리도 하고, 앞으로의 진로 고민도 하게 되는 요즘입니다. 오늘은 오랜만에 논문 리뷰를 하려 합니다. 오늘 소개드릴 논문은 “Recent Advances in Speech Language Models: A Survey (2025)” Speech LM에 대한 서베이...

March 24, 2026

in 인공지능-분야-공부, 논문-리뷰

RNN Python

오늘은 Python으로 RNN을 복습해볼까 합니다. 인공지능을 공부하는 사람이라면 모를 수가 없는데요. 학부 시절 풀었던 과제를 바탕으로 포스팅하겠습니다. 이 내용은 광운대학교 전기공학과 인공지능응용 수업 과제입니다. 혹시라도 후배님들이 이 글을 보게 된다면 비밀로 하고 과제를 진행해주세요. RNN (Recurrent Neural Network) 설명 1. 핵심 개념 RNN(Recurrent Neural Network)은 순차 데이터(sequence data)를 처리하기 위해...

November 3, 2025

in Python, 딥러닝-기초

« Prev 1 2 3 4 5 6 7 8 9 Next »