AI EXPO KOREA 2026
행사 개요
AI EXPO KOREA 2026에서 진행되는 KAIST AI 기술 설명회에 여러분을 진심으로 초대합니다. 이번 설명회는 KAIST가 선도하고 있는 주요 AI 연구 성과와, 이를 실제 산업 현장으로 확장하는 최신 기술 흐름을 한자리에서 소개하는 뜻깊은 자리입니다. 초청강연과 기술세션을 통해 멀티모달 AI, 신뢰가능한 AI, 모델 해석성, 의료 AI, 데이터 합성, 컴퓨터 비전, 피지컬 AI 등 다양한 분야의 첨단 인공지능 기술을 폭넓게 만나보실 수 있습니다. 또한 연구 현장에서 축적된 혁신적인 아이디어와 실제 응용 사례를 함께 살펴보며, AI 기술의 현재와 미래를 보다 생생하게 이해하실 수 있습니다. AI 연구자, 산업계 관계자, 학생, 그리고 인공지능 기술과 산업 동향에 관심 있는 모든 분들께 유익한 교류와 통찰의 시간이 될 것입니다. KAIST AI 기술 설명회에서 미래를 이끄는 인공지능의 새로운 가능성을 함께 확인하시고, 많은 관심과 참석 부탁드립니다.
초청 강연
상세 정보 보기
신진우 교수
KAIST 김재철AI대학원 교수
멀티모달 디퓨전 기반 로봇 파운데이션 모델
Multimodal Diffusion-based Robot Foundataion Model
자세히 보기
오성준 교수
Seong Joon Oh, KAIST 김재철AI대학원 부교수
AI - 이제 개인의 영역으로
Deploying General AI in the Private World
발표자료 다운로드 자세히 보기
노병석 리더
(주)카카오 Unified Foundation Model 스튜디오 리더
Kanana-o: 눈으로 보고, 귀로 듣고, 입으로 말하는 AI
Kanana-o: The Journey to an Omnimodal AI That Sees, Hears, and Speaks
발표자료 다운로드 자세히 보기프로그램
전체 일정
| 시간 | 주제 | 강연 제목 | 연사 | 연구책임자 | 소속 |
|---|---|---|---|---|---|
| 10:00-10:05 | 환영사 | 환영사 | - | 최재식 교수/센터장 (KAIST 성남연구센터) |
- |
| 10:05-10:45 | 초청강연 | 멀티모달 디퓨전 기반 로봇 파운데이션 모델 (Multimodal Diffusion-based Robot Foundataion Model) |
- | 신진우 교수 | KAIST AI |
| 10:45-11:25 | AI - 이제 개인의 영역으로 (Deploying General AI in the Private World) |
- | 오성준 교수 | ||
| 11:25-12:05 | Kanana-o: 눈으로 보고, 귀로 듣고, 입으로 말하는 AI (Kanana-o: The Journey to an Omnimodal AI That Sees, Hears, and Speaks) |
- | 노병석 리더 | (주)카카오 | |
| 12:05-13:40 | 점심 시간 | ||||
| 13:40-13:50 | 개회 | 개회사 | - | 정송 원장 (KAIST 김재철AI대학원) |
KAIST AI |
| 13:50-14:10 | 기술세션I: AI신뢰성, 모델 해석성, 의료AI, 데이터합성 |
신뢰가능한 AI (Trustworthy AI) |
오성준 교수 | 오성준 교수 | KAIST AI |
| 14:10-14:30 | 모델 뉴런의 해석: 컨셉 이해부터 컨셉 회로 분석까지 (Interpreting Neurons: From Understanding Concepts to Granular Concept Circuits) |
이세현 연구원 | 최재식 교수 | ||
| 14:30-14:50 | PatientSim: 현실적인 의사-환자 상호작용을 위한 페르소나 기반 환자 시뮬레이터 (PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions) |
경다은 연구원 | 최윤재 교수 | ||
| 14:50-15:10 | 대형언어모델의 도메인 특화를 위한 합성 데이터 생성 기술 (PANGEA: projection-based augmentation with non-relevant general data for enhanced domain adaptation in LLMs) |
이승유 연구원 | 이주호 교수 | ||
| 15:10-15:30 | 휴식 시간 | ||||
| 15:30-15:50 | 기술세션II: 컴퓨터비전, 피지컬AI |
월드 모델 기반 행동 생성 (Action Generation via World Models) |
이경민 연구원 | 신진우 교수 | KAIST AI |
| 15:50-16:10 | 효율적 3차원/4차원 표현 기법 (Compact 3D/4D Scene Representation) |
안홍규 연구원 | 김승룡 교수 | ||
| 16:10-16:30 | 효율적인 조건부 디퓨전 샘플링을 통한 이미지 복원 및 편집 (Efficient Conditional Diffusion Sampling for Image Reconstruction and Editing) |
김정솔 연구원 | 예종철 교수 | ||
| 16:30-16:50 | 최신 영상 합성 및 Physical AI 기술 소개 (Recent Techniques in Image/Video Synthesis and Physical AI) |
박민호 연구원 | 주재걸 교수 | ||
| 16:50-17:00 | 폐회 | 폐회사 | |||
기술 세션
연사: 오성준 교수
연구책임자: 오성준 교수 KAIST
신뢰가능한 AI
Trustworthy AI
범용 AI는 놀라운 성능을 달성했지만, 실제 민간 환경에서의 배포에는 여전히 어려움이 있다. 본 발표에서는 배포를 가로막는 세 가지 장벽을 살펴본다. - 인간→기계 소통. 인간의 의도를 AI에 전달하는 것은 여전히 어렵다. 모듈화와 에이전트 기반 아키텍처가 유망한 해법을 제시한다. - 기계→인간 소통. 사용자는 AI의 판단을 이해할 수 있어야 하며, 이는 설명 가능한 AI 및 학습 데이터 귀속 연구로 이어지고 있다. - 프라이버시 및 보안. 개인정보 유출, 적대적 공격, 멤버십 추론 위험이 민감 도메인에서의 배포를 제약하며, 규제 준수가 추가적인 부담이 된다. 본 발표에서는 이러한 과제에 대한 최근 연구를 소개하고, 모델 확장에서 적응·개인화·에이전트 기반 인터페이스로의 전환을 논의한다. 마지막으로, 50년 전 소프트웨어 공학이 코드와 데이터를 분리했듯, AI에서 지식과 지능을 분리하는 새로운 방향을 제안한다.
General-purpose AI has achieved remarkable capabilities but struggles in real-world private settings. This talk examines three barriers to deployment. - Human-to-machine communication. Encoding human intent into AI remains hard. Modularity and agentic architectures offer promising solutions. - Machine-to-human communication. Users must understand AI decisions, driving research in explainable AI and training data attribution. - Privacy and security. PII leakage, adversarial attacks, and membership inference risks block deployment in sensitive domains. Regulatory compliance adds further constraints. I present our recent work on these challenges and discuss future directions - from model scaling toward adaptation, personalisation, and agent-based interfaces. I conclude with a new direction: separating knowledge from intelligence in AI, mirroring how software engineering decoupled code from data 50 years ago.
발표자료 다운로드연사: 이세현 박사과정
연구책임자: 최재식 교수 KAIST
모델 뉴런의 해석: 컨셉 이해부터 컨셉 회로 분석까지
Interpreting Neurons: From Understanding Concepts to Granular Concept Circuits
뛰어난 성능을 자랑하는 딥러닝 및 비전 모델들은 여전히 내부의 의사결정 과정을 직관적으로 파악하기 어려운 블랙박스 구조로 이루어져 있습니다. 본 발표에서는 이러한 한계를 극복하기 위해 모델 내부의 개별 뉴런이 어떠한 시각적·의미적 '컨셉(concept)'을 학습하고 표상하는지 해석하는 방법론을 살펴봅니다. 구체적으로, 단일 뉴런 단위에서 핵심 컨셉을 시각화하는 기법을 소개하며 이러한 개별 컨셉들이 어떻게 유기적인 연결망을 형성하여 모델의 최종 예측을 유도하는지 분석한 'Granular concept circuit' 연구 방법을 소개함으로써 딥러닝 모델의 정보 처리 과정을 보다 세밀한 계산 회로(circuit) 관점에서 이해할 수 있도록 돕습니다.
Despite their high performance, deep learning and vision models remain opaque black boxes. This presentation explores how individual neurons learn and represent visual and semantic "concepts." We introduce techniques for visualizing these core concepts at the single-neuron level and explore the "Granular concept circuit" methodology. By analyzing how these concepts form networks to drive predictions, we aim to provide a fine-grained, circuit-level understanding of model information processing.
발표자료 다운로드연사: 경다은 석박통합과정
연구책임자: 최윤재 교수 KAIST
PatientSim: 현실적인 의사-환자 상호작용을 위한 페르소나 기반 환자 시뮬레이터
PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions
대규모 언어 모델(LLM)은 싱글 턴 의료 질의응답 벤치마크에서 전문가를 능가하는 결과를 달성하고 있지만, 실제 임상 현장의 다중 턴(multi-turn) 환자 상담에서는 환자의 다양한 성격과 의사소통 특성을 충분히 반영하지 못한 채 평가가 이루어지는 한계를 안고 있습니다. 본 발표에서는 이러한 한계를 극복하기 위해 실제 임상 데이터(MIMIC-IV, MIMIC-ED)에 기반하여 현실적이고 다양한 환자 페르소나(persona)를 모사하는 환자 시뮬레이터인 'PatientSim'을 소개합니다. 이 프레임워크는 성격·언어 능숙도·병력 회상 수준·인지 혼란 수준이라는 네 가지 축을 중심으로 37개의 고유한 페르소나를 정의하고 8개의 LLM을 사실 정확도와 페르소나 일관성 측면에서 평가하여, 다양한 환자 상황을 아우르는 의료 대화 시스템 평가 및 의학 교육 도구로서의 가능성을 보여줍니다.
While Large Language Models (LLMs) surpass human experts on single-turn medical question-answering benchmarks, they fall short in real-world clinical settings, where multi-turn consultations must reflect the diverse personalities and communication styles of actual patients. In this presentation, we introduce 'PatientSim', a patient simulator that generates realistic and diverse patient personas grounded in real-world clinical data (MIMIC-IV, MIMIC-ED). By defining 37 unique personas across four key axes—personality, language proficiency, medical history recall level, and cognitive confusion level—the framework demonstrates its potential as both an evaluation framework for medical dialogue systems and an educational tool for healthcare.
발표자료 다운로드연사: 이승유 박사과정
연구책임자: 이주호 교수 KAIST
대형언어모델의 도메인 특화를 위한 합성 데이터 생성 기술
PANGEA: projection-based augmentation with non-relevant general data for enhanced domain adaptation in LLMs
기존의 LLM 데이터 증강 기법이 가진 다양성 부족이라는 한계를 극복하기 위해 제안된 PANGEA 프레임워크는, 목표 도메인과 전혀 무관한 방대한 '일반 목적 데이터'의 구조적 다양성을 추출하여 소수의 '도메인 데이터'에 투영(Projection)하는 독창적인 방식을 사용합니다. 이 완전 자동화된 프로세스는 추가적인 라벨링 비용 없이도 복잡하고 다채로운 도메인 특화 합성 데이터를 생성해 내며, 결과적으로 의료(MedQA), 금융(FinQA), 수학(GSM8K) 등의 주요 벤치마크와 인간 선호도 평가에서 기존 기법들을 뛰어넘는 압도적인 모델 성능 향상을 입증했습니다.
To overcome the lack of diversity in existing LLM data augmentation methods, the PANGEA framework introduces a novel approach that extracts the vast structural diversity from non-relevant, general-purpose data and projects it onto a small set of target domain seeds. This fully automated process generates highly complex and diverse domain-specific synthetic data without incurring any additional human annotation costs, ultimately achieving significant performance improvements over existing baselines across rigorous domain benchmarks like MedQA, FinQA, and GSM8K, as well as in human preference studies.
발표자료 다운로드연사: 이경민 석박통합과정
연구책임자: 신진우 교수 KAIST
월드 모델 기반 행동 생성
Action Generation via World Models
본 발표에서는 월드 모델링을 결합한 비전-언어-행동(VLA) 모델 학습의 최근 연구를 소개합니다. 먼저, 미래 상태 예측 목적과 멀티모달 액션 전문가를 도입함으로써 기존 VLM 기반 VLA 모델(예: GR00T-N1)의 성능을 어떻게 향상시킬 수 있는지 보여줍니다. 이어서, 사전학습된 비디오 확산 모델을 액션 생성의 백본으로 활용하는 보다 통합적인 접근을 탐구하며, 이를 월드-액션 모델(WAM)이라 정의합니다. 이 프레임워크는 환경 동역학과 제어를 하나의 생성 모델 내에서 공동으로 학습할 수 있도록 합니다.
This talk presents recent progress in training vision-language-action (VLA) models augmented with world modeling. We first show how incorporating world modeling improves conventional VLM-based VLA systems (e.g., GR00T-N1) by introducing future state prediction objectives and multi-modal action experts. We then explore a more unified formulation that leverages pretrained video diffusion models as the backbone for action generation, which we refer to as a World-Action Model (WAM), enabling joint modeling of environment dynamics and control within a single generative framework.
발표자료 다운로드연사: 안홍규 석박통합과정
연구책임자: 김승룡 교수 KAIST
효율적 3차원/4차원 표현 기법
Compact 3D/4D Scene Representation
기존 방법들은 3D Gaussian blob을 사용하여 3D 및 4D 장면을 표현하지만, 방대하고 중복된 Gaussian을 생성하여 높은 메모리 오버헤드를 초래합니다. 저희는 이를 기하학적으로 의미 있는 위치에만 Gaussian을 배치하는 compact한 learnable token 집합으로 대체하였습니다. 구체적으로, 이 token들은 self-attention을 통해 multi-view feature를 집약하여 기하학적으로 중요한 영역에 집중하며 — 동적인 4D 장면의 경우, token이 추가적으로 timestamp를 조건으로 하여 시간적으로 일관된 모션 모델링을 가능하게 하여 3차원 공간을 더욱 효율적으로 표현 할 수 있게 됩니다.
Existing methods represent 3D and 4D scenes using 3D Gaussian blobs, but generate massive redundant Gaussians, resulting in high memory overhead. We replace these with a compact set of learnable tokens that place Gaussians only at geometrically meaningful locations. Specifically, the tokens aggregate multi-view features through self-attention to focus on geometrically important regions — and for dynamic 4D scenes, the tokens are additionally conditioned on timestamps to enable temporally coherent motion modeling.
발표자료 다운로드연사: 김정솔 박사과정
연구책임자: 예종철 교수 KAIST
효율적인 조건부 디퓨전 샘플링을 통한 이미지 복원 및 편집
Efficient Conditional Diffusion Sampling for Image Reconstruction and Editing
사전 학습된 디퓨전 모델을 활용하여 추가 학습 없이 다양한 문제를 해결하는 프레임워크를 소개합니다. 특히, 역문제와 이미지 편집을 조건부 샘플링 관점에서 해석하고, 디퓨전 모델의 생성 과정에 적절한 guidance를 적용함으로써 조건을 만족하는 샘플을 생성할 수 있음을 보입니다. 이러한 guidance는 임의로 설계되는 것이 아니라, 각 문제의 목적에 맞는 최적화 문제를 통해 이론적으로 유도될 수 있습니다. 본 발표에서는 관련 주요 논문들을 바탕으로 이러한 접근법의 구체적인 예시를 소개합니다.
This talk presents a framework for solving diverse problems using pre-trained diffusion models without additional training. We interpret inverse problems and image editing as conditional sampling, and show that solutions can be obtained by applying principled guidance to the generative process of unconditional diffusion models. Rather than relying on heuristics, such guidance is derived from task-specific optimization formulations. We illustrate this approach through representative examples from recent literature.
발표자료 다운로드연사: 박민호 박사과정
연구책임자: 주재걸 교수 KAIST
최신 영상 합성 및 Physical AI 기술 소개
Recent Techniques in Image/Video Synthesis and Physical AI
본 발표에서는 카메라 시점 변환, 물체 삽입, 360도 영상 생성 등 다양한 최신 이미지·동영상 합성 기법을 소개합니다. 특히 사전 학습된 대규모 디퓨전 기반 영상 생성 모델을 활용하는 방법론들을 중심으로 다루며, 이러한 합성 기술이 로봇 조작, 자율 주행 등 Physical AI의 고도화를 위한 합성 데이터셋 생성 연구로 확장되는 사례를 함께 소개합니다.
This talk presents recent advances in image and video synthesis, including camera viewpoint transformation, object insertion, and 360-degree video generation. We focus on methodologies that leverage pretrained large-scale diffusion-based video generative models, and illustrate how these synthesis techniques can be extended to synthetic dataset generation for advancing Physical AI, such as robotic manipulation and autonomous driving.
발표자료 다운로드포스터
문의
행사 관련 문의는 담당자에게 연락해주시기 바랍니다.
이메일: 서아람 (aramseo@kaist.ac.kr)