Boards

VI Lab

Boards
- Research
- Members
- Publications
- Boards
- Lecture
- Contact
Seminar
- Notice
- Seminar
- Gallery
- Videos

Seminar

SafeAI (1) - 최진우 발표

페이지 정보

작성자 최고관리자 댓글 조회 작성일 26-06-23 14:49

본문

[NeurIPS_2022] Training language models to follow instructions with human feedback
[arXiv_2023] Llama guard: Llm-based input-output safeguard for human-ai conversations
[ICLR_2024] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
[ICLR_2025] Backtracking Improves Generation Safety

요약:

Robotics 못지않게 LLM 분야에서도 safety라는 키워드는 중요한 이슈 중 하나이다.

해당 발표에서는 LLM에서 안전한 답변을 생성하기 위해 어떠한 연구가 진행되었는지를 살펴보고 이를 robotics로의 확장시킬 수 있는지에 대한 논의를 진행하였다.

단순히 다음 토큰 예측 방식으로만 학습하였던 이전 LLM 모델을 RL을 활용하여 사람의 요청에 잘 따르는 동시에 안전한 답변을 할수 있도록 fine-tuning하는 방식에 대해 다루었다.

또한, 실제 서비스 단계에서 모델 자체 외에 별도의 안전 장치를 둬서 답변에 대한 필터링 역할을 하는 방법에 대한 설명과 함께,

최근 LLM에서 safety에 대한 연구 중 robotics에 접목시킬수 있을 논문들을 소개하였다.

첨부파일

최진우_세미나_260609.pptx (8.2M) 0회 다운로드 | DATE : 2026-06-23 14:49:41

목록

이전글SafeAI (2) - 강명신 발표 26.06.23
다음글Why Far Looks Up: Probing Spatial Representation in Vision-Language Models - 권흥찬 발표 26.06.23

댓글목록

등록된 댓글이 없습니다.