SafeAI (1) - 최진우 발표
페이지 정보
작성자 최고관리자 댓글 조회 작성일 26-06-23 14:49본문
- [NeurIPS_2022] Training language models to follow instructions with human feedback
- [arXiv_2023] Llama guard: Llm-based input-output safeguard for human-ai conversations
- [ICLR_2024] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
- [ICLR_2025] Backtracking Improves Generation Safety
요약:
Robotics 못지않게 LLM 분야에서도 safety라는 키워드는 중요한 이슈 중 하나이다.
해당 발표에서는 LLM에서 안전한 답변을 생성하기 위해 어떠한 연구가 진행되었는지를 살펴보고 이를 robotics로의 확장시킬 수 있는지에 대한 논의를 진행하였다.
단순히 다음 토큰 예측 방식으로만 학습하였던 이전 LLM 모델을 RL을 활용하여 사람의 요청에 잘 따르는 동시에 안전한 답변을 할수 있도록 fine-tuning하는 방식에 대해 다루었다.
또한, 실제 서비스 단계에서 모델 자체 외에 별도의 안전 장치를 둬서 답변에 대한 필터링 역할을 하는 방법에 대한 설명과 함께,
최근 LLM에서 safety에 대한 연구 중 robotics에 접목시킬수 있을 논문들을 소개하였다.
첨부파일
- 최진우_세미나_260609.pptx (8.2M) 0회 다운로드 | DATE : 2026-06-23 14:49:41
댓글목록
등록된 댓글이 없습니다.
