4건의 항목

개념 노트

K-HALU

무엇인가: 복수 정답을 허용하는 한국어 환각 판별 능력을 평가하기 위한 2,170개 규모의 객관식 벤치마크 데이터셋. 왜 중요한가: 단일 정답 위주의 기존 평가 방식과 달리, 실제 문서에서 발생할 수 있는 여러 환각 문장을 동시에 식별하...

개념 노트

MATH-500

무엇인가: OpenAI가 Let’s Verify Step by Step에서 held-out 평가셋으로 사용한 500개의 수학 문제 서브셋. 왜 중요한가: OpenAI의 “Let’s Verify Step by Step” 연구의 핵심 평가...

개념 노트

NegBench

무엇인가: Vision-Language Model(VLM)의 부정(Negation) 이해 능력을 평가하기 위해 이미지, 비디오, 의료 도메인을 아우르는 79K 예제로 구성된 대규모 멀티모달 벤치마크. 왜 중요한가: 최신 VLM들이 부정...

개념 노트

NegConstraint

무엇인가: 부정 제약 조건(Negative constraints)을 포함하는 복합 쿼리에 대한 정보 검색(IR) 시스템의 성능을 평가하기 위한 벤치마크 데이터셋. 왜 중요한가: 기존 Dense Retriever가 논리적 부정(“A를 찾되...