태그: Benchmark

Date

무엇인가: 복수 정답을 허용하는 한국어 환각 판별 능력을 평가하기 위한 2,170개 규모의 객관식 벤치마크 데이터셋. 왜 중요한가: 단일 정답 위주의 기존 평가 방식과 달리, 실제 문서에서 발생할 수 있는 여러 환각 문장을 동시에 식별하...

2025.06.01↻ 2026.06.13

개념 노트

무엇인가: OpenAI가 Let’s Verify Step by Step에서 held-out 평가셋으로 사용한 500개의 수학 문제 서브셋. 왜 중요한가: OpenAI의 “Let’s Verify Step by Step” 연구의 핵심 평가...

2026.04.11↻ 2026.05.01

개념 노트

무엇인가: Vision-Language Model(VLM)의 부정(Negation) 이해 능력을 평가하기 위해 이미지, 비디오, 의료 도메인을 아우르는 79K 예제로 구성된 대규모 멀티모달 벤치마크. 왜 중요한가: 최신 VLM들이 부정...

2026.04.02↻ 2026.05.01

개념 노트

무엇인가: 부정 제약 조건(Negative constraints)을 포함하는 복합 쿼리에 대한 정보 검색(IR) 시스템의 성능을 평가하기 위한 벤치마크 데이터셋. 왜 중요한가: 기존 Dense Retriever가 논리적 부정(“A를 찾되...

탐색기