APIEval-20
AI 에이전트가 API 버그를 하나씩 해결하게 만드는 벤치마크입니다.
APIEval-20은 실제 API 테스트에서 AI 에이전트를 평가하기 위한 작업 벤치마크입니다. 7개 도메인에 걸친 20개의 시나리오를 포함하며, 스키마와 페이로드만으로 버그 탐지 능력을 측정하고, Hugging Face에 공개 데이터셋을 제공합니다.
Free

사용 방법 APIEval-20?
APIEval-20은 AI 에이전트가 스키마와 페이로드 정보만을 사용하여 API 버그를 탐지하는 능력을 평가하기 위한 구조화된 벤치마크를 제공합니다. 개발자와 연구자는 이를 사용하여 7개 도메인의 20개 시나리오에서 AI 모델의 성능을 테스트하고, 약점을 식별하며 테스트 자동화를 개선할 수 있습니다.
APIEval-20 의 주요 기능
APIEval-20 의 사용 사례
APIEval-20 자주 묻는 질문
가장 큰 영향을 받는 직업
AI 연구자
소프트웨어 엔지니어
QA 엔지니어
DevOps 엔지니어
데이터 과학자
엔지니어링 매니저
제품 매니저
기술 리드
시스템 아키텍트
보안 분석가