APIEval-20
AIエージェントがAPIのバグに苦戦するベンチマーク、スキーマごとに評価します。
APIEval-20は、実際のAPIテストにおけるAIエージェントを評価するためのタスクベンチマークです。7つのドメインにわたる20のシナリオを含み、スキーマとペイロードのみからバグ発見能力を測定し、Hugging Faceで公開データセットを提供しています。
Free

使い方 APIEval-20?
APIEval-20は、AIエージェントがスキーマとペイロード情報のみを使用してAPIのバグを検出する能力を評価するための構造化されたベンチマークを提供します。開発者や研究者は、7つのドメインにわたる20のシナリオでAIモデルのパフォーマンスをテストし、弱点を特定してテスト自動化を改善できます。
APIEval-20 の主な機能
APIEval-20 の使用例
APIEval-20 よくある質問
最も影響を受ける職業
AI研究者
ソフトウェアエンジニア
QAエンジニア
DevOpsエンジニア
データサイエンティスト
エンジニアリングマネージャー
プロダクトマネージャー
テクニカルリード
システムアーキテクト
セキュリティアナリスト