EvasionBench 是一个用于检测财报电话会议问答环节中回避性回答的基准数据集。该任务旨在对公司管理层回答金融分析师问题的直接程度进行分类。
该数据集包含 16,726 对来自财报电话会议记录的问答对,每对均标注有三个回避级别之一。这些标签由 Eva-4B-V2 模型生成,这是一个专为金融话语回避检测任务微调的分类器。
英语
| 字段 | 类型 | 描述 |
|---|---|---|
uid | string | 每个样本的唯一标识符 |
question | string | 财报电话会议中分析师提出的问题 |
answer | string | 管理层对该问题的回答 |
eva4b_label | string | 回避标签:direct(直接回答)、intermediate(中度回避)或 fully_evasive(完全回避) |
| 标签 | 定义 | 描述 |
|---|---|---|
direct | 核心问题得到直接且明确的回答 | 清晰的数据、“是/否”的立场或直接解释 |
intermediate | 回答提供了相关背景信息,但回避了具体核心内容 | 含糊其辞、提供范围而非具体数值,或回答相邻主题 |
fully_evasive | 完全忽略问题、明确拒绝回答,或回答完全偏离主题 | 明确拒绝、完全转移话题或无关回答 |
| 指标 | 数值 |
|---|---|
| 总样本数 | 16,726 |
| Direct | 8,749 (52.3%) |
| Intermediate | 7,359 (44.0%) |
| Fully Evasive | 618 (3.7%) |
{
"uid": "4addbff893b81f64131fdc712d7a6d9a",
"question": "What is the expected margin for Q4?",
"answer": "We expect it to be 32%.",
"eva4b_label": "direct"
}from datasets import load_dataset
dataset = load_dataset("FutureMa/EvasionBench")import pandas as pd
df = pd.read_parquet("evasionbench_17k_eva4b_labels_dedup.parquet")from datasets import load_dataset
from transformers import pipeline
# Load dataset
dataset = load_dataset("FutureMa/EvasionBench")
# Load model using text-generation pipeline
pipe = pipeline("text-generation", model="FutureMa/Eva-4B-V2", device_map="auto")
# Get a sample
sample = dataset["train"][0]
question = sample["question"]
answer = sample["answer"]
# Prepare prompt
prompt = f"""You are a financial analyst. Your task is to Detect Evasive Answers in Financial Q&A
Question: {question}
Answer: {answer}
Response format:
```json
{{"label": "direct|intermediate|fully_evasive"}}
```
Answer in ```json content, no other text"""
# Run inference
result = pipe(prompt, max_new_tokens=64, do_sample=False)
print(result[0]["generated_text"])如需包含批处理和评估的完整推理示例,请参见我们的 Colab 笔记本。
问答对来源于公开可用的 earnings call transcripts。
标签是使用 Eva-4B-V2 生成的,这是一个 4B 参数模型,专门针对金融话语中的回避检测进行了微调。Eva-4B-V2 在 EvasionBench 评估集上达到 84.9% 的 Macro-F1,性能优于包括 Claude Opus 4.5 和 Gemini 3 Flash 在内的前沿 LLM。
该数据集可用于:
如果您使用此数据集,请引用:
@misc{ma2026evasionbenchlargescalebenchmarkdetecting,
title={EvasionBench: A Large-Scale Benchmark for Detecting Managerial Evasion in Earnings Call Q&A},
author={Shijian Ma and Yan Lin and Yi Yang},
year={2026},
eprint={2601.09142},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2601.09142}
}Apache 2.0