EvasionBench

EvasionBench 是一个用于检测财报电话会议问答环节中回避性回答的基准数据集。该任务旨在对公司管理层回答金融分析师问题的直接程度进行分类。

数据集描述

代码库： https://github.com/IIIIQIIII/EvasionBench
论文： https://arxiv.org/abs/2601.09142
联系方式： GitHub Issues

数据集摘要

该数据集包含 16,726 对来自财报电话会议记录的问答对，每对均标注有三个回避级别之一。这些标签由 Eva-4B-V2 模型生成，这是一个专为金融话语回避检测任务微调的分类器。

支持的任务

文本分类： 对管理层回答分析师问题的直接程度进行分类。

语言

英语

数据集结构

数据字段

字段	类型	描述
`uid`	string	每个样本的唯一标识符
`question`	string	财报电话会议中分析师提出的问题
`answer`	string	管理层对该问题的回答
`eva4b_label`	string	回避标签：`direct`（直接回答）、`intermediate`（中度回避）或 `fully_evasive`（完全回避）

标签定义

标签	定义	描述
`direct`	核心问题得到直接且明确的回答	清晰的数据、“是/否”的立场或直接解释
`intermediate`	回答提供了相关背景信息，但回避了具体核心内容	含糊其辞、提供范围而非具体数值，或回答相邻主题
`fully_evasive`	完全忽略问题、明确拒绝回答，或回答完全偏离主题	明确拒绝、完全转移话题或无关回答

数据统计

指标	数值
总样本数	16,726
Direct	8,749 (52.3%)
Intermediate	7,359 (44.0%)
Fully Evasive	618 (3.7%)

示例

{
    "uid": "4addbff893b81f64131fdc712d7a6d9a",
    "question": "What is the expected margin for Q4?",
    "answer": "We expect it to be 32%.",
    "eva4b_label": "direct"
}

使用方法

加载数据集

from datasets import load_dataset

dataset = load_dataset("FutureMa/EvasionBench")

从 Parquet 加载数据

import pandas as pd

df = pd.read_parquet("evasionbench_17k_eva4b_labels_dedup.parquet")

快速开始：使用 Eva-4B-V2 进行推理

from datasets import load_dataset
from transformers import pipeline

# Load dataset
dataset = load_dataset("FutureMa/EvasionBench")

# Load model using text-generation pipeline
pipe = pipeline("text-generation", model="FutureMa/Eva-4B-V2", device_map="auto")

# Get a sample
sample = dataset["train"][0]
question = sample["question"]
answer = sample["answer"]

# Prepare prompt
prompt = f"""You are a financial analyst. Your task is to Detect Evasive Answers in Financial Q&A

Question: {question}
Answer: {answer}

Response format:
```json
{{"label": "direct|intermediate|fully_evasive"}}
```

Answer in ```json content, no other text"""

# Run inference
result = pipe(prompt, max_new_tokens=64, do_sample=False)
print(result[0]["generated_text"])

如需包含批处理和评估的完整推理示例，请参见我们的 Colab 笔记本。

数据集创建

源数据

问答对来源于公开可用的 earnings call transcripts。

标注过程

标签是使用 Eva-4B-V2 生成的，这是一个 4B 参数模型，专门针对金融话语中的回避检测进行了微调。Eva-4B-V2 在 EvasionBench 评估集上达到 84.9% 的 Macro-F1，性能优于包括 Claude Opus 4.5 和 Gemini 3 Flash 在内的前沿 LLM。

使用数据的注意事项

社会影响

该数据集可用于：

提高企业沟通的透明度
协助金融分析师识别回避性回应
支持金融 NLP 和话语分析领域的研究

局限性

标签是模型生成的（Eva-4B-V2），而非人工标注
数据集反映了源数据中回避模式的分布情况
在不同行业或时间段，性能可能会有所差异

引用

如果您使用此数据集，请引用：

@misc{ma2026evasionbenchlargescalebenchmarkdetecting,
  title={EvasionBench: A Large-Scale Benchmark for Detecting Managerial Evasion in Earnings Call Q&A},
  author={Shijian Ma and Yan Lin and Yi Yang},
  year={2026},
  eprint={2601.09142},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url={https://arxiv.org/abs/2601.09142}
}

许可证

Apache 2.0