F
FutureMa/EvasionBench
数据集数据集查看器文件和版本
下载使用量0

EvasionBench

Project Page Model GitHub Open In Colab Paper

EvasionBench 是一个用于检测财报电话会议问答环节中回避性回答的基准数据集。该任务旨在对公司管理层回答金融分析师问题的直接程度进行分类。

数据集描述

  • 代码库: https://github.com/IIIIQIIII/EvasionBench
  • 论文: https://arxiv.org/abs/2601.09142
  • 联系方式: GitHub Issues

数据集摘要

该数据集包含 16,726 对来自财报电话会议记录的问答对,每对均标注有三个回避级别之一。这些标签由 Eva-4B-V2 模型生成,这是一个专为金融话语回避检测任务微调的分类器。

支持的任务

  • 文本分类: 对管理层回答分析师问题的直接程度进行分类。

语言

英语

数据集结构

数据字段

字段类型描述
uidstring每个样本的唯一标识符
questionstring财报电话会议中分析师提出的问题
answerstring管理层对该问题的回答
eva4b_labelstring回避标签:direct(直接回答)、intermediate(中度回避)或 fully_evasive(完全回避)

标签定义

标签定义描述
direct核心问题得到直接且明确的回答清晰的数据、“是/否”的立场或直接解释
intermediate回答提供了相关背景信息,但回避了具体核心内容含糊其辞、提供范围而非具体数值,或回答相邻主题
fully_evasive完全忽略问题、明确拒绝回答,或回答完全偏离主题明确拒绝、完全转移话题或无关回答

数据统计

指标数值
总样本数16,726
Direct8,749 (52.3%)
Intermediate7,359 (44.0%)
Fully Evasive618 (3.7%)

示例

{
    "uid": "4addbff893b81f64131fdc712d7a6d9a",
    "question": "What is the expected margin for Q4?",
    "answer": "We expect it to be 32%.",
    "eva4b_label": "direct"
}

使用方法

加载数据集

from datasets import load_dataset

dataset = load_dataset("FutureMa/EvasionBench")

从 Parquet 加载数据

import pandas as pd

df = pd.read_parquet("evasionbench_17k_eva4b_labels_dedup.parquet")

快速开始:使用 Eva-4B-V2 进行推理

from datasets import load_dataset
from transformers import pipeline

# Load dataset
dataset = load_dataset("FutureMa/EvasionBench")

# Load model using text-generation pipeline
pipe = pipeline("text-generation", model="FutureMa/Eva-4B-V2", device_map="auto")

# Get a sample
sample = dataset["train"][0]
question = sample["question"]
answer = sample["answer"]

# Prepare prompt
prompt = f"""You are a financial analyst. Your task is to Detect Evasive Answers in Financial Q&A

Question: {question}
Answer: {answer}

Response format:
```json
{{"label": "direct|intermediate|fully_evasive"}}
```

Answer in ```json content, no other text"""

# Run inference
result = pipe(prompt, max_new_tokens=64, do_sample=False)
print(result[0]["generated_text"])

如需包含批处理和评估的完整推理示例,请参见我们的 Colab 笔记本。

数据集创建

源数据

问答对来源于公开可用的 earnings call transcripts。

标注过程

标签是使用 Eva-4B-V2 生成的,这是一个 4B 参数模型,专门针对金融话语中的回避检测进行了微调。Eva-4B-V2 在 EvasionBench 评估集上达到 84.9% 的 Macro-F1,性能优于包括 Claude Opus 4.5 和 Gemini 3 Flash 在内的前沿 LLM。

使用数据的注意事项

社会影响

该数据集可用于:

  • 提高企业沟通的透明度
  • 协助金融分析师识别回避性回应
  • 支持金融 NLP 和话语分析领域的研究

局限性

  • 标签是模型生成的(Eva-4B-V2),而非人工标注
  • 数据集反映了源数据中回避模式的分布情况
  • 在不同行业或时间段,性能可能会有所差异

引用

如果您使用此数据集,请引用:

@misc{ma2026evasionbenchlargescalebenchmarkdetecting,
  title={EvasionBench: A Large-Scale Benchmark for Detecting Managerial Evasion in Earnings Call Q&A},
  author={Shijian Ma and Yan Lin and Yi Yang},
  year={2026},
  eprint={2601.09142},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url={https://arxiv.org/abs/2601.09142}
}

许可证

Apache 2.0