![](https://fastly.jsdelivr.net/gh/bucketio/img11@main/2024/10/21/1729466068183-23134fce-3131-4262-b18c-f378d71af4f6.gif)

# 量化前沿｜使用大语言模型揭露企业年报中掩盖的坏消息

![](https://fastly.jsdelivr.net/gh/bucketio/img9@main/2024/10/20/1729465031968-b3c8959e-1d37-4b8a-91b1-b0b0dfe25143.png)

## 引言：年报隐藏的秘密

**企业年报（10-K）** 是投资者获取公司财务和经营状况的核心信息来源。然而，芝加哥大学布斯商学院的研究发现，许多公司利用年报中的文字和段落排序技巧，刻意掩盖不利消息。本文通过大语言模型（LLMs）和注意力机制（Attention Mechanism）揭示这些隐藏策略，并展示如何通过AI工具提高信息解读效率。

![](https://fastly.jsdelivr.net/gh/bucketio/img7@main/2024/12/22/1734887309221-84b023dd-771a-4cdc-8eb1-e1a3bdeb4ea9.png)

## 研究背景与核心问题

多年来，市场参与者一直试图理解：哪些年报信息真正驱动了股票价格的波动？虽然定量数据（如收入、利润率）较为直观，但定性数据（如商业模式变化、竞争态势、战略举措）通常难以量化和分析。芝加哥大学的团队通过引入注意力机制的LLM，开发出一种全新的方法，直接捕捉投资者在年报中最关注的内容。

研究团队的核心目标是回答以下问题：  

1. **市场关注哪些年报信息？**  
2. **公司是否有意安排段落顺序来操纵投资者注意力？**  
3. **AI模型如何从复杂文本中提取关键信息？**  

## 研究发现

### 1. **隐藏坏消息的策略分析**

- **信息排序策略**：公司将负面信息安排在管理层讨论与分析（MD&A）部分的后段，而非报告前部，降低负面信息的关注度。  
- **掩盖条件**：盈利波动较大、竞争压力大或盈利能力低的企业更可能采取这种掩盖策略。  

### 2. **“信息位置评分”：揭示信息披露的坦率程度**

研究团队开发了**信息位置评分（Information Positioning）**，用来衡量披露信息的透明度：  

- **高评分企业**：成熟、大型企业倾向于前置重要信息，体现较高的透明度。  
- **低评分企业**：亏损或收益波动大的企业更倾向于后置关键信息，降低披露透明度。  

### 3. **年报章节的重要性排名**

模型分析发现，投资者最关注和最不关注的年报章节如下：  

- **最重要章节**：
  - **Item 7**：管理层讨论与分析（MD&A）  
  - **Item 8**：财务报表及附注  
  - **Item 1**：业务描述  
  - **Item 1A**：风险因素  
- **最不重要章节**：
  - **Item 13**：股权关系与交易  
  - **Item 12**：股东持股  
  - **Item 10**：董事与治理  

### 4. **ESG内容关注度较低**

尽管ESG（环境、社会和治理）议题在公众讨论中备受关注，研究显示市场对ESG相关信息反应较弱，而更关注盈利能力、流动性和财务表现。

![](https://fastly.jsdelivr.net/gh/bucketio/img19@main/2024/12/22/1734887357477-30ebb089-dffb-4797-97b3-29a92d7d543c.png)

## 技术细节：LLM如何解析年报？

### 1. **数据预处理与建模**

- **数据集**：1996年至2023年76,929份10-K年报，分割为20多百万段落。  
- **文本处理**：剔除图表、表格及HTML标签，将文本标准化并分段处理。  

### 2. **注意力机制（Attention Mechanism）**

研究采用Transformer架构中的注意力机制，通过以下步骤捕捉投资者关注点：  

1. **段落嵌入向量生成**：使用OpenAI的text-embedding-3-large模型，将每段文字转化为64维嵌入向量。  
2. **双层注意力机制**：  
   - 第一层注意力：分析段落与上下文的关联性，调整每段文字的语义理解。  
   - 第二层注意力：权重汇总段落重要性，形成文档级别的重要性评分。  

### 3. **投资组合与模型效果**

- **性能指标**：基于LLM预测的重要段落构建投资组合，分析其市场表现。  
- **模型表现**：
  - **夏普比率**：LLM模型达到**1.56**，远高于传统Logit模型的**1.08**，显示AI在风险调整收益方面的显著优势。  

## 监管影响：提升信息透明度

### **案例1：SEC S-K规则现代化改革**

- 2021年8月，美国证券交易委员会（SEC）对MD&A披露规则进行了现代化改革，强调前瞻性和信息相关性。  
- 改革后，MD&A部分的重要性评分相较于财务报表部分提高了约**18.8%**。  

### **案例2：SEC评论信的干预效果**

- 收到SEC评论信的公司，其年报相关部分在次年评分平均提高了**10%**。  
- 这说明监管干预有助于提升信息披露的透明度和市场相关性。  

## 战略性信息定位分析

研究进一步揭示，公司在安排段落顺序时具有以下特点：

- **正面信息前置**：吸引投资者注意力，提高市场信任度。  
- **负面信息后置**：淡化负面影响，避免投资者直接关注。  

### **量化策略**

1. **段落评分公式**：
   - 通过注意力权重计算段落评分，评估信息重要性。  
   - 分析段落位置和重要性之间的关系，揭示信息排序策略。  

2. **信息位置评分公式**：
   - 将段落评分与位置指数结合，量化公司披露透明度：  

   $$信息位置评分 = \sum_k [(1 - \frac{位置_k}{总段落数}) \times 重要性评分_k] $$

   - 分数越高，表明公司披露信息越透明。  

3. **研究发现**：  
   - 大型企业透明度较高，负面消息较少掩盖。  
   - 盈利波动大或面临压力的公司倾向于隐藏重要内容。

## 结论与启示

### **投资者**  

LLM技术帮助投资者快速识别年报关键段落，提高分析效率和决策质量。  

### **监管者**  

合理的监管措施（如S-K改革和评论信制度）显著提高年报披露质量和市场透明度。  

### **企业**  

尽管隐藏坏消息可能短期有效，但长远来看，透明披露更能建立市场信任和投资者信心。

> **“并非所有段落都同样重要。关注最有价值的信息是提高信息处理效率的关键。”**  
— Alex Kim，研究作者
---

## 关于LLMQuant

LLMQuant是由一群来自世界顶尖高校和量化金融从业人员组成的前沿社区，致力于探索人工智能（AI）与量化（Quant）领域的无限可能。我们的团队成员来自剑桥大学、牛津大学、哈佛大学、苏黎世联邦理工学院、北京大学、中科大等世界知名高校，外部顾问来自Microsoft、HSBC、Citadel、Man Group、Citi、Jump Trading、国内顶尖私募等一流企业。欢迎加入**知识星球**获取**内部资料**。