DEA数据包络法

方法概述

数据包络分析（Data Envelopment Analysis, DEA）是一种基于线性规划的非参数效率评价方法，由 Charnes、Cooper 和 Rhodes 于 1978 年提出。该方法通过构建生产前沿面，将每个决策单元（Decision Making Unit, DMU）的投入产出数据投影到前沿面上，通过比较 DMU 偏离前沿面的程度来评估其相对效率。

DEA 法的核心思想是：

每个 DMU 使用若干输入（资源）生产若干输出（成果）。
不需要预设生产函数形式，完全由数据驱动。
通过线性规划求解每个 DMU 的效率值（0~1），效率值为 1 的 DMU 位于前沿面上，称为有效 DMU（标杆）。
支持 CCR 模型（假设规模报酬不变）和 BCC 模型（假设规模报酬可变）。
支持投入导向（在给定产出下最小化投入）和产出导向（在给定投入下最大化产出）。
可计算松弛变量，识别投入冗余和产出不足，提供改进方向。

该方法广泛应用于企业效率评价、银行分行绩效分析、医院效率评估、教育机构比较、供应链管理等领域。

计算步骤

1. 构建原始数据矩阵

设有 \(n\) 个决策单元（DMU），每个 DMU 有 \(m\) 个输入指标和 \(s\) 个输出指标。原始数据矩阵为：

\[ \begin{array}{c|ccc|ccc} & \text{输入 1} & \cdots & \text{输入 m} & \text{输出 1} & \cdots & \text{输出 s} \\ \hline \text{DMU}_1 & x_{11} & \cdots & x_{1m} & y_{11} & \cdots & y_{1s} \\ \vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ \text{DMU}_n & x_{n1} & \cdots & x_{nm} & y_{n1} & \cdots & y_{ns} \\ \end{array} \]

数据格式要求：

第一列为 DMU 名称（如企业名称、银行分行等）。
后续列为各输入和输出指标，所有指标应为正数。
输入指标（投入资源）应越小越好，输出指标（产出成果）应越大越好。

2. 选择模型与导向

平台支持：

CCR 模型：假设规模报酬不变（CRS），适用于所有 DMU 处于相同规模水平的场景。
BCC 模型：假设规模报酬可变（VRS），允许规模效应存在，可进一步计算规模效率。
投入导向：在给定产出下，最小化投入。适用于投入可调整的场景。
产出导向：在给定投入下，最大化产出。适用于产出可提升的场景。

3. 建立线性规划模型

以投入导向的 CCR 模型为例，对于被评价 DMU\(_0\)，求解以下线性规划：

\[ \begin{aligned} \min_{\theta, \lambda} \quad & \theta \\ \text{s.t.} \quad & \sum_{i=1}^{n} \lambda_i x_{ij} \le \theta x_{0j}, \quad j=1,\dots,m \\ & \sum_{i=1}^{n} \lambda_i y_{ir} \ge y_{0r}, \quad r=1,\dots,s \\ & \lambda_i \ge 0, \quad i=1,\dots,n \end{aligned} \]

其中 \(\theta\) 为效率值（0≤θ≤1），\(\lambda_i\) 为参考集的权重。当 \(\theta=1\) 且所有松弛变量为 0 时，DMU\(_0\) 为有效（位于前沿面上）。

产出导向的 CCR 模型类似，最大化 \(\varphi\)，效率值为 \(1/\varphi\)。

BCC 模型增加约束 \(\sum_{i=1}^{n} \lambda_i = 1\)，允许规模报酬可变。

4. 求解效率值

使用线性规划求解器（如 lpSolve 或 deaR 包）对每个 DMU 求解上述规划，得到效率值 \(\theta\)（投入导向）或 \(1/\varphi\)（产出导向）。

5. 计算松弛变量（可选）

对于非有效 DMU，可计算输入松弛和输出松弛：

输入松弛：实际投入与目标投入的差值（冗余量）。
输出松弛：目标产出与实际产出的差值（不足量）。

松弛变量帮助识别改进方向：应减少投入或增加产出的具体数量。

6. 识别标杆 DMU

效率值为 1 的 DMU 构成生产前沿面，可作为其他 DMU 的标杆（参考集）。每个非有效 DMU 的参考集由线性规划中的非零 \(\lambda_i\) 对应的有效 DMU 组成。

7. 结果输出与可视化

效率值排序表、效率分布直方图、效率值条形图。
标杆 DMU 列表及参考集矩阵。
松弛变量表（输入冗余、产出不足）。

案例分析

案例背景：某银行欲评估 5 个分行的运营效率。选取 2 个输入指标（员工人数、运营成本）和 1 个输出指标（贷款金额）。原始数据如下：

分行	员工人数	运营成本(万元)	贷款金额(万元)
A	20	100	800
B	25	120	900
C	15	80	600
D	30	150	1000
E	18	90	700

采用投入导向的 CCR 模型。

计算过程

1. 建立线性规划（以分行 A 为例）

目标：最小化 \(\theta_A\)，使得：

\(\lambda_A·20 + \lambda_B·25 + \lambda_C·15 + \lambda_D·30 + \lambda_E·18 \le \theta_A·20\)
\(\lambda_A·100 + \lambda_B·120 + \lambda_C·80 + \lambda_D·150 + \lambda_E·90 \le \theta_A·100\)
\(\lambda_A·800 + \lambda_B·900 + \lambda_C·600 + \lambda_D·1000 + \lambda_E·700 \ge 800\)
\(\lambda_i \ge 0\)

2. 求解

使用线性规划求解器（过程略），得到各分行效率值：

分行	效率值	是否有效
A	0.85	否
B	1.00	是
C	0.90	否
D	0.95	否
E	0.88	否

3. 标杆分析

有效 DMU：B。其他分行的参考集主要为 B（可能还参考其他有效 DMU）。例如分行 A 的参考集为 {B}，权重 \(\lambda_B=0.8\)。

4. 松弛变量（以 A 为例）

输入冗余：员工人数可减少 \(\theta_A·20 - (λ_B·25) = 0.85×20 - 0.8×25 = 17 - 20 = -3\)（负值表示无冗余，实际计算中若松弛为正则为冗余）。此处可能显示员工人数无冗余，运营成本有少量冗余。
输出不足：贷款金额可增加 \(800 - (λ_B·900) = 800 - 720 = 80\) 万元。

5. 结论

分行 B 效率最高，可作为标杆。分行 A、C、D、E 均存在效率损失，其中 A 应增加贷款金额 80 万元或减少投入。

常见问题

Q1: CCR 与 BCC 模型有何区别？

A: CCR 假设规模报酬不变（CRS），适合所有 DMU 处于相同规模水平的比较；BCC 假设规模报酬可变（VRS），允许 DMU 处于规模递增或递减阶段。BCC 的效率值通常不低于 CCR，BCC 效率值除以 CCR 效率值可得规模效率，判断 DMU 的规模是否最优。

Q2: 投入导向与产出导向如何选择？

A: - 投入导向：适用于管理者能控制投入（如成本、人员）但产出相对固定的场景，如预算约束下的效率评估。 - 产出导向：适用于投入固定、追求产出最大化的场景，如产能约束下的绩效评估。

Q3: 如何处理数据中的零值或负值？

A: DEA 要求所有数据为正数（至少非负）。若存在零值或负值，建议进行数据变换（如平移）或使用超效率 DEA 等扩展模型。平台会给出警告，但不会自动处理，用户需确保数据为正。

Q4: 指标数量过多时怎么办？

A: DEA 对指标数量敏感，经验法则要求 DMU 数量至少为输入+输出指标数的 3 倍。若指标过多，可考虑使用主成分分析降维或选择代表性指标。

Q5: 支持多工作表吗？

A: 支持。Excel 文件中每个工作表可存放一组 DEA 数据（不同时间、不同行业），系统会分别分析并输出结果。

Q6: 松弛变量如何解读？

A: 输入松弛表示可减少的投入量（冗余），输出松弛表示可增加的产出量（不足）。非零松弛说明即使效率值达到 1，仍需调整才能达到完全有效（帕累托最优）。

平台功能

DEA 分析平台提供以下核心功能：

数据输入

支持 CSV、Excel、TXT 多种格式。
Excel 文件支持多工作表，自动识别工作表名称。
数据格式要求：第一列为 DMU 名称，后续列为输入和输出指标（数值型，建议为正数）。

参数设置

DEA 模型：CCR 模型、BCC 模型。
分析导向：投入导向、产出导向。
小数位数：控制结果精度（默认 4 位）。
显示松弛变量：可选是否计算和展示输入/输出松弛。
指标选择：用户需从数据列中手动选择哪些是指标作为输入、哪些作为输出（可多选）。

结果展示

效率值汇总：各 DMU 的效率值及有效性判断。
标杆分析：有效 DMU（标杆单元）列表、参考集合矩阵（每个 DMU 的参考权重）。
松弛变量（可选）：输入松弛变量表、输出松弛变量表。
可视化：效率值分布直方图、效率值排序条形图。
AI 智能分析：基于 DeepSeek API 自动解读结果，提供效率改进建议（每日限 3 次）。
多格式导出：支持 Excel 和 HTML 报告下载。

工作表管理

多工作表自动识别，支持批量分析。
实时显示每个工作表的预览数据。
支持对比不同工作表的效率结果。

使用建议

准备阶段：明确 DMU 集合（要求同质，即使用相同的投入产出指标）。选择具有代表性的输入指标（资源、成本）和输出指标（产出、效益）。确保数据为正数。
数据收集：使用平台提供的模板文件填写数据。第一列为 DMU 名称，后续列为指标。若数据中有零或负值，建议进行变换。
参数设置：
- 根据研究目的选择 CCR 或 BCC 模型（若怀疑规模效应，选 BCC）。
- 根据实际控制能力选择投入导向或产出导向。
- 建议勾选“显示松弛变量”，以获取改进方向。
- 正确选择输入指标和输出指标（输入越小越好，输出越大越好）。
结果解读：
- 效率值 = 1 的 DMU 为有效，是其他 DMU 的标杆。
- 平均效率反映整体水平，效率分布可看出集中趋势。
- 参考集显示非有效 DMU 应模仿的标杆及其权重。
- 松弛变量指出具体的改进量（减少输入或增加输出）。
- 利用 AI 分析获取专业建议。
迭代优化：
- 若有效 DMU 过多（>50%），可考虑调整指标或使用超效率模型。
- 若有效 DMU 过少，可检查数据质量或放宽指标选择。
- 对比不同模型或导向的结果，进行敏感性分析。

平台界面

官方地址：https://superr.online

平台界面包含：数据上传区、参数设置区、多工作表预览、分析结果展示和AI分析模块

参考文献：

Charnes A, Cooper W W, Rhodes E. Measuring the efficiency of decision making units[J]. European Journal of Operational Research, 1978, 2(6): 429-444.
Banker R D, Charnes A, Cooper W W. Some models for estimating technical and scale inefficiencies in data envelopment analysis[J]. Management Science, 1984, 30(9): 1078-1092.
数据包络分析及其应用[M]. 科学出版社，2006.