招聘中的算法单一文化

论文信息

标题: Algorithmic Monocultures in Hiring

作者: Rishi Bommasani, Sarah H. Bana, Kathleen A. Creel, et al.

发布日期: 2026-05-26

PDF 链接: 下载 PDF

算法单一文化在招聘中的隐性代价：当同一套模型主宰就业机会

论文背景与研究动机

在当今就业市场中，超过 90% 的美国雇主依赖算法来筛选或排序求职者。这些算法系统充当着机会的 “瓶颈”——决定哪些申请能进入面试环节，哪些则被无声淘汰。许多雇主并非自主研发这些算法，而是从少数几家第三方供应商处采购。截至 2023 年 5 月，财富 100 强中超过 60% 的公司以及美国十大联邦机构中的八家都在使用 HireVue 的算法系统。这种多家决策者同时依赖相同或相似算法的状态，被研究者称为算法单一文化（algorithmic monoculture）。

本研究团队的核心假设是：算法单一文化会导致系统性同质化结果——即同一类群体（按种族划分）和同一个体在多个雇主处遭遇重复性拒绝。这种 “算法黑名单” 现象如果确实存在，将颠覆人们对求职过程独立性的基本预期：申请者通常认为向多家公司投递简历意味着获得了多次独立评估的机会，但如果底层算法来自同一供应商且高度相似，那么一次拒绝可能在事实上意味着多次拒绝。

此前学界对这一假设的探讨主要停留在理论层面，缺乏大规模实证证据。这正是本研究的切入点。研究团队从人才平台 pymetrics 获取了一个独特的数据集，涵盖超过 337 万名申请者提交的 419 万余份申请，涉及 1746 个职位。所有申请都由同一算法供应商 pymetrics 构建的机器学习模型进行筛选。这一数据使研究者得以首次观察同一申请者在多个雇主处的真实算法决策结果，从而揭示了单一文化环境下隐藏的系统性偏见。

核心方法与研究设计

pymetrics 的招聘流程包含四个阶段：申请者投递职位后，被引导至 pymetrics 平台完成一系列在线评估游戏；系统基于申请者在游戏中的行为特征生成机器学习评分；评分被二值化为 “推荐” 或 “不推荐”；雇主依据这一推荐信号决定面试或淘汰候选人。研究关注的正是这一评分与二值化结果。

研究的分析框架围绕三个核心概念展开。其一是不利影响（adverse impact），依据美国平等就业机会委员会（EEOC）的 “五分之四规则” 标准进行操作化。当某一群体的选择率（被推荐比例）与最高选择率群体的比值（即影响比率）低于 0.8，且差异在统计上显著时，即判定存在不利影响。关键的数据处理方法是按职位分解（per-position disaggregation）。此前 pymetrics 发表的研究仅在聚合层面报告了各群体的选择率，发现所有种族群体的影响比率均高于 0.8 阈值。但本研究认为，EEOC 指南旨在识别单个雇主层面的歧视，因此正确的方法应将每个职位分开分析。

其二是系统拒绝率（systemic rejection rate），用于衡量同一申请者在所有投递职位上均被 “不推荐” 的频率。研究者构建了一个独立性基线（baseline of independence）作为对照：假设各职位的拒绝决策相互独立，仅根据各职位自身的选择率来计算多职位全拒的概率。通过比较观察到的系统性拒绝率与这一基线，可以量化单一算法供应商带来的过度相关性。

其三是确定性可复现性模拟（deterministic replicability simulation），这是本研究最具方法论创新的部分。由于 pymetrics 模型对相同输入产生完全相同的输出，研究者能够生成申请者若投递所有职位将获得的反事实结果。研究随机抽取 1000 名申请者，让 pymetrics 系统评估他们针对全部 495 个可用模型的表现，从而回答 “系统性拒绝是否仅因申请者投递了不适合的职位” 这一问题。

核心发现与实证结果

按职位分解的不利影响分析揭示了聚合数据所掩盖的显著种族差异。在 1674 个有足够样本的职位中，10.62% 的职位对黑人申请者表现出不利影响，30.70% 的黑人申请者至少申请了一个存在此类影响的职位，黑人提交的所有申请中有 25.87% 涉及不利影响模型。对亚裔申请者的影响同样值得关注：5.32% 的职位表现出不利影响，影响了 18.53% 的亚裔申请者和 14.74% 的亚裔申请。

研究以建筑与工程职业类别为例说明了分解分析的价值：在聚合层面，黑色人种的影响比率为 0.873（高于 0.8 阈值），但在单个职位层面，8 个有数据的职位中有 2 个（25%）表现出不利影响。这种模式表明，聚合分析系统地低估了实际存在的歧视性结果。

系统性拒绝的实证结果更为惊人。在投递 10 个职位的申请者中，4% 被所有职位拒绝，这一比例显著高于独立性基线的预测（卡方检验 p<0.001）。当申请者投递更多职位时，系统拒绝率呈指数衰减（ $R^2=0.984$ ），但衰减速度明显慢于期望的随机独立决策场景。

为验证这一模式是算法单一文化的特有问题还是招聘筛选的普遍特征，研究者分析了 Kline 等人（2022）的大规模对应研究数据。该研究向 108 家美国公司投递了 83000 份合成简历，其系统性拒绝率与独立性基线高度吻合（卡方检验 p=0.69），无法拒绝雇主决策相互独立的假设。这一对比强有力地证明，算法单一文化造成了质量上不同的劳动力市场动态——申请者的命运在多个雇主间变得高度相关。

反事实模拟的结果带来了希望与警示。当申请者 “投递” 所有 495 个可用职位模型时，没有一位样本申请者会被全部拒绝——即使推荐数最少的申请者也获得了 52 个推荐（占比 11%）。这表明，系统拒绝并非源于申请者本质上的 “不可雇佣性”。然而，在更现实的投递行为假设下（利用连通集，即与申请者实际投递模型共享申请者的所有模型集合），要让系统拒绝率降至 0.1% 以下，申请者平均需要投递 25 个职位，而同等条件下独立基线仅需 10 个。这揭示了算法单一文化显着扩大了就业搜索的难度。

创新贡献与政策启示

本研究最突出的创新体现在三个层面。在数据层面，这是首次获得同一申请者在多个雇主处真实算法决策结果的大规模实证研究。pymetrics 在数据使用协议中放弃了对研究内容的编辑权和否决权，这一独立性保障为后续研究提供了范本。在方法层面，研究者充分利用了算法系统的确定性特征，通过大规模反事实模拟回答了传统社会科学方法难以处理的问题。在概念层面，研究将算法单一文化的讨论从理论猜想推进到实证验证，建立了衡量系统性同质化的量化框架。

研究团队据此提出四项政策建议。第一，监管者和审计者应当按职位而非仅按聚合数据衡量不利影响，因为聚合掩盖了职位层面的显着差异。第二，相关机构应加强劳动力市场监测，现有数据收集方式（如 EEO-1 报告）是聚合和匿名的，无法追踪同一申请者的跨雇主结果。第三，机构应将算法单一文化本身作为监控对象，识别算法依赖在劳动力市场中的蔓延程度。第四，立法者应考虑强制要求算法招聘供应商向独立研究者提供数据访问权限，正如欧盟《数字服务法》要求大型在线平台所做的那样。

实践建议与未来方向

对于算法供应商而言，本研究的核心启示是在模型构建和部署中实现真正的多样性。即便每个模型在训练时通过了公平性检查，多个模型之间的高度相关性仍可能产生系统性排斥。供应商应考虑引入模型训练目标、特征子集或架构层面的变化，以确保不同模型不会重复性地拒绝同一批申请者。

对于雇主而言，应当意识到依赖同一算法供应商可能不仅带来招聘决策的同质化风险，还可能削弱竞争——如果多个竞争者使用相同的筛选逻辑，他们可能集体性地排除某些类型的候选人，从而损害整个行业的人才多样性。

对于求职者，一个务实的策略是充分拓展申请范围。根据模拟结果，为将系统拒绝风险降至极低水平，申请者可能需要投递远超直觉预期的职位数量。同时，了解哪些雇主使用不同的招聘算法供应商也至关重要。

未来研究的方向包括：获取其他算法供应商的数据以检验发现的普遍性；将算法决策与最终雇佣结果关联起来，测量单一文化对实际就业的影响；开发检测和缓解算法单一文化负面效应的技术工具；以及在不同法域（如欧盟 AI 法案框架下）评估监管干预的效果。

总结

本研究通过严谨的实证方法揭示了算法招聘中的一个隐蔽结构性风险：当多个雇主依赖同一算法供应商时，劳动力市场的机会分配不再遵循独立试错逻辑，而是呈现出高度相关和系统性排斥的特征。种族不利影响在职位层面的显着存在，以及对特定个体的 “全拒” 模式，都表明算法单一文化可能以传统人工筛选无法实现的方式锁定并放大不平等。随着算法招聘政策的演进（如纽约市第 144 号地方法律和欧盟 AI 法案），本研究为基于证据的政策制定提供了关键的实证基础。它同时也提出了一个更深刻的命题：在技术效率与程序公平之间，我们如何保证算法生态中的真正多样性，而非将选择权从人类偏差转移到系统性算法偏差的新囚笼。