
人工智能(AI)正越来越多地应用于高风险决策优化中,例如自主系统可以识别最小化成本并保持电压稳定的电力分配策略。然而,这些AI驱动的输出在技术上可能最优,但未必公平,比如低成本策略可能使弱势社区比高收入地区更容易面临停电风险。
为帮助利益相关者在部署前快速识别潜在伦理困境,MIT研究人员开发了一种自动化评估方法,平衡可衡量结果(如成本或可靠性)与定性或主观价值(如公平性)之间的相互作用。该系统将客观评估与用户定义的人类价值分离,使用大型语言模型(LLM)作为人类代理来捕获和整合利益相关者偏好。
这种自适应框架选择最佳场景进行进一步评估,简化了通常需要昂贵且耗时的手动努力的过程。这些测试案例可以展示自主系统与人类价值良好对齐的情况,以及意外不符合伦理标准的场景。
来源:原始来源


