顶刊编译|人工智能安全相关研究二则


Q

编者按

本公众号将定期推送人工智能安全相关的顶刊编译。本期顶刊编译,我们分别追踪了《专家系统应用》(Expert Systems with Applications)以及《国际众智科学期刊》(International Journal of Crowd Science)中的两篇文章,具体如下:


1Artificial Intelligence Trust, Risk and Security Management (AI TRiSM):Frameworks, applications, challenges and future research directions

人工智能信任、风险和安全管理(AI TRiSM):框架、应用、挑战和未来的研究方向

引用:Habbal A, Ali M K, Abuzaraida M A. Artificial Intelligence Trust, risk and security management (AI trism): Frameworks, applications, challenges and future research directions[J]. Expert Systems with Applications, 2024, 240: 122442.    


2、Fairness in Design: A Framework for Facilitating Ethical Artificial Intelligence Designs

设计公平性:促进合乎道德的人工智能设计的框架

引用:Zhang J, Shu Y, Yu H. Fairness in design: a framework for facilitating ethical artificial intelligence designs[J]. International Journal of Crowd Science, 2023, 7(1): 32-39.



1



人工智能信任、风险和安全管理(AI TRiSM):框架、应用、挑战和未来的研究方向

提要

 人工智能已经普及,使智能城市、元世界等多个行业实现转型。然而,随着人们对人工智能系统的日益依赖,与风险、信任和安全相关的担忧正在出现。AI TRiSM框架的可靠性和可信性使其成为最有益和原始的解决方案。尽管在市场上相对较新,但该框架已经在各种产品和人工智能模型中证明了它的有效性。由于缺乏对AI TRiSM框架的系统调查,作者进行了全面和详细的回顾,以弥补现有的知识差距,并从理论和技术学的角度更好地理解该框架。

主要内容

一、平衡人工智能的信任、风险和安全
(一)人工智能信任管理的概念化
人工智能在复杂系统决策中发挥着重要作用。在人工智能技术接受过程中,信任起着关键作用,个人对系统可靠性的认知影响其使用和依赖程度。然而,偏见和歧视以及隐私入侵等问题对人工智能信任产生了严重影响。
在偏见和歧视方面,人工智能技术如机器学习虽被期望减少人类偏见,但实际应用中却出现诸多问题。例如,司法系统中使用有偏见和歧视性数据的预测算法,影响了个人权利和司法公正。这引发了人们对人工智能公平性的担忧。
隐私入侵也是影响信任的重要因素,人工智能系统依赖大量数据,若数据处理不当,将对个人隐私构成威胁。
(二)人工智能风险管理的概念化
人工智能风险涵盖了与系统相关的潜在威胁和可能的失败模式,包括识别其能力、限制和检测可能的风险。人工智能的发展带来了诸多风险挑战,如社会操纵、深度伪造技术和致命自主武器系统等。
社会操纵方面,社交媒体中的算法虽旨在提供个性化服务,但也因依赖大量用户数据而受到批评。这些算法可能导致社会偏见、信息多样性受限和社会泡沫。
深度伪造技术利用人工智能生成虚假视听内容,在社交媒体上传播谣言和错误信息,可能误导公众,损害人工智能系统的可信度。
致命自主武器系统(LAWS)的决策授权引发了对问责制、道德困境等多方面的担忧,其可能改变人类对武力部署的控制,带来不可预见的后果。
三)人工智能安全管理的概念化
随着人工智能在各领域的融合,保护其系统及处理的数据免受未经授权行为、入侵和恶意活动的侵害至关重要。人工智能安全管理涉及多个关键方面,如识别、访问控制、安全评估和培训以及隐私权保护等。
人工智能面临着多种安全威胁,如恶意使用人工智能可能危及数字、物理和政治安全,安全措施不足则可能导致模型被攻击、数据隐私泄露等问题。为确保人工智能安全部署,需采用多种安全措施,如数据匿名化、加密和访问控制等,同时要保证遵守隐私法规,保护用户数据隐私。


二、AI TRiSM 框架
现有的人工智能信任、风险和安全框架存在缺陷,缺乏凝聚力与协同性。这些孤立框架难以有效协作,导致在不完全理解风险及后果的情况下建立信任。AI TRiSM 框架则试图通过提出统一方法来解决这些问题,该方法整合了信任、评估和安全协议,融合了各框架关键组成部分,促进了人工智能治理和管理关键方面的协作与协同。
AI TRiSM 框架在人工智能系统整个生命周期(包括设计、开发、部署和操作阶段)强调信任、风险和安全的重要性,提供了管理人工智能系统相关风险的全面方法,有助于制定和实施与组织目标和价值观一致的人工智能战略。以下为AI TRiSM框架包含四个核心原则。


(一)模型监控

       人工智能模型面临用户信任缺失问题,主要源于透明度和道德相关问题,其决策过程复杂难以理解,这对问责制构成挑战。实现模型监控和可解释性可确保模型功能正常且无偏差,有助于理解模型操作、提高透明度并建立信任。通过可解释性 AI TRiSM模型监控操作,能为用户提供透明、信任和信息,如下图

(二)人工智能模型操作
尽管人工智能在各领域潜力巨大,但与互联网集成尚处于起步阶段,其应用生命周期开发和管理需更结构化、有效的方法。AI TRiSM 框架中的建模过程涵盖人工智能模型的全生命周期管理,包括管理基础设施和环境(如云资源)以确保最佳性能。模型操作程序包括模型设计、部署、操作和监控等关键阶段,各阶段需关注不同重点以保障模型有效运行,如下图。
(三)人工智能安全应用
人工智能安全应用利用机器学习算法及时识别和处理疾病、未经授权访问和有害行为,通过观察网络模式、评估用户行为来发现安全漏洞。AI TRiSM 框架下,数据保护框架如合成数据、差异隐私、全同态加密(FHE)和安全多方计算(SMPC)等协议的应用对确保数据安全、建立信任至关重要。这些协议通过不同方式保护数据隐私,如合成数据隐藏敏感信息、SMPC 维护数据实体性、FHE 在处理数据时保护保密性,从而使组织能利用框架建立安全协议,防止授权访问或篡改,确保模型免受网络威胁。
(四)模型隐私
数据隐私要求人工智能系统在收集、存储和处理数据时遵循隐私法规和最佳实践,需获得适当同意、实施数据匿名化技术并采用安全数据处理实践。隐私保护对训练和测试人工智能模型的数据至关重要,不同隐私技术可保护数据集中个人匿名性,增加潜在入侵者识别个体的难度,同时确保数据分析准确性。AI TRiSM 框架有助于组织建立数据伦理管理的指导方针和协议,在处理敏感患者信息等领域尤为关键。
下表对比了人工智能系统在 AI TRiSM 框架集成前后的挑战和潜在改进,突出了框架在解决模型监控、模型操作、人工智能安全应用程序和模型隐私权等方面问题的作用,展示了框架如何提升人工智能系统的整体性能和可信度

总结

人工智能信任、风险和安全管理(AI TRiSM)是确保人工智能负责任且安全部署的关键领域,随着社会对人工智能系统依赖加深,其重要性愈发凸显。在本综合研究中,作者对 AI TRiSM 应用展开广泛探究,发现组织借助 AI TRiSM,能深入理解人工智能模型设计、开发与部署,有效监控和减轻风险,确保模型可靠性与可信度,为人工智能安全部署和风险评估提供有力监管支持。



2


设计公平性:促进合乎道德的人工智能设计的框架

提要

随着人工智能和数字转型技术在现代社会日益普及,其设计中的缺陷开始受到关注。越来越多的人呼吁人工智能解决方案设计者在设计阶段集思广益并发现潜在的公平性问题。为解决这一问题,本文提出了 “设计中的公平性(FID)” 框架,以帮助人工智能软件设计者发现并探索复杂的公平性相关问题,否则这些问题可能被忽视。大量用户研究表明,FID 能有效帮助参与者在公平性方面做出更好的决策,特别是涉及算法决策的复杂问题。

主要内容

一、相关工作
人工智能研究界投入了大量精力,从数学层面来阐释公平性概念,以支撑算法公平性研究。有学者将公平性概念主要划分为两类:个体公平和群体公平。本文简要列举了在用户研究中使用的个体公平性的统计定义,其包含以下几种:
1. 公平性通过意识(Fairness Through Awareness)
2. 公平性通过无意识(Fairness Through Unawareness)
3. 反事实公平性(Counterfactual Fairness)
4. 关系域中的公平性(Fairness in Relational Domain)
群体公平则要求不同群体受到平等对待。群体公平下有六种统计定义:
1. 条件统计均等(Conditional Statistical Parity)
2. 人口统计均等(Demographic Parity)
3. 机会均等(Equal Opportunity)
4. 均衡几率(Equalised Odds)
5. 测试公平性(Test Fairness)
6. 处理平等(Treatment Equality)
二、提出 FID 方法论
FID 的工作流程如下:
1. 确定应用领域:团队需明确应用领域,该领域应包含尽可能多的 AI 系统或产品细节。
2. 选择应用卡类型:团队成员应从六个应用领域类别中挑选最契合其应用领域的应用卡类型,这六个类别包括生命关键系统、工业和商业用途、办公 / 家庭 / 娱乐、探索性和创造性、协作应用以及社会技术应用。
3. 明确利益相关者并分析:应用领域涉及不同利益相关者,团队需区分直接(直接使用 AI 系统的人员)和间接(虽不直接使用但受系统影响的人员)利益相关者。每位成员确定一个利益相关者群体,并从该群体视角出发,头脑风暴其可能面临的问题。
4. 抽取公平原则卡并应用:成员抽取公平原则卡,这些卡片依据从文献中整合的十个公平原则设计,分别归类为群体公平和个体公平原则,用于在 FID 工作流程中从利益相关者视角进行反思。若抽取的公平原则卡不适用于当前应用领域,成员可选择丢弃并重新抽取。
5. 应用公平度量并思考问题:成员将选定的公平度量应用于应用领域,思考利益相关者可能面临的潜在问题或解决方案,通过自问 “对于该利益相关者,可能出现什么正确或错误的情况” 来激发批判性思维,并将思考过程记录在卡片上。
6. 汇总、讨论并评估:团队汇总所有成员的回答并随机排序,以确保匿名性,鼓励成员真实表达。随后团队共同讨论和评估这些回答的有效性和价值。
7. 重复或结束流程:完成上述步骤后,团队可选择返回利益相关者分析步骤(即步骤 3)进行新一轮分析,或者结束本次讨论。

图1 FID工作流程

图2所示的FID 的用户界面示例呈现了用户在步骤 3 的操作,即从所采用的利益相关者视角撰写设想审查

三、实证评估
为从经验层面评估所提出的 FID 框架,作者开展了用户研究,具体内容如下:
(一)研究设计
1. 参与者招募:共招募 24 名参与者(18 名男性和 6 名女性),他们均为有经验的研究人员或工程师,目前或曾从事涉及人工智能的软件系统工作,具备理解基本公平概念的能力且同意被记录。

图3参与者的人口统计数据

2.前置问卷:实验前通过谷歌表单让参与者完成前置问卷,以了解他们在人工智能解决方案开发中对伦理考量的优先顺序。
(二)研究假设
假设 H1:FID 方法论有助于参与者确定与其人工智能应用最相关的公平标准。
假设 H2:FID 方法论有助于参与者揭示其人工智能应用中的公平性问题。
假设 H3:FID 方法论有助于参与者设想不同利益相关者的视角。
(三)结果与分析
1. 假设 H1
参与者自评:如图4所示,使用 FID 后,回答 “同意” 的人数显著增加,“不同意” 和 “强烈不同意” 的人数减少,“强烈同意” 和 “中立” 人数不变,表明参与者认为 FID 有助于思考公平性设计决策。

图4参与者在使用 FID 前后做出与公平性相关的设计决策的自我报告能力

2.假设 H2
参与者自评:针对揭示公平性问题能力的评估(如图 5所示),前使用 FID 后,“同意” 和 “强烈同意”的回答数量显著增加,“不同意”和“强烈不同意”相应减少,说明 FID 能有效帮助参与者发现潜在公平问题。

图5参与者在使用 FID 之前和之后自我报告的浮出水面公平问题的能力

3.假设 H3
参与者自评:在从利益相关者角度思考能力的评估中(如图 6所示),“不同意” 和 “强烈不同意” 的比例大幅降低,表明 FID 显著提高了参与者从利益相关者角度思考的能力。

图6参与者在使用 FID 前后自我报告的从利益相关者的角度思考的能力

总结

本文设计的 FID 方法论具有较低的准入门槛,便于非专业人士有效使用。目标受众为人工智能产品团队,他们发现该方法论在探索和做出公平决策方面切实有效。据作者所知,FID 是首个促进人工智能解决方案开发团队将公平性融入设计的技术工具。对 24 名人工智能解决方案开发者的用户研究实证结果表明,FID 能够提升设计团队对公平概念的理解,并被认为对其项目有益。

END

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。查看原文

为您推荐