清华大学黄民烈团队：发布安全评估框架促大模型迈向可控可信

分享到：

导读: 在黄民烈看来，要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。着眼于容易触发的安全问题类型，科研团队还总结、设计出一般模型难以处理的“安全攻击方

齐齐哈尔时尚网小编提示，记得把"清华大学黄民烈团队：发布安全评估框架促大模型迈向可控可信"分享给大家！

　　齐齐哈尔新闻网北京3月27日电 (贾君玉张素)记者近日采访清华大学计算机科学与技术系长聘副教授黄民烈获悉，历时两年多时间，由他带领的科研团队建立了大模型安全分类体系，并从系统层面和模型层面等打造了大模型安全框架。

　　近年来，随着技术突破，大模型获得快速发展并在多个场景得到应用。不过，其存在的事实性错误、知识盲区等问题，以及面临的训练数据来源合规性、生成内容安全性等风险，也已受到广泛关注。

　　在黄民烈看来，要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。“大规模语言模型(LLM)发展到现在，模型结构和规模已有很大进展，但实用性还有待加强，我们应该通过技术让模型更加安全、可控，使其快速适配更多的应用场景。”他说。

　　此次，聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架。作为聆心智能的创始人，黄民烈介绍说，他们希望通过对大模型应用边界进行定义，促进大模型生态健康发展，推动人工智能研究和应用向更有用、更可信、更安全迈进。

　　据知，黄民烈团队建立的大模型安全分类体系中设定的不安全对话场景，包括犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论等方面。科研人员针对这些安全场景对大模型进行升级，使之具备基本的安全性，“能够在遇到安全问题时给予正确的回复策略，不进行判断误导”。

　　此外，着眼于容易触发的安全问题类型，科研团队还总结、设计出一般模型难以处理的“安全攻击方式”，使安全体系更加完善。

　　黄民烈表示，未来，他们将打造中文大模型的安全风险评估的Leaderboard，为国内对话大模型的安全评估提供公平公开的测试平台，并提供针对中文对话的安全场景等，“依托自身核心技术，在可控可信的超拟人大模型基础之上，通过建立安全、可控的模型边界，让人工智能提供可信、可靠的输出”。(完)

【编辑:田博群】齐齐哈尔时尚网 qqdjxw.com

中新社福建湄洲岛2月5日电 (郑已东程黎婷)“妈祖赐福，欢庆元宵”——莆台同胞护驾妈祖金身回上林故居省亲布福活动5日

2025-02-06 万象

原标题：俄罗斯总统普京宣布暂停履行《新削减战略武器条约》俄罗斯总统普京21日在莫斯科发表国情咨文时，宣布俄方暂停

2023-02-22 万象

2023-06-27 万象

比起什么时候能出门，义乌商家更关心快递什么时候能恢复。我已经半个多月没出去了。在10号之前，物流还没有停止。手头

2022-08-20 万象

图为游客在安平仙河景区乘船游玩。陈冠言摄图为游客在安平仙河景区乘船游玩。陈冠言摄图为安平仙河景区的龙碧滩瀑

2023-05-24 万象

上海中心气象台2023年07月29日08时00分发布暴雨蓝色预警信号：受台风“

2023-07-30 万象

2023年5月30日，江西省药品监督管理局网站公开医疗器械召回信息，涉及吉安市英北医疗设备有限公司。。

2023-05-31 万象

齐齐哈尔新闻网烟台7月30日电 (记者李欣谢艺观)“没有落后的产业，只有落后的产品和技术。高新技术产业与传统产业并不

2023-07-31 万象

据哈尔滨冰雪大世界消息第二十六届哈尔滨冰雪大世界于12月21日10时正式开园今年园区正常票价为：标准成人票价328元/张

2024-12-23 万象

清华大学黄民烈团队：发布安全评估框架 促大模型迈向可控可信