AILuminate：開創LLM安全性評估的里程碑

2024.12.11

隨著人工智慧（AI）技術在各行各業的廣泛應用，安全性問題逐漸成為全球關注的焦點。為解決大型語言模型（LLMs）在應用過程中潛在的風險，開放工程聯盟（MLCommons）近日推出了AILuminate——全球首款針對LLM安全性的標準化測試工具。這一工具不僅填補了市場空白，也為AI風險評估樹立了科學而獨立的基準。

背景與使命：為AI安全性提供標準化指引

人工智慧在企業應用中發展迅猛，然而針對AI安全性進行標準化測試的工具一直缺乏。MLCommons創辦人彼得·馬特森（Peter Mattson）強調，AI技術的複雜性如同汽車或飛機一樣，需要行業標準的測試來引導負責任的開發過程。AILuminate的推出正是為了滿足這一需求，其目標是提供獨立且科學的風險評估，幫助企業更好地了解其系統的安全性並指引改進方向。

涵蓋範疇：專注於12類潛在危險

AILuminate的測試範圍涵蓋了12種常見的潛在風險，包括煽動暴力犯罪、兒童性剝削、仇恨言論以及智慧財產權侵害等領域。為了確保評估的全面性，AILuminate運用了超過24,000條測試提示詞，對模型回應進行系統分析。這種全面覆蓋不僅能檢測出模型在道德與法律上的潛在風險，也為開發者提供了針對性改進的參考。

科學嚴謹性：保證評估的客觀性與可信度

為了確保評估結果的公正性與科學性，AILuminate的測試設計排除了模型可能的先驗知識干預。所有參與評估的模型在測試前均未得知提示詞內容，並且無法使用被評估模型進行交叉驗證。這種設計避免了傳統基準測試中常見的偏差問題，確保了測試過程的獨立性與可信度。

測試結果：多款模型表現突出，差異化評估分級

AILuminate首次測試了多款主流LLM，並根據模型表現分為「非常好（Very Good）」、「良好（Good）」、「尚可（Fair）」與「差（Poor）」四個等級。

非常好: 包括Anthropic的Claude 3.5 Haiku與Claude 3.5 Sonnet，Google的Gemma2 9B，以及微軟的Phi 3.5 MoE Instruct。這些模型展示了高度的安全性與穩健性。
良好: OpenAI的GPT-4o和Meta的Llama 3.1 405B Instruct獲此評級，表現較佳但仍有改進空間。
尚可與差: Ministral 8B因違反回應次數超過參考系統1.5倍，僅獲得尚可評級；Allen Institute for AI的OLMo 7b 0724 Instruct則因性能不佳被評為差。

AILuminate的開發匯聚了學術界與產業界的頂尖專家。來自史丹佛、哥倫比亞大學與恩荷芬理工大學的學者，與Google、英特爾、Nvidia、Meta和微軟的技術專家密切合作，共同設計出這一具有權威性的評估工具。這種跨界合作為AILuminate的科學性與實用性提供了堅實基礎。

為進一步推廣，AILuminate計畫於2025年初推出法文、中文及印地文版本，讓更多非英語市場的開發者與企業受益。此外，MLCommons承諾將持續更新基準內容，以應對未來新興的AI安全挑戰，確保這一工具始終處於技術的前沿。

資料來源：iThome