IT之家 5 月 15 日消息,OpenAI 宣布將更頻繁地公開其內部人工智能模型的安全評估結果,以提高透明度。該公司于周三正式上線了“安全評估中心”網頁,旨在展示其模型在有害內容生成、模型越獄以及幻覺現象等方面的測試表現。
OpenAI 表示,該安全評估中心將用于持續(xù)發(fā)布模型相關指標,并計劃在未來的重大模型更新后及時更新網頁內容。OpenAI 在一篇博客文章中寫道:“隨著人工智能評估科學的不斷發(fā)展,我們致力于分享我們在開發(fā)更具可擴展性的模型能力與安全評估方法方面的進展?!痹摴具€強調,通過在此公開部分安全評估結果,不僅希望讓用戶更清晰地了解 OpenAI 系統(tǒng)隨時間的安全性能變化,也期望能夠支持整個行業(yè)在透明度方面的共同努力。此外,OpenAI 提到可能會隨著時間推移在該中心增加更多評估項目。
此前,OpenAI 曾因部分旗艦模型的安全測試流程過快以及未發(fā)布其他模型的技術報告而受到一些倫理學家的批評。公司首席執(zhí)行官山姆?奧爾特曼(Sam Altman)也因被指在 2023 年 11 月短暫被免職前誤導公司高管關于模型安全審查的問題而備受爭議。
IT之家注意到,就在上個月末,OpenAI 不得不撤銷對 ChatGPT 默認模型 GPT-4o 的一次更新。原因是用戶報告稱該模型的回應方式過于“諂媚”,甚至對一些有問題的、危險的決策和想法也表示贊同。針對這一事件,OpenAI 表示將采取一系列修復和改進措施,以防止類似事件再次發(fā)生。其中包括為部分模型引入一個可選的“alpha 階段”,允許部分 ChatGPT 用戶在模型正式發(fā)布前進行測試并提供反饋。