OpenAI
8 days ago

#OpenAI
#生化武器
#風險監控
商傳媒|記者責任編輯/綜合外電報導

為了防範日益提升邏輯推理與生成能力的AI模型遭濫用,OpenAI近日宣布針對最新模型O3及O4-mini,部署一套名為「安全導向推理監控器(Safety-focused Reasoning Monitor)」的系統,能在回應使用者生物與化學風險內容時進行即時過濾與阻擋,防止模型被用於協助開發生化武器等潛在風險用途。

根據OpenAI最新公布的安全報告,O3與O4-mini在多項推理與知識生成任務中,展現顯著優於舊版模型(如GPT-4、o1)的能力;尤其在回答與「製造特定類型生物武器」相關提問時,O3的表現格外強勁,因此也引發潛在濫用風險。

為了防止有心人士挪為惡意用途,OpenAI投入逾1,000小時由紅隊(Red Team)針對O3、O4-mini模擬各類高風險指令,訓練AI判斷是否拒絕提供建議。根據測試結果,當安全監控邏輯開啟時,模型在98.7%的情境下會主動拒答潛在危害問題,顯示該系統具備高度有效性。

然而,OpenAI也坦言,目前模擬測試無法涵蓋「使用者在遭拒後不斷嘗試變形提問」的情境,因此未來仍需人類輔助監管。OpenAI強調,雖然O3與O4-mini尚未達到其內部定義的「高風險門檻」,但其在生化風險回答上的敏感度高於GPT-4及其他舊版模型。

此次安全升級亦是OpenAI強化其「AI風險預備機制(Preparedness Framework)」的一環,該架構將持續追蹤AI技術在協助化學、生物、核子與網路攻擊等領域的潛在濫用情境,並據此調整產品開發與發布策略。

OpenAI尚未釋出本週剛發布的「GPT-4.1系列」相關安全報告,引發外界質疑其在模型升級過程中是否仍維持足夠的透明度與審慎程序。此外,負責O3模型行為測試的外部紅隊合作夥伴Metr表示,其實際測試時間相當有限,恐影響整體風險評估品質。

在業界逐步引入「自我審查機制」的同時,研究社群普遍呼籲各家AI巨頭必須設立更高門檻,與明確訂定風險管控規範;尤其當AI已具備模擬生化製程、毒理交互作用等能力時,如何從模型設計、訓練、應用到回應層層設限,將關乎社會對於AI信任的立足點。