OpenAI模型o3評測起爭議業界籲AI基準測試需揭露真實運算條件
OpenAI模型o3評測起爭議業界籲AI基準測試需揭露真實運算條件

#OpenAI

#生成式AI

#AI應用

Apr 21, 2025 10:16 AM Monday

商傳媒｜記者責任編輯／綜合外電報導

科技媒體《TechCrunch》最新報導，人工智慧領導企業OpenAI推出的o3模型，遭爆實際表現與測試數據不一致的爭議。根據外部研究機構Epoch AI公布第三方測試結果顯示，OpenAI去年底宣稱，o3模型在高難度數學測試集FrontierMath上的正確率達25%，結果實際表現僅約10%，遠低於當初直播中宣傳的成績，引發產業對其測試透明度與評估標準的質疑。

OpenAI技術人員回應表示，當時展示的是以「高運算設定與內部強化腳本支援」的版本，而近期公開推出的o3模型則為專為「實用性與運行效率優化」的產品版本，因此在標準測試上表現有所差異。

根據Epoch AI近日公布的測試結果，o3模型在更新版本FrontierMath-2025測試集的答對率約10%，與OpenAI去年直播中聲稱的「超過25%」相距甚遠。研究團隊強調，該差異可能來自於：

OpenAI當時使用較小範圍（180題）舊版測試集
測試使用更高階、具高推論能力的模型架構
內部運行環境使用強化運算（aggressive test-time compute）與模型腳手架（scaffold）

然而，即便如此，OpenAI並未在最初發布成果時，明確標註上述限制，導致部分用戶、開發者對於產品真實性能產生誤解。

針對評測爭議，OpenAI技術團隊成員Wenda Zhou在上週的直播中回應指出，公開的o3版本已做過優化以適應產品實際需求，「我們希望這個版本更快、更省資源，也更貼近真實使用情境」。Wenda Zhou補充說明：「[o3的公開版本]雖非最強運算配置，但在效率、應用層面具備更好平衡，用戶不需等待數十秒才能得到答案」。

OpenAI也指出，目前旗下o3-mini-high與o4-mini模型，在FrontierMath測試中的表現已優於原始o3，且預計未來數週內將推出的o3-pro進階版本，應可填補此一性能落差。

實際上，這並非AI業界首次爆發基準測試爭議。例如：Meta近期承認其部分測試數據來自尚未公開版本，馬斯克旗下xAI則因「誤導性基準圖表」遭批，另外，Epoch AI也曾被質疑延後公開其與OpenAI的資金關係。

專家認為，隨著生成式AI市場競爭白熱化，企業為爭取媒體曝光與投資信心，往往選擇在最佳情況下公開模型成績，造成評測數據與實際使用體驗不一致。對於仰賴API或OEM應用AI模型的新創與企業來說，模型表現真實性影響決策甚鉅，因此業界呼籲：

AI模型商須揭露測試設定與推論資源條件
第三方基準測試機構需保持獨立性與資金透明
投資人與用戶應要求「實測效能報告」而非行銷報表

OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件

OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件

OpenAI模型o3評測起爭議業界籲AI基準測試需揭露真實運算條件
OpenAI模型o3評測起爭議業界籲AI基準測試需揭露真實運算條件

OpenAI模型o3評測起爭議業界籲AI基準測試需揭露真實運算條件
OpenAI模型o3評測起爭議業界籲AI基準測試需揭露真實運算條件