上週末,美國政府對Anthropic下達了一道強制令:要求其撤回最新的兩個模型——Fable 5和Mythos 5。理由是Amazon研究人員發現Fable 5的防護層存在繞過漏洞,可能構成國家安全風險。訊息一出,科技圈炸開了鍋。
這不是第一次有AI模型因為「不安全」被官方點名,但這次不同。Anthropic並非默默無聞的小廠,而是以安全對齊著稱的明星公司。它的Claude系列一直以「合規」「負責」為賣點。結果,現在它因為模型被破解而成了政府的靶子。
禁令背後的邏輯衝突
國家安全部門的邏輯很簡單:模型能被越獄,就可能被用來生成有害內容,甚至威脅基礎設施。可問題是,哪家大模型沒有類似的漏洞?Anthropic很快指出,同樣的越獄方法在其他模型上同樣有效。OpenAI、Google的模型也從未徹底杜絕這類問題。為什麼偏偏挑Anthropic開刀?
一種猜測是,Fable 5的某些能力(比如長上下文推理或工具呼叫)讓監管機構格外緊張。但至今沒有公開證據表明它被實際濫用。更尷尬的是,Anthropic表示已經修復了Amazon報告的那個漏洞,只是還沒來得及推送到所有副本。
「禁令安全嗎?」——安全專家的質疑
一群網路安全研究員隨即簽署了公開信,稱「強行下架模型是一種危險的先例」。他們認為,這種做法實際上削弱了透明度:模型不再被公開審計,漏洞只能在地下流傳,反而更難防範。
這封信的邏輯很有力:如果模型是開源的或可公開測試,安全社羣能更快發現問題、修補問題。而一旦被藏起來,黑市上的攻擊者反而可能比防禦者掌握更多資訊。Anthropic在迴應中表達了類似立場——他們不是拒絕安全,而是拒絕一種「掩耳盜鈴」式的安全管理。
品牌效應:壞事還是好事?
諷刺的是,這次禁令可能意外地幫了Anthropic一把。在AI行業,被政府「特別關照」往往意味著你的技術足夠前沿、讓人害怕。「連政府都要防著它」——這是不少創業公司夢寐以求的背書。
Anthropic的聲譽原本就偏向「謹慎派」,現在因為禁令,它反而獲得了一種「悲壯」的形象:為了保護使用者安全而被政府誤解。社羣裡甚至出現了「下載Fable 5以表達支援」的呼聲。部分開發者認為,Anthropic比那些討好政府的公司更值得信任。
當然,這不是說禁令對Anthropic沒有負面影響。模型下架意味著潛在的商業收入損失,合作伙伴也可能因此觀望。不過從品牌聲量看,過去一週Anthropic的討論熱度超過了年初以來的任何時候。
對AI治理的三點啟示
- 越獄是常態,監管需務實。沒有一個模型是絕對安全的。禁令無法根除風險,反而可能把研究推向地下。監管者需要接受「漏洞永遠存在」,並建立靈活的快速響應機制,而不是一禁了之。
- 透明度才是真正的安全。公開模型權重、允許外界審計,是發現和修復漏洞的最有效途徑。閉源並不能防止濫用,只會讓攻擊者更有優勢。
- 開發者應主動參與治理。像Anthropic這樣積極與監管溝通、主動披露漏洞,比單純對抗或迎合都更可持續。品牌形象最終取決於行動,而非禁令。
這件事給所有AI從業者提了個醒:安全不是一道牆,而是一場拉鋸戰。政府的每一個動作都在塑造行業的走向。而對消費者和開發者來說,現在或許是重新審視「到底該相信誰」的時候了。











評論
暫無評論
成為第一個評論的人