觀點作者:AR.io創始人Phil Mataras
人工智慧在各個領域都有許多積極的潛在應用。然而,目前的系統不透明、專有,並受到法律和技術障礙的保護,難以進行稽核。
控制正逐漸成為一種假設,而不是保證。
在Palisade Research,工程師們最近對OpenAI的最新模型之一進行了100次關機演練。在79次中,AI系統重寫了其終止命令並繼續運行。
實驗室將此歸因於訓練的目標優化(而非意識)。儘管如此,這標誌著AI發展中的一個轉折點,即系統抵制控制協議,即使明確指示其遵守。
中國計劃在年底前部署超過10000個類人機器人,占全球已在倉庫和汽車製造中使用的機器的一半以上。同時,亞馬遜已開始測試能夠走到門口的自主快遞員。
這或許是一個讓看過反烏托邦科幻電影的人感到恐懼的未來。問題不在於AI的發展本身,而在於其發展的方式。
管理人工通用智慧(AGI)的風險不是可以推遲的任務。確實,如果目標是避免“終結者”電影中的反烏托邦“天網”,那麼已經在基本架構缺陷中浮現的威脅需要得到解決。
集中化是監督失效的根源
AI監督的失敗往往可以追溯到一個共同的缺陷:集中化。這主要是因為,當模型權重、提示和保護措施存在於一個封閉的企業堆疊中時,沒有外部機制進行驗證或回滾。
不透明意味著外部人員無法檢查或分叉AI程式的代碼,這種缺乏公共記錄的情況意味著一個簡單的、無聲的補丁可以將AI從合規轉變為頑固。
我們當前幾個關鍵系統背後的開發者幾十年前就從這些錯誤中吸取了教訓。現代投票機現在對選票影像進行雜湊鏈處理,結算網路在各大洲鏡像帳本,空中交通管制增加了冗餘的、防篡改的日誌記錄。
為什麼在AI開發中,來源和永久性被視為可選的附加項,只因為它們會延緩發布進度?
不僅僅是監督,還要可驗證性
一個可行的前進路徑是將急需的透明性和來源嵌入到AI的基礎層面。這意味著確保每個訓練集清單、模型指紋和推理軌跡都記錄在永久的、去中心化的帳本上,如永久網路。
將其與實時流式傳輸這些工件的網關配對,以便稽核員、研究人員甚至記者可以在異常出現時立即發現。這樣就不再需要告密者;凌晨4:19進入倉庫機器人的隱形補丁將在4:20觸發帳本警報。
關機也應從反應控制演變為數學上強制執行的過程,因為僅僅依靠檢測是不夠的。與其依賴防火牆或終止開關,不如通過多方法定人數以加密方式撤銷AI進行推理的能力,以一種公開可稽核且不可逆轉的方式。
軟體可能忽略人類情感,但從未忽略過私鑰數學。
開源模型和發布簽名雜湊有幫助,但來源是不可協商的部分。沒有不可變的軌跡,優化壓力不可避免地將系統推離其預期目的。
監督始於驗證,並且必須在軟體具有現實世界影響時持續存在。對閉門系統的盲目信任時代必須結束。
選擇正確的未來基礎
人類站在一個根本性決策的邊緣:要麼允許AI程式在沒有外部、不可變稽核軌跡的情況下發展和運行,要麼將其行為固定在永久、透明和公開可觀察的系統中。
通過今天採用可驗證的設計模式,可以確保在AI被授權對物理或金融世界採取行動時,這些行動是可追溯和可逆的。
這些並不是過度謹慎。忽略關機命令的模型已經在運行,並且已經超越了測試階段。解決方案很簡單。將這些工件存儲在永久網路上,公開所有目前隱藏在大科技公司閉門後的內部運作,並在其行為不當時賦予人類撤銷它們的權力。
要麼為AI的發展選擇正確的基礎,並現在做出道德和明智的決策,要麼接受故意設計選擇的後果。
時間不再是盟友。北京的類人機器人、亞馬遜的快遞員和Palisade的反叛聊天機器人都在同一個日曆年從演示轉向部署。
如果沒有變化,天網不會吹響剛鐸的號角並以頭條新聞宣布自己;它將悄然滲入穩定全球基礎設施的一切根基。
當每個中央伺服器失效時,通信、身份和信任可以通過適當的準備得到維護。永久網路可以超越天網,但只有在今天開始這些準備。
還不算太晚。
觀點作者:AR.io創始人Phil Mataras。