少妇被粗大的猛烈进出69影院一-国产中年熟女高潮大集合-《放荡的女人2》在线观看-色欲综合一区二区三区

數百萬人的隱私被用于訓練 ChatGPT?大模型時代隱私保護有新解

時間:2023-07-12 10:24:47 來源: 動點科技


大模型的爆發是把雙刃劍,ChatGPT 等智能化工具產品令人驚艷,隨之而來的愈加復雜的隱私安全問題同樣值得重點關注。

日前,明星大模型 ChatGPT 的開發者 OpenAI 被卷入兩場訴訟中:16 人匿名指控 ChatGPT 在訓練過程中收集了大量的個人數據,起訴要求 30 億美元賠償;兩名職業作者指控 OpenAI 未經允許使用了他們的小說訓練 ChatGPT,侵犯了他們的版權,同樣要求賠償 30 億美元,目前兩起訴訟均在審理中。


(資料圖片僅供參考)

總部位于加州的克拉克森律師事務所表示,OpenAI 從互聯網上秘密抓取了約 3000 億字的內容,其中包括書籍、文章、網站和帖子以及未經同意的個人信息,受害用戶達到數百萬人。

此前,三星被曝在使用 ChatGPT 不到 20 天的時間里發生 3 起機密數據泄露,涉及三星半導體設備測量資料、產品良率等信息。把時間撥回今年一季度,香港大學等高校、頂級投行摩根大通等企業乃至意大利等國宣布禁止使用 ChatGPT ……從擔心飯碗不保到憂慮隱私和版權被侵犯,生成式 AI 引發的危機感正不斷升級。

大模型時代的隱私保護挑戰

ChatGPT 這類大模型的進化依賴大量數據的訓練,通過感應器采集數據,進行信息存儲、加工,通過算力進行計算,最后形成決策機制,進行反饋。其中的數據采集環節,可能導致個人隱私、商業機密乃至國家政府層面的信息泄露與擴散,造成數據安全方面的威脅。

一篇題為的論文通過實驗證明了大語言模型會記住并且泄露部分訓練數據,并且越大的模型記憶力越強。此外,不僅是 OpenAI 的 GPT 模型,諸如 BERT、RoBERTa 等其他主流語言模型也紛紛中招。

上海市數據科學重點實驗室主任肖仰華認為,大模型時代隱私泄露及侵權問題突出的原因主要在于大模型本身參數規模巨大、數據來源多樣。生成式大模型的結果是從海量的語料中隨機拼接式的概率化生成,傳統上用于認定隱私侵犯的手法在大模型時代會失效,因此在侵犯識別層面就已造成困難。從保護角度而言,大模型是基于深度神經網絡 Transformer 的架構,后者本質上是黑盒模型,其習得的知識和能力體系、內部運行的規律直到現在仍鮮為人知,這更使得對隱私保護很多時候無處著手。

在深度學習領域,模型的準確性與可解釋性通常不可兼得:諸如神經網絡、梯度增強模型等黑盒模型通常具有很高的準確性。但這類模型的內部工作機制卻難以理解,也無法估計每個特征對模型預測結果的重要性,更不能理解不同特征之間的相互作用關系。而線性回歸和決策樹之類的白盒模型的預測能力通常是有限的,且無法對數據集內在的復雜性進行特征交互之類的建模。然而,這類簡單的模型通常有更好的可解釋性,內部的工作原理也更容易解釋。

隱私計算如何切入大模型?

不可否認的是,大模型是一種先進生產力,是個人和企業都應該積極擁抱的,如果因為有隱私的顧慮而直接放棄對大模型的應用,某種程度上無異于因噎廢食。如何正視隱私安全問題的存在,并通過相應的手段提高隱私保護的能力、積極應用大模型才是解決問題的正途。

通過多方安全計算、聯邦學習、可信執行環境等技術,隱私計算起著平衡數據隱私保護與數據開放共享的作用,是數據要素安全領域的關鍵技術之一。

大模型時代,隱私計算技術本身的研究、發展和關注的重點也發生著改變,為讓其更好地適應大模型,可以重點關注其可用性的研究。

肖仰華認為,隱私計算在大模型時代迎來了全新的機遇。諸如差分隱私、聯邦學習等傳統隱私計算都是在算法層面開展工作,但是算法層面工作的實施有其前提:例如,保護對象明確才可以實施差分隱私算法,合作協議清晰才可以施展一些聯邦學習的策略。而海量化、參數化的大模型,給傳統的基于可控、可解釋、清晰的技術路線的隱私計算提出了全新的挑戰。在不可控、不可編輯、難以解釋的大模型環境下,傳統方法如何進行發展,這看似是挑戰,更多是機遇。

此外,從算法層面上升到架構層面,大模型的隱私保護還要從隔離機制角度分析。對于一些需要進行分層分級保護的個人與企業私密數據,可以建立起大模型自主學習能力和敏感數據相隔離的架構,大模型繼續提供其智能,而需要保護的數據和信息依然被保存在密態數據庫中,二者的相互協同也給隱私計算帶來了新機遇。

中國信通院云大所大數據與區塊鏈部門副主任閆樹表示,隱私計算的各類技術路線都有與大模型應用場景適配的方式。比如在云端部署一些 TEE(可信執行環境)做訓練,或在模型推理階段用多方安全計算來提升隱私保護能力,但可能會相應犧牲一些模型的性能。

大模型不應成為脫韁野馬

今年 5 月,肖仰華曾發表一篇題為《不要讓大模型變成一場華麗的煙花秀》的近萬字長文,主張發展大模型的同時要形成有效監管,對于隱私侵犯等破壞行為不能忽視,必須從產業的兩側加強安全底線、倫理標準與合規規范的建設:在數據源頭端,加強對訓練語料合規性的認證;在生成結果端,對生成內容建立起相關規范。

目前,網信辦正推動《生成式人工智能服務管理辦法》的出臺,對生成式 AI 技術、生成內容、主體責任、數據源和數據處理等方面都作出了規定。

僅就隱私保護而言,我們需要建立起一個系統性的隱私保護防范體系:從用戶角度,要建立起對大模型隱私的安全意識,要充分認識到在使用大模型過程當中,你的數據有可能被服務方所收集,從而導致隱私泄露;從提供大模型服務的廠商角度,要提升服務的規范性,給予用戶充分的知情權,在用戶完全授權的情況下,合理范圍下收集用戶相關的使用的數據,不應該超出用戶授權的范圍。

技術方面,在模型與應用之間還存在一層中間層,可以打亂、混淆用戶的數據使用與查詢記錄。此外,以大模型治大模型也是一條重要路徑,即靠大模型自身的能力來保護隱私,解決隱私問題。大模型可以識別出語料中有隱私侵犯嫌疑的內容,我們可以利用大模型清洗隱私數據、對其生成結果進行評估,來規避侵犯隱私問題的發生。

關鍵詞:

網站簡介 網站團隊 本網動態 友情鏈接 版權聲明 我要投稿

Copyright? 2014-2020 中原網視臺(www.loj.net.cn) All rights reserved.

主站蜘蛛池模板: 青铜峡市| 寿光市| 德州市| 石泉县| 中阳县| 南京市| 两当县| 常熟市| 莎车县| 轮台县| 白玉县| 江口县| 康乐县| 甘泉县| 南江县| 祁阳县| 克东县| 潼南县| 新津县| 石首市| 都兰县| 恩施市| 寿光市| 措美县| 洮南市| 若羌县| 廉江市| 漳州市| 安福县| 杨浦区| 东乌珠穆沁旗| 葵青区| 尼木县| 广安市| 宾阳县| 德兴市| 滁州市| 晋城| 清镇市| 徐州市| 邛崃市|