在數(shù)字原住民的 Z 世代的口口相傳中,「互聯(lián)網(wǎng)時代 99% 的公開信息都是垃圾」的粗略定義早已見怪不怪了,而有趣的是,彼之砒霜,我之蜜糖,以 Google 為代表的 AI 巨頭卻開始盯上了這些互聯(lián)網(wǎng)上公開的信息。
(資料圖片)
近日,搜索引擎巨頭 Google 更新了其隱私政策,將使用互聯(lián)網(wǎng)上的公開信息訓(xùn)練 AI 模型。隱私政策中寫到,Google 現(xiàn)可通過收集網(wǎng)絡(luò)上的公開信息或來自其他公共來源的信息,以幫助訓(xùn)練 Google 的 AI 模型并打造實用功能,如 Google 翻譯、Bard 和 Google 云 AI,此外,Google 將還原本的「語言模型」更改為「AI 模型」。
據(jù)媒體 OSCHINA 分析指出,這項政策更新表明, Google 現(xiàn)在正在向公眾及其用戶明確表示,他們在網(wǎng)上公開發(fā)布的任何內(nèi)容都可以用 Bard 和其未來版本,以及 Google 開發(fā)的任何其他生成人工智能產(chǎn)品。生成式人工智能 AIGC 系統(tǒng)通常會根據(jù)互聯(lián)網(wǎng)上的海量通用數(shù)據(jù)進(jìn)行預(yù)先訓(xùn)練,從而大幅提升 AI 的泛化性、通用性、實用性,而這難免會陷入版權(quán)、隱私的糾紛。
對于這個困境,可能暫時沒有誰比 OpenAI 更理解了。
就在不久前,人工智能聊天機器人 ChatGPT 母公司 OpenAI 被兩名美國作家在舊金山聯(lián)邦法院提起訴訟,聲稱 OpenAI 沒有獲得版權(quán)授權(quán),就濫用他們的作品來訓(xùn)練人工智能。
被曝光的起訴書顯示,OpenAI 的訓(xùn)練數(shù)據(jù)超過 30 萬本書,其中就包括本就飽受爭議,版權(quán)歸屬不清晰的「影子圖書館」(大多是以侵犯版權(quán)的方式向公眾免費提供書籍文獻(xiàn)內(nèi)容的線上網(wǎng)站)。此外就在昨天,OpenAI 宣布,將暫時禁用 ChatGPT 的官方網(wǎng)頁瀏覽模式,而這或許與 ChatGPT 被曝能夠翻閱付費墻,獲取隱藏的付費內(nèi)容有關(guān)。繼美國作家版權(quán)訴訟事件之后,輿論之下,OpenAI 再次深陷版權(quán)風(fēng)波。
因此,在 OpenAI 被訴訟的前車之鑒下,Google 未雨綢繆地更新隱私政策,提前給自己套上一個盾倒也合情合理。
雖然這一舉措有效降低了 Google 「吃官司」的風(fēng)險,卻也將生成式人工智能使用海量網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的事實赤裸裸地擺在明面上,因此難免引發(fā)大眾對于隱私權(quán)的擔(dān)憂。外媒 Gizmodo 對此也評論認(rèn)為,這是一種新的、有趣的隱私問題。
事實上,即使人們普遍理解網(wǎng)上公開發(fā)布的數(shù)據(jù)信息是開放自由的,對數(shù)據(jù)信息有可能被他人訪問是有一個心理預(yù)期的,但是如果網(wǎng)絡(luò)上海量數(shù)據(jù)信息被互聯(lián)網(wǎng) AI 巨頭當(dāng)做自家后花園,肆意使用以訓(xùn)練人工智能,相信不少人會憑空產(chǎn)生被侵犯個人領(lǐng)域的「別扭感」,從而對此持著一種較為謹(jǐn)慎的態(tài)度。被這個問題困擾的不止普通用戶,埃隆 · 馬斯克近日宣布 Twitter 將「臨時限制」用戶每日閱讀推文數(shù)量:未驗證的賬戶每天只能看到 600 條推文,對于新的未驗證賬戶,一天只能看到 300 條。經(jīng)過驗證的賬戶每天只能閱讀 6000 條帖子。
馬斯克表示,這是因為有幾百個組織(包括一些 AI 公司)正在抓取 Twitter 數(shù)據(jù),以至于影響了真實用戶的體驗。
只不過,時代列車前行的轟隆聲,有時足以淹沒乘客充滿異議的嘈雜。
如果 Google 這一舉措合法合規(guī),且得到 AI 巨頭們的紛紛效仿,或許有一天,我們都會從生成式人工智能中找到自己存在的痕跡。