13693193565

優化技術

SEM營銷 / SE0營銷 / SMM營銷技術

善實戰SEO高端人才的智慧結晶

OPTIMIZATION TECHNIQUE

怎樣禁止AI抓取網站內容用于其訓練

網站管理員 - 瀏覽:

2023-10-06   作者:Zac  來源:SEO每天一貼

人工智能依然大火。最近看到很多有意思的AI應用,我自己也在嘗試在SEO工作中應用AI,以后有機會再和讀者分享心得。

上篇帖子提到,AI公司抓取網站內容用于其AI訓練,站長本身并不一定愿意。過去幾個月,主要AI服務都在商討怎樣讓網站禁止AI蜘蛛抓取。網站有權這樣做是無需討論的,但什么方法更穩妥、簡單是需要考慮的。出了各種方案,我一直關注著,但直到現在才寫,是因為現在才出了有效簡單的方法。

為什么要禁止AI蜘蛛抓取網站內容?因為還沒有明確有效的方式得到回報。就目前情況看,AI抓取內容和搜索引擎抓取內容還有點不一樣。搜索引擎抓取內容后會給網站流量,SEO們巴不得多抓點。

AI把網站內容用于訓練后,網站能得到什么還不確定。ChatGPT和Bard (Google的AI聊天服務)本身基本上是不給出處的,所以網站得不到流量。

Bing和Google都在嘗試把生成式AI融入搜索,也就是Bing Chat和Google的SGE(search generative experience,搜索生成體驗),這兩個都是會給出出處鏈接的。方式和排版五花八門,還在演進中,可以肯定的是,網站可以得到流量。但Bing Chat和SGE使用范圍還不大,以后全面上線后:

用戶會不會點擊AI回答里的鏈接?會和以前的第0位結果一樣帶來流量嗎?但第0位結果往往是不完整的,而AI已經完整回答了問題,用戶還需要點擊嗎?能給出多少鏈接?搜索結果頁面是10個鏈接,生成式搜索結果會是固定數嗎?會是幾個?什么網站能得到鏈接?同一個話題,用于訓練的肯定不是一個網站,那哪個網站會得到鏈接?和做SEO一樣,人人有份嗎?還是將集中于權威網站?怎樣提高被引用的概率?將誕生另一種優化嗎?點擊率是多少?和目前搜索結果類似?點擊率差一點,搜索流量就將差異巨大。等等還都不知道啊。

像我等小博客也就考慮一下流量回報可能性,大公司還得考慮版權、隱私等更嚴重的問題。

怎樣禁止AI抓取網站內容?討論了各種方法后,巨頭們顯然都意識到用robots文件禁止還是最方便的方法。

8月份,OpenAI發布了他們的抓取蜘蛛的新名字- GPTBot,網站可以像禁止其他蜘蛛一樣,用robots文件禁止GPTBot抓取:

User-agent: GPTBotDisallow: /

這里有個有點吊詭、很多人又會忽略的地方:ChatGPT的訓練數據來源可不一定限于GPTBot抓取的數據。OpenAI的官方文件顯示,除了網上的公開信息,他們還可能使用來自第三方的授權信息,這個第三方都包括誰,就不知道了。

9月28號,Google發布了他們用于AI訓練的專用蜘蛛名字: Google-Extended,同樣可以用robots文件簡單禁止:

User-agent: Google-ExtendedDisallow: /

Google的用詞是,用robots文件禁止了Google-Extended蜘蛛,就禁止了Bard和Vertex AI(Google開放給用戶使用的云端機器學習平臺),以及今后所有用于這些產品的模塊。所以禁了Google-Extended就應該徹底不會被用于Google的AI訓練了。

比較有意思的是,Google說的是:

By using Google-Extended to control access to content on a site, a website administrator can choose whether to help these AI models become more accurate and capable over time.

歌詞大意:通過控制Google-Extended,網站可以選擇是否要幫助AI模型成長。

禁了,就是不幫助AI成長啊,有點道德綁架的意思啊,哈哈哈。

哪些網站禁止了AI抓取網站內容?Google的禁止方法才發布,還不知道成效。OpenAI的方法公布一個多月,已經有不少大網站禁了GPTBot。

9月22號,Originality.ai發布帖子,統計了前1000名大網站禁止GPTBot等AI蜘蛛的情況,增長速度挺快,真是殘忍:

前1000名大網站,已經有242個禁了GPTBot,占了能檢查到robots文件的933個網站的26%。其中包括amazon,pinterest,quora,紐約時報,CNN,華盛頓郵報,路透社,等等。

圖里的CCBot是Common Crawl的蜘蛛,一個非贏利組織,是個大型網站數據庫,很多AI是用CC數據庫訓練的,說不定就是OpenAI 的第三方數據提供商之一,所以也被不少網站給禁了。

SEO每天一貼會禁止嗎?本博客會禁止GPTBot和Google-Extended嗎?至少目前不會。

雖然前一篇帖子抱怨了一下,AI抓我內容用于訓練,對我有什么好處呢?不過后來再想想,隨它去吧。AI是大勢所趨,勢不可擋,有沒有我這個博客的內容,對它的影響是零。

不禁,除了有點不甘心,也沒什么實質壞處。禁了AI蜘蛛,對我也沒任何好處啊。還不如換個角度想,能成為這個改變世界的變革的一部分,與有榮焉。

順祝中秋、國慶快樂。

關鍵詞:

上一篇:如何通過6個步驟啟動SEO業務

下一篇:2021年如何向谷歌提交自己的網站

熱門標簽

網站快排 口碑推廣 怎么做流量 網站被黑 Bing排名優化 關鍵詞挖掘 如何抓住微信流量 公眾號引流 百度SEO排名優化 社交網絡搜索 移動SEO搜索優化 網站策劃運營 網站內容怎么調整 網站推廣 網絡營銷 網絡賺錢 網頁設計 英文網站SEO 頁面優化技巧 谷歌SEO排名優化 Google SEO SEO工具 SEO技術 Yahoo排名優化 關鍵詞分析 外部鏈接策略 網站被懲罰 主機域名與SEO 作弊和黑帽SEO 網站降權 創建站點地圖 生成站點地圖 如何生成站點地圖 手動創建站點地圖 站點地圖生成工具 提交站點地圖 短視頻搜索

近期文章

本月閱讀排行

二維碼掃一掃 QR CODE SCAN

  • 微信掃一掃關注我們
  • 手機版掃碼瀏覽

在線預約 Online booking

聯系我們 Contact US

公司地址:北京朝陽區團結湖嘉盛中心10層

微信:qq652807263

服務手機:13693193565

E-mail:888@edo2008.com

COPYRIGHT ? 2006-2023 北京藍纖科技有限公司 ALL RIGHTS RESERVED     京ICP備13006508號    京公網安備11010502025264

亚洲国产日韩在线人成电影