SEM營銷 / SE0營銷 / SMM營銷技術
善實戰SEO高端人才的智慧結晶
2023-10-06 作者:Zac 來源:SEO每天一貼
人工智能依然大火。最近看到很多有意思的AI應用,我自己也在嘗試在SEO工作中應用AI,以后有機會再和讀者分享心得。
上篇帖子提到,AI公司抓取網站內容用于其AI訓練,站長本身并不一定愿意。過去幾個月,主要AI服務都在商討怎樣讓網站禁止AI蜘蛛抓取。網站有權這樣做是無需討論的,但什么方法更穩妥、簡單是需要考慮的。出了各種方案,我一直關注著,但直到現在才寫,是因為現在才出了有效簡單的方法。
為什么要禁止AI蜘蛛抓取網站內容?因為還沒有明確有效的方式得到回報。就目前情況看,AI抓取內容和搜索引擎抓取內容還有點不一樣。搜索引擎抓取內容后會給網站流量,SEO們巴不得多抓點。
AI把網站內容用于訓練后,網站能得到什么還不確定。ChatGPT和Bard (Google的AI聊天服務)本身基本上是不給出處的,所以網站得不到流量。
Bing和Google都在嘗試把生成式AI融入搜索,也就是Bing Chat和Google的SGE(search generative experience,搜索生成體驗),這兩個都是會給出出處鏈接的。方式和排版五花八門,還在演進中,可以肯定的是,網站可以得到流量。但Bing Chat和SGE使用范圍還不大,以后全面上線后:
用戶會不會點擊AI回答里的鏈接?會和以前的第0位結果一樣帶來流量嗎?但第0位結果往往是不完整的,而AI已經完整回答了問題,用戶還需要點擊嗎?能給出多少鏈接?搜索結果頁面是10個鏈接,生成式搜索結果會是固定數嗎?會是幾個?什么網站能得到鏈接?同一個話題,用于訓練的肯定不是一個網站,那哪個網站會得到鏈接?和做SEO一樣,人人有份嗎?還是將集中于權威網站?怎樣提高被引用的概率?將誕生另一種優化嗎?點擊率是多少?和目前搜索結果類似?點擊率差一點,搜索流量就將差異巨大。等等還都不知道啊。
像我等小博客也就考慮一下流量回報可能性,大公司還得考慮版權、隱私等更嚴重的問題。
怎樣禁止AI抓取網站內容?討論了各種方法后,巨頭們顯然都意識到用robots文件禁止還是最方便的方法。
8月份,OpenAI發布了他們的抓取蜘蛛的新名字- GPTBot,網站可以像禁止其他蜘蛛一樣,用robots文件禁止GPTBot抓取:
User-agent: GPTBotDisallow: /
這里有個有點吊詭、很多人又會忽略的地方:ChatGPT的訓練數據來源可不一定限于GPTBot抓取的數據。OpenAI的官方文件顯示,除了網上的公開信息,他們還可能使用來自第三方的授權信息,這個第三方都包括誰,就不知道了。
9月28號,Google發布了他們用于AI訓練的專用蜘蛛名字: Google-Extended,同樣可以用robots文件簡單禁止:
User-agent: Google-ExtendedDisallow: /
Google的用詞是,用robots文件禁止了Google-Extended蜘蛛,就禁止了Bard和Vertex AI(Google開放給用戶使用的云端機器學習平臺),以及今后所有用于這些產品的模塊。所以禁了Google-Extended就應該徹底不會被用于Google的AI訓練了。
比較有意思的是,Google說的是:
By using Google-Extended to control access to content on a site, a website administrator can choose whether to help these AI models become more accurate and capable over time.
歌詞大意:通過控制Google-Extended,網站可以選擇是否要幫助AI模型成長。
禁了,就是不幫助AI成長啊,有點道德綁架的意思啊,哈哈哈。
哪些網站禁止了AI抓取網站內容?Google的禁止方法才發布,還不知道成效。OpenAI的方法公布一個多月,已經有不少大網站禁了GPTBot。
9月22號,Originality.ai發布帖子,統計了前1000名大網站禁止GPTBot等AI蜘蛛的情況,增長速度挺快,真是殘忍:
前1000名大網站,已經有242個禁了GPTBot,占了能檢查到robots文件的933個網站的26%。其中包括amazon,pinterest,quora,紐約時報,CNN,華盛頓郵報,路透社,等等。
圖里的CCBot是Common Crawl的蜘蛛,一個非贏利組織,是個大型網站數據庫,很多AI是用CC數據庫訓練的,說不定就是OpenAI 的第三方數據提供商之一,所以也被不少網站給禁了。
SEO每天一貼會禁止嗎?本博客會禁止GPTBot和Google-Extended嗎?至少目前不會。
雖然前一篇帖子抱怨了一下,AI抓我內容用于訓練,對我有什么好處呢?不過后來再想想,隨它去吧。AI是大勢所趨,勢不可擋,有沒有我這個博客的內容,對它的影響是零。
不禁,除了有點不甘心,也沒什么實質壞處。禁了AI蜘蛛,對我也沒任何好處啊。還不如換個角度想,能成為這個改變世界的變革的一部分,與有榮焉。
順祝中秋、國慶快樂。
關鍵詞:
上一篇:如何通過6個步驟啟動SEO業務
公司地址:北京朝陽區團結湖嘉盛中心10層
微信:qq652807263
服務手機:13693193565
E-mail:888@edo2008.com