SEM營銷 / SE0營銷 / SMM營銷技術
善實戰SEO高端人才的智慧結晶
2023-09-10 作者:Zac 來源:SEO每天一貼
這篇帖子是去年(2019年)10月28號打的草稿,今天補充完成發出來。過去一年,關于搜索算法和SEO思維最大的新聞依然是這件事。
2019年10月,Google公布上線BERT算法。
什么是BERTBERT是Bidirectional Encoder Representations from Transformers的縮寫,中文意思大概是“雙向transformer編碼器表達”,“transformer”實在不知道怎么翻譯了,應該是一種神經網絡的深層模型。
Google在2018年已經把BERT開源了,所以誰都可以用。BERT是一種基于神經網絡的自然語言處理預訓練技術,其用途不僅限于搜索算法,任何人都可以把BERT用在其它問答類型的系統中。
BERT的作用簡單來說就是讓電腦能更好、更像人類一樣地理解語言。人類在自然語言處理方面已經探索了很多年了,BERT可以說是近年最強的自然語言處理模型了。
Google在把BERT使用在搜索算法之前,就在機器閱讀理解水平11項測試中獲得全面超越人類的成績,包括情緒分析、實體識別、后續詞語出現預測、文字分類等等。
現在關于BERT技術的中文文章已經很多了,搜索一下會看到很多,太技術了,絕大部分我是看不懂。
什么是Google BERT算法更新Google官方博客2019年10月25號發了一篇帖子,公布了BERT算法的一些情況。
Google自己的說法是,BERT算法在帖子發布那個星期在英文搜索中逐漸上線,然后其它語言也陸續上線。同時,BERT也使用在第0位結果(官方名稱精選摘要)算法中,已經在所有語言使用。
BERT算法影響大致10%的查詢詞。Google認為BERT是自5年前的RankBrain之后最大的算法突破性進展,也是搜索歷史上最大的突破之一。不過從過去一年的自然搜索流量看,BERT可能在搜索技術意義上的突破是挺大的,但對搜索結果和SEO其實沒那么大影響。就我所接觸的英文網站看,疫情和核心算法更新對很多網站的影響大多了。這里說的影響不僅僅指負面影響,也有的網站在疫情或核心算法情況下,SEO流量是大漲的。
BERT用在搜索中理解語言時的特點是:一句話不是一個詞一個詞按順序處理,而是考慮一個詞與句子里其它所有詞之間的關系,也就是說,BERT會看一個詞前面和后面的其它詞,因此更深入地從完整上下文理解詞義,也能更準確理解搜索查詢詞背后的真正意圖。
從Google的描述和舉例來看,“考慮一個詞與句子里其它所有詞之間的關系”包括了:
這個詞前面以及后面的詞不僅包括前后緊鄰的其它詞,也包括隔開的其它詞詞的順序關系從前往后的順序,以及從后往前的順序(所謂雙向)BERT解決了什么搜索問題搜索的核心是理解語言。對用戶查詢詞的理解是其中重要一部分,用戶查詢時用的詞五花八門,可能有錯字,可能有歧義,可能用戶自己都不知道該查詢什么詞,搜索引擎都要先弄明白用戶到底想搜索什么,才談得到返回匹配的結果。
搜索引擎收到查詢詞時,根據不同情況會做很多不同處理。比如,了解基本搜索算法的SEO肯定都知道,搜索引擎會對查詢詞做錯別字、拼寫錯誤之類的處理,也會對查詢詞做同義詞、近義詞、異體字的擴展,這都是對查詢詞的簡單理解處理。
情況再復雜一點,比如查詢“蘋果”時,搜索引擎在沒有用戶搜索歷史的情況下,雖然大概率是在搜索手機,但無法100%確定用戶到底是想搜索水果,還是手機,還是電影,還是報紙,但查詢“蘋果 減肥”,搜索引擎從語義分析就能知道這里的蘋果指的是水果了。
再有歧義一點,查詢“二姐夫“,用戶是想了解二姐她老公嗎?搜索引擎很可能通過機器學習用戶點擊數據,早就知道用戶其實是想了解羽毛球拍。Google和百度理解都沒問題:
那么比如查詢“新加坡 上海 機票”時,人類可以理解大概率是想找“新加坡到上?!睓C票,但搜索引擎很可能無法判斷到底是在找“新加坡到上?!睓C票,還是在找“上海到新加坡”機票,因為兩個查詢的詞在分詞后是完全一樣的。語義分析也失效,都是機票、旅游相關。
這種正是BERT大顯身手的時候了,如前所述,BERT會考慮上下文以及詞之間的順序,還知道從前向后和從后向前的順序是不一樣的。
對英文來說,查詢有for、to之類的介詞而且這些介詞對查詢意義有重大影響時,還有比較長的、對話形式的查詢,BERT能夠更好理解查詢的上下文及真正意義。
由于以前搜索引擎理解力不足,搜索用戶也都被迫形成了一種以關鍵詞為主的查詢習慣。但我們生活中有問題問朋友時可不是用幾個關鍵詞來問的,而是以完整問句來問的。有了BERT這種對查詢詞的更好理解,用戶才能以更自然、更人性的方式搜索。可能就是在這個意義上, Google認為BERT是搜索技術的一大突破。
Google舉了幾個例子,我覺得第一個是最能說明BERT特點的:
上圖顯示的是BERT算法上線前后的Google搜索結果,查詢的詞是“2019 brazil traveler to usa need a visa”(2019年巴西游客到美國需要簽證)。英文里的“to”在經典的搜索算法里很可能會被當作停止詞而忽略了,但在這個查詢里,“to”對查詢意圖有決定性意義,“巴西游客到美國”與“美國游客到巴西”的簽證要求是完全不同的兩個意義。
使用BERT前,Google返回了美國游客去巴西不用簽證的信息,使用BERT之后,Google正確判斷“誰to誰”是十分重要的,返回了巴西游客到美國是否需要簽證的結果。
Google給的另一個例子是查詢“Can you get medicine for someone pharmacy”(在藥店能給別人買藥嗎),介詞for也經常被忽略,但這里的for要是被忽略了,意思就差遠了,變成了“在藥店能買藥嗎”。
SEO們怎么應對BERT算法Google明確說,沒有辦法針對BERT做什么優化,SEO們繼續為用戶自然而然地寫高質量文章就行了。
思考一下,覺得是有道理的,Google并沒有騙我們。BERT是用于理解查詢詞的真正意義,是在尋找匹配的頁面之前就發生的,SEO們并沒有辦法通過BERT使自己的內容更相關。頁面內容是什么就是什么,與BERT理解查詢詞的過程沒有什么關系。
一個反例更能說明這一點。我現在搜索“2019 brazil traveler to usa need a visa”這句話時,實際上看到的前兩個結果都是錯誤的、美國游客到巴西是否需要簽證的信息:
即使BERT已經上線,Google對查詢的理解依然可能出問題。Google對查詢詞理解錯誤,自然返回錯誤的頁面,和你的頁面質量高不高沒關系。
堅持看到這里的讀者給個彩蛋。雖然沒辦法針對BERT進行優化,但BERT對SEO有沒有別的應用場景呢?前面提過幾個關鍵詞:雙向,詞語的順序,后續詞語預測。實際上,BERT可以用來預測一個給定詞后面可能出現的其它詞。
這有什么用?比如給定一個詞:SEO,BERT可以預測后面可能出現的詞。那么一直預測下去,不就形成句子了?這不就是自動寫作機器嗎?而且是符合語義、符合語法、經過AI深度學習驗證的。
已經有這類工具了,只是質量還不太令人滿意,生成的中文內容更差。不知道國內會不會有人開發出基于BERT的中文自動寫作軟件。
上一篇:Google產品評論算法更新
公司地址:北京朝陽區團結湖嘉盛中心10層
微信:qq652807263
服務手機:13693193565
E-mail:888@edo2008.com