SEO設計過程的第一步是確保你的網站能夠被搜索引擎發現并爬行。說起來容易,但做起來卻很難,因為有許多熱門網站設計和運行架構是爬蟲無法理解的。
可索引的內容
要想在搜索引擎中獲得好的排名,那么你的網站內容,也就是呈現給網站訪客的材料,必須是HTML文本格式。例如,圖片和 Flash文件盡管能被搜索引擎爬廳,但搜索引擎卻很難分析這些內容。因此這些文件便不適合向搜索引擎傳遞頁面相關性的信號。搜索引擎很難識別圖片的相關性,這是因為GIF、JPEG或PNG格式的圖片文件內含有極少的文本輸入字段(也就是文件名、標題及l屬性)。因此,我們強烈建議你在這些字段中準確詳細地對圖片進行標注,僅僅一個圖片是無法為網頁在相關搜索請求中獲得較高排名的;圖片識別技術不斷進步,所以在不久的將來,處理能力的局限性可能會妨礙搜索引擎在網絡搜索中廣泛運用這種分析方法。
除了文本之外,谷歌允許用戶使用圖片作為搜索請求進行搜索(不過,用戶可以輸入文本對該搜索請求進行補充說明),上傳一張圖片,從桌面拖曳一張圖片,輸入圖片網址或在瀏覽器(安裝有插件的 Firefox及 Chrom測覽器)內右擊圖片,用戶通常都能在網頁中找到該圖片的其他位置以進行參考和研究,同時還會找到與該圖片的色調和內容相似的其他圖片。這雖然不能立即改變圖片在SEO中的局面,但最起碼它給了我們一個提示,讓我們知道谷歌如何擴充圖片內容的通用相關性指示符。
對于 Flash文件,盡管可以爬取具體的w文件(最常見的Fash文件擴展名)并且建立索引,而且當用戶在運行個.sw文件搜索文件名中包含的具體的詞匯或短語時,經常也會碰到.w文件,但在通用查詢中,很少會返回一個Fash文件或者一個全部由Fash構建的網站作為一個高度相關的搜索結果,這是因為缺少“可讀性”的內容。這并不是說,使用∏lash創建的網站本來就缺乏相關性,或者我們無法成功地優化一個使用Fash的網站,而是從我們的經驗來看,IM格式的文件是較好的選擇。
可爬行的鏈接架構
正如我們在第2章中講到的,搜索引擎會使用網頁中的鏈接來幫助它們發現其他的網頁或網站。出于這個原因,我們強烈建議你拿出時間來創建一個能被爬蟲順利爬行的內鏈架構。許多網站會犯一些致命性的錯誤,它們會隱藏或模糊其導航結構,限制了爬蟲的讀取能力,從而導致網頁無法出現在搜索引擎的索引中,圖6-解釋了這個問題是如何出現的。
谷歌爬蟲已經到達了頁面A,并看到了頁面B和的鏈接,但盡管頁面C和D可能是網站中比較重要的頁面,爬蟲卻無法訪問這些頁面(盡管知道了這些頁面的存在),這主要是因為缺少到達這些頁面的、直接可爬行的鏈接點。在谷歌看來,這類頁面便等同于不存在。如果吧蟲無法在第一時間到達頁面,那么再好的內容、再好的關鍵詞選擇、再好的營銷策略都是無濟于事的。
下面是一些頁面可能無法被讀取的常見原因,使用提交格式的鏈接搜索爬蟲幾乎不會去嘗試“提交”格式,因此僅通過某種格式才能訪問的內容或鏈接對搜索引擎是不可見的,甚至一些簡單的格式也會起到反作用,如用戶注冊、搜索框或某些下拉列表。
使用難以解析的 Javascript的鏈接如果在鏈接中使用 Javascript,那么你可能會發現搜索引擎既不爬行,也不在意這些嵌入鏈接。2014年6月,谷歌宣布能夠爬行 Javascript和CSS。谷歌目前不僅能夠解析一些 Javascript,而且能夠訪問些 Javascript鏈接。基于這一改變,谷歌能夠爬行你的 Javascrip和CSS文件。要預覽谷歌如何解析你的網站,你可以點擊Search Console-> Crawl->Fetch as google輸入你想要預覽的網址,選擇“ Fetchand Render”。
Java或其他插件中的鏈接
通常來講,搜索引擎不會查看嵌入在ava和插件中的鏈接。
Flash中的插件
從理論上來講,搜索引擎能夠發現Flash內的鏈接,但是并不會過分依賴這個發現功能。Powerpoint和PDF文件中的鏈接搜索引擎有時會顯示在 Powerpoint文件或PDFA文件中看到的鏈接,這些鏈接被看作是與嵌入在HTM文件中的鏈接相似的。
指向 robots標簽、re=” nofollow”或robots. tx限制頁面的鏈接.
robots. tx文件提供了一種能夠阻止網絡爬蟲爬行網站頁面的方法,在鏈接中使用norodom屬性或者在包含鏈接的頁面中添加 content-” nofollow”屬性的元 robotsnofollow tag,指示搜索引擎不要通過鏈接越過鏈接權限內容推送和搜索爬蟲控制”部分詳細討論這個概念)。由于一些霸道的SEO從業者過度操控,鏈接中 nofollow屬性的有效性已大打折扣,更多這方面的內容請參見谷歌Matt cutts博客“網頁排名實踐”。
鏈接所在的頁面含有成干上萬個鏈接之前,谷歌曾建議每個頁面最多包含100個鏈接,若超出這個數值,它便會停止從該頁面爬行其他的鏈接,但是隨著時間的推移,這個建議也漸漸過時了,我們更多時候會將其看作一個通過頁面排名的策略性指導意見,如果一個頁面內包含200個鏈接,那么任何一個鏈接都不會獲得較高的網頁排名。通過限制鏈接的數量來設法控制網頁排名,這通常是個不錯的主意。有些工具能夠統計每個頁面活躍的鏈接數量,如 Screaming frog.
在框架或內嵌框架中的鏈接
從嚴格意義上來講,在框架和內嵌框架中的鏈接都能夠被爬行,但框架和內嵌框架在組織機制和追蹤方面給搜索引擎帶來了結構性的問題。除非你是一位資深用戶,非常清楚搜索引擎在技術層面是如何索引和追蹤框架內的鏈接的,否則最好不要將鏈接放在框架內,以免岀現不能被爬行的問題。我們將在6.2節“創建最佳的信息架構”中詳細討論框架和內嵌框架。
XML站點地圖
谷歌、 Yahoo l!和Bing(原來是MSN搜索,然后是實時搜索)都支持一個叫XML站點地圖的協議,谷歌在2005年首先宣布了這一協議,之后是 Yahoo!,然后在2006年,MSN搜索也宣布支持這協議。使用站點地圖協議,你可以向搜索引擎提交一個列表,列出所有你希望能夠被搜索引擎爬行和索引的網址。
將網址添加到站點地圖文件中并不能保證該網址就一定能被爬行或索引,但它能夠吸引搜索引擎發現和索引一些本來沒有被注意到的頁面。
該程序是對搜索引擎常規基于鏈接的爬行的一種補充,而不是替代。站點地圖的優點主要如下:
對于一些搜索引擎通過其常規吧行所獲取的頁面,搜索引擎會使用你提供的元數據來改善爬行你的網站的方式;如內容最后一次修改的時間(最后修改日期頁面被修改的頻率(修改頻率等元數據。
對于它們不知道的一些頁面,搜索引擎會使用你提供的附加網址來增加爬行的覆蓋范圍。
對于一些可能有多個副本的網址,搜索引擎會使用XML站點地圖數據來選擇一個比較標準的版本。
XML站點地圖的認證和注冊可能會提供一些正面的可信任權威信號。
站點地圖的爬行內置優點可能還有其他積極的作用,如提高排名或內部鏈接的廣泛度。
在( google search console中注冊站點地圖,能夠幫助你更好地了解自己的網站是否遇到了索引、爬行或內容重復的問題。谷歌反垃圾小隊的前隊長 Matt cutts是這樣解釋XM站點地圖的:
假設網站有A、B、C三個頁面,我們通過常規的鏈接爬行找到了頁面A和B,之后你創建一個站點地圖,列出了頁面B和C,那么現在我們就有機會(但不一定)吧行頁面C,我們也不會因為你沒有將頁面A列在站點地圖內而放棄它,而且我們也不會因為你在站點地圖中列出了一個我們不知道的頁面,就能保證我們爬行該頁面,但如果之前我們出于某些原因沒有看到頁面C的鏈接,或者我們雖然知道頁面C而頁面網址因包含參數過多或因其他一些原因而被拒絕了,那么有了站點地圖之后,我們就有可能會爬行頁面.
站點地圖使用的XML格式非常簡單,你可以在htp:www.Sitemaps.org/了解這一格式。對于網站來講,XML站點地圖是一個非常有用且在某些情況下可以說是非常重要的工具,尤其是,如果你有理由相信網站沒有被充分索引,那么XMI站點地圖就能夠幫助你使更多的頁面被索引。隨著網站規模的不斷擴大XMI站點地圖文件的價值也日漸凸顯出來,因為站點地圖能夠吸引更多的流量流向新增的網址。
創建一個XM站點地圖
創建XML站點地圖的第一步是創建一個正確格式下的XML站點地圖,因為創建一個XM站點地圖需要一定的技術知識,因此你最好從一開始就讓自己的開發團隊參與到XML站點地圖.
你可以使用以下工具創建XML站點地圖.
XML站點地圖生成器這是一個簡單的腳本,你可以安裝該腳本以自動生成并提交站點地圖。站點地圖生成器能夠根據網址列表、用戶訪問日志,或一個具有與URL對應的靜態文件的目錄路徑創建這些站點地圖,下面是幾個XML站點地圖生成器的例子Source Forge net s谷歌sitemap genXml-sitemaps.comSitemapGen-eratorSitemaps PalGsite crawler簡單的文本你可以向谷歌提供一個簡單的文本文件,文件每行僅一個網址。不過,谷歌建議,如果網站有文本站點地圖文件那么你最好使用站點地圖協議,借助站點地圖生成器從該文本文件中生成一個站點地圖。網站聚合內容摘要谷歌接受網站聚合內容摘要(RSS2.0和Atom1.0摘要。需要注意的是,摘要可能僅提供與最近網址相關的信息。
確定在站點地圖文件中包含哪些內容
在創建站點地圖文件的過程中,你需要注意一些情況,看看網站的哪些位置有多個指向同一條內容的網址:包括“唯一的”偏好的(標準的)網址版本,因為搜索引擎可能會認為在站點地圖文件中指定的網址更適合某個內容的網址,所以你可以使用站點地圖文件提示搜索引擎哪個網址是更適合某個特定頁面的。
另外需要注意不要在站點地圖中添加什么樣的內容。例如,不要添加多個指向同一內容的網址,不要添加一些僅是頁碼標記的頁面(或同一內容的交替排列次序),更不要將網站中價值不大的頁面添加到站點地圖中。最重要的是,確保站點地圖文件中的所有網址均不含追蹤參數。
移動設備站點地圖。對于目標是移動設備中的內容,我們可以使用移動設備站點地圖,移動設備信息被保存在一個獨立的站點地圖文件中,該文件中不包含任何與非移動網址相關的信息。谷歌支持非移動標記、 XHTML移動配置文件WML(WAP12)及 CHTMI。視頻站點地圖。在站點地圖中添加與視頻相關的信息,會提升視頻被搜索引孳發現的機會。谷歌支持以下的視頻格式:mpg、mpeg、mp4、m4v、mov、wmv、asf、avi、ra、ram、rm、flv、及.swf等.
圖片站點地圖。將圖像添加到站點地圖文件中能夠增加圖片的可見性。你除了可以在站點地圖文件中添加頁面網址,還可以列出出現在這些頁面中的圖片。每個頁面最多能列出1000張圖片,將專門的圖片標簽與網址相關聯。在站點地圖中列出圖片,這并不會增加這些圖片被索引的機會,但如果你列出其中一些圖片,而未列出其他的一些圖片,那么那些未被列出的圖片會被認為不重要.
上傳站點地圖文件
站點地圖文件完成之后,將其上傳到你的網站,并放置在你希望搜索引擎爬行的目錄的最頂端(通常來講,是根目錄),如www.yoursite:com/sitemap.xml。你可以在提交的站點地圖中添加多個子域,然后在( google Search( Console驗證站點地圖對每個子域的作用,盡管通常來講,如果每個子域在( google search( insole都有自己相對應的站點地圖和配置文件,那么我們可能更容易了解索引的實際情況。
管理和更新ⅪM站點地圖
ⅹML站點地圖被接受、網站被爬行之后,監測運行結果,若有問題,隨時更新站點地圖。在谷歌中,你可以返回到Google Search Console賬戶,查看與XML站點地圖相關的統計數據和運行診斷報告,只須點擊你想檢測的網站即可,另外,你還能從谷歌中找到一些與常見問題相關的FAQ,如爬行慢、索引較少Bing中的XML站點地圖。另外,你可能還應該在增加大星或一組關鍵頁面之后,更新你的站點地圖文件。
如果僅僅是更新現有網址中的內容么便沒有必要更新XML站點地圖,而且如果是刪除頁面,也沒有必要去更新站點地圖,因為搜索引擎只是不能爬行這些頁面而己,但要在提要中出現大量零散的頁面之前,更新站點地圖。另外,在你添加新內容并刪除一些無效頁面之后,一定要記得更新你的站點地圖文件。谷歌和Bing會定期重新加載站點地圖,因此除非站點地圖位置發生改變,否則你無須重新向谷歌或Bng提交站點地圖。
使用 Site map-網站 robots.txt文件中的指令,使谷歌和Bing能自動發現你的XML站點地圖的位置。如果你要定期地在網站中添加或刪除些新的頁面,那么你可能希望借助一個工具或希望網站開發者有這個能力,能夠使XML站點地圖定期重新生成所有最近口的網址,許多網站借助自動運行腳本每天重新生成XM站點地圖。谷歌和其他大型搜索引擎通過爬行鏈接發現和索引網站。谷歌XML站點地圖是一種在谷歌中填充網址的方式,添加你希望被爬行的網址,以便進行更深入的爬行和索引;這就導致了長尾搜索能力的提高,通過創建和更新這個XML文件,確保谷歌能夠識別你的整個網站,進而讓更多的人發現你的網站。另外,XML站點地圖還能幫助所有的搜索引擎弄清楚,哪個網址是比較標準的(如果有多個指向同一內容的網址)。