小創:谷歌的爬蟲程序到你的網站上第一步會檢測你的網站是否處于可以抓取的狀態,因為不是所有的網站都需要讓搜索引擎抓取。可以用robots.txt的協議文件告訴蜘蛛是否可以抓取本網站,甚至進一步規定哪些頁面可以抓取,哪些頁面不可以抓取。
操作方法:使用robots.txt文件協議,在網站根目錄下創建一個名為“robots.txt”的文本文件。該文件中,你可以制定哪些頁面或者目錄不希望被搜索引擎抓取。例如,你可以使用以下指令來阻止谷歌的爬蟲程序抓取整個網站:User-agent:Googlebot Disallow://