找優仕美清潔公司
大掃除免煩惱!清潔打蠟、消毒殺菌
油漆粉刷加入客源網
每天多接2個客戶,做生意就是這麼簡單

首頁  •  j2h 論壇 • 軟體討論     • 

[教學]Apache 拒絕 網路壞爬蟲 robot

房東:老師傅
發表時間:2017-01-04


網路爬蟲
(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網資訊的程式或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,類比程式或者蠕蟲。

網路爬蟲
是一個自動提取網頁的程式,它為搜尋引擎從萬維網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始頁面的URL開始,獲得初始頁面上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入佇列,直到滿足系統的一定停止條件。

隨著網路的迅速發展,萬維網成為大量資訊的載體,如何有效地提取並利用這些資訊成為一個巨大的挑戰。搜尋引擎(Search Engine),例如傳統的通用搜尋引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索資訊的工具成為使用者訪問萬維網的入口和指南。但是,這些通用性搜尋引擎也存在著一定的局限性


就是捉取和搜集網路資料。
它可以類比用戶端請求,登入權利的類比,然後捉取資料。-->進行分析!







簡單爬蟲

JAVA代碼
1.public static String getContentByUrl(String url) throws Exception{
2. HttpClient client = new HttpClient();
3. GetMethod get = new GetMethod(url);
4.
5. setHead(get);
6.
7. int state = client.executeMethod(get);
8. if (200 == state) {
9. return (new String(get.getResponseBodyAsString().getBytes("iso-8859-1"),"utf-8"));
10. }else{
11. return null;
12. }
13.}
14.
15.public static HttpMethodBase setHead(HttpMethodBase get){
16. get.addRequestHeader("Host", "www.baidu.com");
17. get.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:8.0) Gecko/20100101 Firefox/8.0");
18. get.addRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
19. get.addRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
20.// get.addRequestHeader("Accept-Encoding", "gzip, deflate");
21. get.addRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
22. get.addRequestHeader("Connection", "keep-alive");
23. get.addRequestHeader("Referer", "HTTP://www.baidu.com/member/login");
24. get.addRequestHeader("Cookie", "PHPSESSID=195cb3ecdf2eb2e5ef694a922bb478e3; Hm_lvt_bc97aabf99434efa3940a5886150c7e7=1323657227055; Hm_lpvt_bc97aabf99434efa3940a5886150c7e7=1323657251442; local[ip]=61.148.82.174; local[uid]=294; local[is]=y");
25.
26. return get;
27.}
28.
29.public static void main(String[] args) throws Exception {
30. getContentByUrl("HTTP://www.baidu.com/member/login");
31.}







project.rar (418.8 KB)
下載次數: 20








打開 Apache 日誌 agent.log
一大堆 robot

Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料,是因為他們時時刻刻都派著 「robot」 在網路上巡邏,Google 的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp 等等,任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因,國際組織訂有規則,規範 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案,內容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.

但是這個只防君子不防小人,碰到網路壞爬蟲就沒轍了,有些搜尋引擎的 robot 根本不看網站的robots.txt,就一路抓下去,實在另人髮指. 網路壞爬蟲是什麼,就是這些不遵守遊戲規則,到處亂捉別人網站的內容的壞蛋,這樣會造成網站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走了,侵犯網站的隱私. 很可惡是吧. 下面是幾個例子:
iaskspider 是「愛問」屬於新浪網的 robot,完全不管 robots.txt

QihooBot,也是來自「奇虎網」,浪費頻寬,

另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,這些不是什麼好東西,還有一個 WebClipping.com 不知是好人壞人...

碰到這種網路壞爬蟲,說實在的也沒什麼積極的辦法,不能叫網路員警把它捉起來...不過消極的辦法還是有的,把網站門戶看好 — Apache 可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase 來過濾,用法像是:


Order allow,deny
Allow from all
BrowserMatchNoCase "iaskspider" badguy
BrowserMatchNoCase "QihooBot" badguy
BrowserMatchNoCase "larbin" badguy
BrowserMatchNoCase "iearthworm" badguy
BrowserMatchNoCase "Outfoxbot" badguy
BrowserMatchNoCase "lanshanbot" badguy
BrowserMatchNoCase "Arthur" badguy
BrowserMatchNoCase "InfoPath" badguy
BrowserMatchNoCase "DigExt" badguy
BrowserMatchNoCase "Embedded" badguy
BrowserMatchNoCase "EmbeddedWB" badguy
BrowserMatchNoCase "Wget" badguy
BrowserMatchNoCase "CNCDialer" badguy
BrowserMatchNoCase "LWP::Simple" badguy
BrowserMatchNoCase "WPS" badguy
deny from env=badguy

#如此,它們就會收到 Apache 丟回 403 碼:Forbidden

如此,它們就會收到 Apache 丟回 error 403 碼:Forbidden

但是,有些更沒品的還會隱姓埋名,不敢用真面目見人的 ,...

------------------------
另外
asp 識別
Agent=Request.ServerVariables("HTTP_USER_AGENT")
'識別搜尋引擎
Dim botlist,i,IsSearch
Botlist="Google,Isaac,SurveyBot,Baidu,ia_archiver,P.Arthur,FAST-WebCrawler,JAVA,Microsoft-ATL-Native,TurnitinBot,WebGather,Sleipnir,yahoo,3721,yisou,sohu,openfind,aol"
Botlist=split(Botlist,",")
For i=0 to UBound(Botlist)
If InStr(Agent,Botlist(i))>0 Then
server.transfer "simple.asp"
IsSearch=True
Exit For
End If
Next





讓Apache拒絕網路流氓蜘蛛qihoobot

發佈人: Mrs LA 發佈于: 2008/07/17, 5:33 pm

--------------------------------------------------------------------------------


Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料,是因為他們時時刻刻都派著 「robot」 在網路上巡邏,Google 的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp 等等,任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因,國際組織訂有規則,規範 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案,內容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:

User-agent: abc

Disallow: /not_for_abc/

User-agent: *

Disallow: /secret/

意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.


但是這個只防君子不防小人,碰到網路壞爬蟲就沒轍了,有些搜尋引擎的 robot 根本不看網站的robots.txt,就一路抓下去,實在另人髮指. 網路壞爬蟲是什麼,就是這些不遵守遊戲規則,到處亂捉別人網站的內容的壞蛋,這樣會造成網站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走了,侵犯網站的隱私. 很可惡是吧. 下面是幾個例子:

iaskspider 是「愛問」屬於新浪網的 robot,完全不管 robots.txt


QihooBot,也是來自「奇虎網」,浪費頻寬,


另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,這些不是什麼好東西,還有一個 WebClipping.com 不知是好人壞人...


碰到這種網路壞爬蟲,說實在的也沒什麼積極的辦法,不能叫網路員警把它捉起來...不過消極的辦法還是有的,把網站門戶看好 — Apache 可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase 來過濾,用法像是:




Order allow,deny

Allow from all

BrowserMatchNoCase "iaskspider" badguy

BrowserMatchNoCase "QihooBot" badguy

BrowserMatchNoCase "larbin" badguy

BrowserMatchNoCase "iearthworm" badguy

BrowserMatchNoCase "Outfoxbot" badguy

BrowserMatchNoCase "lanshanbot" badguy

BrowserMatchNoCase "Arthur" badguy

BrowserMatchNoCase "InfoPath" badguy

BrowserMatchNoCase "DigExt" badguy

BrowserMatchNoCase "Embedded" badguy

BrowserMatchNoCase "EmbeddedWB" badguy

BrowserMatchNoCase "Wget" badguy

BrowserMatchNoCase "CNCDialer" badguy

BrowserMatchNoCase "LWP::Simple" badguy

BrowserMatchNoCase "WPS" badguy

deny from env=badguy



#如此,它們就會收到 Apache 丟回 403 碼:Forbidden


如此,它們就會收到 Apache 丟回 error 403 碼:Forbidden


ps:如果還不行就直接遮罩他們的IP段,增加


deny from 221.194.136.*


deny from 220.181.33.*


這兩個IP段都是qihoo的


作者:guoguo1980



測試了一下

iearthworm

qihoo.net

InfoPath

DigExt

EmbeddedWB

CNCDialer

WPS


都有訪問,最簡單的方法就是返回給這些bot一個空的body,這樣就避免了bot不斷重試的問題






搜尋引擎即:網路爬蟲,又叫蜘蛛,某些搜尋引擎的演算法較差,爬伺服器時嚴重耗資源,還有可能造成記憶體溢出。可以設置 robots.txt來禁止爬蟲來爬伺服器。網站根目錄下沒有放置robots.txt檔,是允許所有網路爬蟲搜索所有檔。
在網站根目錄下放一個檔robots.txt,但好像不會立刻生效。
如要禁止sogou的爬蟲,可以在robots.txt這樣設置
User-agent:Sogou web spider
Disallow: /
如要禁止baidu的爬蟲,可以在robots.txt添加
User-agent:Baiduspider
Disallow:/




我們的網站被一種莫名其妙的故障所困擾(象我先前說的那樣). 雖然還無法徹底找到原因所在, 但是有一個現象卻很顯然.
那就是出問題的時候, 爬蟲很多.


現在做網站多了,做搜索的也多了, 自然爬蟲也多了...而drupal, 自身的複雜度導致了可能訪問某些位址會有極大的cpu/記憶體消耗, 而robot的訪問顯然不必要的. 雖然有自帶的robots.txt, 但是隨著新模組的安裝,新內容的提供, 顯然預設的robots.txt是不夠用的. (robots.txt 見 HTTP://www.robotstxt.org/orig.html )

分析apache的access log, 發現除了google 和 百度的爬蟲之外還有以下爬蟲(這也是設置在robots.txt裡的內容):

User-agent: YRSpider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: HuaweiSymantecSpider
Disallow: /
User-agent: Sosoimagespider
Disallow: /
(其中YRSpider, HuaweiSymantecSpider 似乎是引擎)

儘管如此, 即便我設置了robots.txt, 象Sosospider依然不聞不問...無奈之下,只能直接Deny IP了...

例如, 尋找Sogou web spider:
[root@localhost ~]# tail -n 10000 /var/log/HTTPd/xxx-access_log | grep 'Sogou web spider' | awk '{ print $1 }' | sort | uniq
220.181.125.67
220.181.125.69
220.181.125.70
220.181.125.71
220.181.125.72
220.181.94.212
220.181.94.213
220.181.94.215
220.181.94.219
220.181.94.220
220.181.94.221
220.181.94.222
220.181.94.225
220.181.94.226
220.181.94.229
220.181.94.230
220.181.94.231
220.181.94.232
220.181.94.234
220.181.94.235
220.181.94.236
220.181.94.237

但是你不可能一個個寫在apache配置裡面. 可以寫成:

# deny from Sogou web spider
Deny from 220.181.125.64/29
Deny from 220.181.94.192/26
(在 Allow from all 之後)

目前deny了這些:

# deny from YRSpider
Deny from 61.135.184.196
Deny from 61.135.184.197
# deny from Sogou web spider
Deny from 220.181.125.64/29
Deny from 220.181.94.192/26
# deny from Sosospider
Deny from 114.80.93.48/28
Deny from 124.115.0.0/24
Deny from 124.115.4.0/24
# deny from YoudaoBot
Deny from 61.135.249.220
# deny from HuaweiSymantecSpider
Deny from 112.95.147.149
Deny from 69.28.58.39
Deny from 69.28.58.4
# deny from Sosoimagespider
Deny from 124.115.3.34
Deny from 124.115.6.0/24
Deny from 124.115.7.15
Deny from 124.115.7.16


至於ip和ip段的換算不在本文討論範圍, 不過linux(+mac)下可以方便的用echo | bc來顯示不同進制的數位(也許有其它方法):

比如
yarco@macbook ~$ echo 'ibase=2;10000000' | bc
128

總之, 看起來管理伺服器的主要在於經驗.










Bai空間 禁止Google 爬蟲程式訪問的代碼

HTTP://hi.baidu.com/robots.txt

User-agent: Baiduspider Disallow: User-agent: Googlebot Disallow: User-agent: Disallow: / User-agent: MSNBot Allow: /







高強度爬蟲程式

Baiduspider+(+HTTP://www.baidu.com/search/spider.htm)

百度爬蟲

高強度爬蟲,有時會從多個IP位址啟動多個爬蟲程式!

由於演算法問題,百度爬蟲對相同頁面會多次發出請求(尤其是首頁),令人煩惱。

推廣效果好。

Mozilla/5.0 (compatible; Yahoo! Slurp China;HTTP://misc.yahoo.com.cn/help.html)

Mozilla/5.0 (compatible; Yahoo! Slurp; HTTP://help.yahoo.com/help/us/ysearch/slurp)

雅虎爬蟲,分別是雅虎中國和美國總部的爬蟲

高強度爬蟲,有時會從多個IP位址啟動多個爬蟲程式!

比較規範的爬蟲,看參考其網址,設定爬蟲訪問間隔。(但需要考慮同時出現多個yahoo爬蟲)

推廣效果尚可。

iaskspider/2.0(+HTTP://iask.com/help/help_index.html)

Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

新浪愛問爬蟲

演算法差,大量掃描無實際意義的頁面,對動態連結網站負擔很大

推廣效果差。

sogou spider

搜狗爬蟲

演算法差,大量掃描無實際意義的頁面,對動態連結網站負擔很大

推廣效果差。



中等強度爬蟲程式

Mozilla/5.0 (compatible; Googlebot/2.1; +HTTP://www.google.com/bot.html)

Google爬蟲

演算法優秀,多為訪問有實際內容的頁面

推廣效果好。

Mediapartners-Google/2.1

google點擊廣告爬蟲

特點未知

OutfoxBot/0.5 (for internet experiments; HTTP://; [email protected] [email protected]@gmail.com )

網易爬蟲

其搜索演算法需要改進

推廣效果差。

ia_archiver

Alexa排名爬蟲

作用未知



其他搜尋引擎的爬蟲

msnbot/1.0 (+HTTP://search.msn.com/msnbot.htm)

MSN爬蟲

特點未知

msnbot-media/1.0 (+HTTP://search.msn.com/msnbot.htm)

(歡迎補充資料)

特點未知

Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)

Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)

Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent

Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)

(歡迎補充資料)

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)

名字上看來是Qihoo的

特點未知

Gigabot

Gigabot/2.0 (HTTP://www.gigablast.com/spider.html)

Gigabot搜尋引擎爬蟲。已被google收購?(歡迎補充資料)

eApolloBot/1.0 (eApollo search engine robot; HTTP://www.eapollo.com; eapollo at global-opto dot com)

lanshanbot/1.0

據說是中搜爬蟲。(歡迎補充資料)

iearthworm/1.0, [email protected] [email protected]@yahoo.com.cn

TMCrawler

WebNews HTTP.pl



RSS掃描器

\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)

這是用foxmail6.0訂閱了你的rss

\rss.asp Feedfetcher-Google; (+HTTP://www.google.com/feedfetcher.html)

google的rss搜索掃描器

\rss.asp feedsky_spider HTTP://www.feedsky.com

一款rss掃描器,有興趣者進入此網站添加您的rss





各搜尋引擎的爬蟲程式
相信對與每個SEOER來說,最喜歡的莫過於網頁蜘蛛。那麼對於爬行蜘蛛,你知道有多少呢?下面我們就來介紹一下這個讓數萬個SEOER折腰的程式!

一、什麼是搜尋引擎爬蟲程式

  網路爬蟲(又被稱為網頁蜘蛛,網路機器人,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網資訊的程式或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,類比程式或者蠕蟲。

  這些處理被稱為網路抓取或者蜘蛛爬行。很多網站,尤其是搜尋引擎,都使用爬蟲提供最新的資料,它主要用於提供它訪問過頁面的一個副本,然後,搜尋引擎就可以對得到的頁面進行索引,以提供快速的訪問。蜘蛛也可以在web上用來自動執行一些任務,例如檢查連結,確認html代碼;也可以用來抓取網頁上某種特定類型資訊,例如抓取電子郵件地址(通常用於垃圾郵件)。

  一個網路蜘蛛就是一種機器人,或者軟體代理。大體上,它從一組要訪問的URL連結開始,可以稱這些URL為種子。爬蟲訪問這些連結,它辨認出這些頁面的所有超連結,然後添加到這個URL清單,可以稱作檢索前沿。這些URL按照一定的策略反復訪問。

  

二爬蟲程式的種類以及分辨

  搜尋引擎派出他們的爬蟲程式去訪問、索引網站內容,但是由於搜尋引擎派爬蟲程式來訪會在一定程度上影響網站性能。在你的伺服器日誌檔中,可見每次訪問的路徑和相應的 IP 位址,如果是爬蟲程式來訪, 則user-agent 會顯示 Googlebot 或MSNBot等搜尋引擎爬蟲程式名稱,每個搜尋引擎都有自己的user-agent,以下分別列出國內主要的爬蟲程式。

  百度 baidu.com—-Baiduspider

  谷歌 google.com—-Googlebot

  雅虎 yahoo.com—-Yahoo

  有道 yodao.com—-YodaoBot

  搜搜 soso.com—-Sosospider/Sosoimagespider

  搜狗 sogou.com—-sogou

  微軟 msn.com—-msnbot




  第三節 認識主流搜尋引擎

 

 1關於百度

  百度公司(baidu.com,inc)于1999年底成立于美國矽谷,它的建立者是在美國矽谷有多年成功經驗的李彥宏先生及徐勇先生。2000年1月,百度公司在中國成立了它的全資子公司-百度網路技術(北京)有限公司,隨後于同年10月成立了深圳分公司,2001年6月又在上海成立了上海辦事處。

  百度的名字寄託著百度公司對自身技術的信心,另一層含義就是突破「事兒做到九十九度就是做到頭」的西方說法,百度就是想要力爭做到一百度,做到頂上開花的境界。

  百度公司不同于一般意義上的網路公司。它既不是著眼于互聯網內容的提供,也不是入口網站,而是一家立足于自主掌握並提供互聯網核心技術的技術型公司。在中國互聯網經濟迅猛發展的今天,百度公司結合世界先進的網路技術、中國語言特色以及中國互聯網經濟發展的現狀,開發出了中國互聯網資訊檢索和傳遞基礎設施平臺,並且運用最先進的商業模式,直接為整個中國的互聯網提供高價值的技術性服務互聯網產品,是中國最優秀的互聯網技術供應商。

  百度公司自進入中國互聯網市場以來,就一直以開發真正符合中國人習慣的、可擴展的互聯網核心技術為使命。百度所堅持的目標就是為提高中國互聯網的技術成份,説明中國互聯網更快地發展而努力。為此,百度不僅帶來解決互聯網基礎問題(資訊搜索和資訊傳遞)的產品,而且帶來了矽谷式的企業文化以及互聯網應用嶄新的理念。現在,百度擁有3條產品線,除已被業界廣為認可的入口網站中文搜尋引擎外,還有服務于企業的高針對性的搜索產品-百度網事通,以及網站加速技術。百度的出現為中國互聯網樹起了民族技術的一面旗幟,將原來中國互聯網依賴于外國網路技術的局面打破。

  百度以自身的核心技術「超鏈分析」為基礎,提供的搜索服務體驗贏得了廣大使用者的喜愛;超鏈分析就是通過分析連結網站的多少來評價被連結的網站品質,這保證了使用者在百度搜索時,越受使用者歡迎的內容排名越靠前。百度總裁李彥宏就是超鏈分析專利的唯一持有人,目前該技術已為世界各大搜尋引擎普遍採用。

  百度擁有全球最大的中文網頁庫,目前收錄中文網頁已超過20億,這些網頁的數量每天正以千萬級的速度在增長;同時,百度在中國各地分佈的伺服器,能直接從最近的伺服器上,把所搜索資訊返回給當地使用者,使使用者享受極快的搜索傳送速率。

  百度每天處理來自超過138個國家超過數億次的搜索請求,每天有超過7萬使用者將百度設為首頁,使用者通過百度搜尋引擎可以搜到世界上最新最全的中文資訊。2004年起,「有問題,百度一下」在中國開始風行,百度成為搜索的代名詞。

  百度還為各類企業提供軟體、競價排名以及關聯廣告等服務,為企業提供了一個獲得潛在消費者的行銷平臺,並為大型企業和政府機構提供海量資訊檢索與管理方案。百度的主要商業模式為競價排名(P4P,Pay for Performance),即為一種按效果付費的網路推廣方式,該服務為廣大中小企業進行網路行銷提供了較佳的發展機會,但同時也引起了一些爭議;有人認為該服務會影響使用者體驗。

 

 2關於谷歌

  (1)關於Google

  Google公司(Google Inc.,NASDAQ:GOOG),是一家美國的上市公司(公有股份公司),于1998年9月7日以私有股份公司的型式創立,以設計並管理一個互聯網搜尋引擎;Google公司總部位於加利福尼亞山景城,在全球各地都設有銷售和工程辦事處。Google網站于1999年下半年啟動;2004年8月19日,Google公司的股票在納斯達克(Nasdaq)上市,成為公有股份公司。Google公司的總部稱作「Googleplex」,位於美國加州聖克拉拉縣的山景城(Mountain View)。在共創辦人拉裡·佩奇退下後,Novell公司的前任行政總裁,埃裡克·施密特(Eric E. Schmidt)博士,成為了Google公司的行政總裁。

  2006年4月12日,Google公司行政總裁埃裡克·施密特在北京宣佈該公司的全球中文名字為「谷歌」(有報導指出取義「豐收之歌」,不過亦有報導指出取義「山谷之歌」)。同時,Google公司于2006年2月15日在臺灣地區登記之分公司取名為「美商科高國際有限公司」。此前,在一份中國國際經濟貿易仲裁委員會功能變數名稱爭議解決中心裁決書中,公司被稱為「科高公司」。該公司亦擁有「谷歌.cn」、「谷歌.中國」、「咕果.com」(但不擁有「咕果.中國」及「咕果.公司」)等中文功能變數名稱。儘管中文使用者在除其英文名外更常稱Google為「古狗」或「狗狗」,其中文功能變數名稱「古狗.com」、「古狗.cn」、「古狗.中國」等均已被其他公司搶注。此外,Google在北京的分公司曾使用「咕果」作為合約簽訂以及網路招聘的中文譯名。北京時間(UTC+8)2006年4月17日淩晨1時左右,Google簡體中文網站正式出現「谷歌」字樣(其他地區依舊僅顯示「Google」)。Google中國對「谷歌」的解釋是「播種與期待之歌,亦是收穫與歡愉之歌」,並稱此名稱是經Google中國的全體員工投票選出。谷歌」發佈不久,即遭到很多使用者的批評。隨後,部分中文使用者發起反對「谷歌」的網上簽名活動。但Google中國堅持使用「谷歌」作為正式名稱,但在實際中仍然存在「谷歌」、「Google中國」混用的現象。完成該使命的第一步始于 Google 創始人 Larry Page 和 Sergey Brin在斯坦福大學的學生宿舍內共同開發了全新的線上搜尋引擎,然後迅
速傳播給全球的資訊搜索者。Google目前被公認為全球規模最大的搜尋引擎,它提供了簡單易用的免費服務,使用者可以在瞬間得到相關的搜尋結果。 當您訪問 www.google.com或眾多 Google域之一時,您可以使用多種語言查找資訊、查看股價、地圖和要聞、查找美國境內所有城市的電話簿名單、搜索數十億計的圖片並詳讀全球最大的 Usenet 資訊存檔 – 超過十億條帖子,發佈日期可以追溯到 1981 年。使用者不必特意訪問 Google主頁,也可以訪問所有這些資訊。








禁止google訪問指定網頁
說明:以下均只為參考意見.
1.允許任何爬蟲訪問整個網站
User-agent:*Disallow:本例允許所有的爬蟲訪問網站的任何目錄、任何檔。這個效果與網站不存在/robots.txt檔時相同,但為了網站的正規起見,建議您建立如上的robots.txt。

注:如果robots.txt中含有其他限制條件,不要與本例組合使用



2.禁止所有蜘蛛爬行任何檔
User-agent: *Disallow: /本例阻止所有爬蟲對任何內容的爬行。如果你的網站還未正式開放,可以使用這個例子。



3.禁止特定爬蟲訪問
限制特定的爬蟲程式時,需要給出爬蟲的名字。(爬蟲的名稱請參見常見網路爬蟲的名稱)


google爬蟲名稱
■爬蟲名稱:
1.Googlebot:google主爬蟲程式,用於日常的網頁抓取、索引編制
2.Googlebot-Mobile:為google的移動索引抓取網頁
3.Googlebot-Image:為google圖片搜索抓取影像檔
4.Mediapartners-Google:抓取網頁來確定 AdSense 的內容。只有您的網站上展示AdSense廣告時,google才會使用它來抓取您的網站。本爬蟲會配合主爬蟲程式Googlebot同時影響網頁收錄。
5.Adsbot-Google:抓取網頁來衡量AdWords目標網頁的品質。僅在您使用Google AdWords推廣網站時,google才使用這種漫遊器。
■robots.txt規範:在robots.txt基本規範之外,擴充了較多特性。參見robots.txt的擴展功能
■參考網址:HTTP://www.google.com/support/webmasters/bin/answer.py?answer=40364
■User-agent範例:
Mozilla/5.0 (compatible; Googlebot/2.1; +HTTP://www.google.com/bot.html)Mediapartners-Google

yahoo爬蟲名稱
■名稱:
■robots.txt規範:在robots.txt基本規範之外,擴充了較多特性。參見robots.txt的擴展功能
■參考網址:
■User-agent範例:
Mozilla/5.0 (compatible; Yahoo! Slurp China; HTTP://misc.yahoo.com.cn/help.html)Mozilla/5.0 (compatible; Yahoo! Slurp; HTTP://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-02.html)

baidu爬蟲名稱
■名稱:Baiduspider
■參考網址:
■User-agent範例:
Baiduspider+(+HTTP://www.baidu.com/search/robots.html)

騰訊搜搜爬蟲
■名稱:Baiduspider
■參考網址:
■User-agent範例:
Sosospider+(+HTTP://help.soso.com/webspider.htm)

搜狗爬蟲名稱
■名稱:sogou spider
■參考網址:HTTP://www.sogou.com/docs/help/webmasters.htm#07
■User-agent範例:
Sogou web spider/3.0(+HTTP://www.sogou.com/docs/help/webmasters.htm#07)Sogou Orion spider/3.0(+HTTP://www.sogou.com/docs/help/webmasters.htm#07)■robots.txt規範:遵循 HTTP://www.robotstxt.org/ 基本規範


新浪愛問爬蟲名稱
■名稱:sogou spider
■參考網址:HTTP://iask.com/help/help2.html
■User-agent範例:
iaskspider/2.0(+HTTP://iask.com/help/help_index.html)■robots.txt規範:無介紹
Mozilla/5.0 (compatible; YodaoBot/1.0; HTTP://www.yodao.com/help/webmaster/spider/; )msnbot/1.0 (+HTTP://search.msn.com/msnbot.htm)msnbot/1.1 (+HTTP://search.msn.com/msnbot.htm)

4.禁止特定爬蟲訪問全站任何內容
例如禁止google爬蟲的訪問,則在User-agent裡面指明其爬蟲名稱Googlebot

User-agent: GooglebotDisallow: /


5.
禁止特定蜘蛛訪問特定目錄或具體檔
在Disallow命令中給出限定目錄或檔案名即可,每行Disallow中只能寫一個目錄名或檔案名,可以多行聯用

User-agent: GooglebotDisallow: /private/Disallow: /allwiki/xxx.htm
6.
限制多個特定蜘蛛訪問的例子
例如禁止google和yahoo爬蟲的訪問,可以用兩組命令來控制。

User-agent: googlebotDisallow: /cgi-bin/ User-agent:yahoo slurpDisallow: /allwiki/Disallow: /tmp/
7.
一個比較複雜的例子
新華網的robots.txt
# robots.txt to block all bots except bots from Google , MSN , YahooUser-agent: GooglebotDisallow:User-agent: SlurpDisallow:User-agent: MSNBotDisallow:User-agent: *Disallow: /



得到網路爬蟲名稱的方法
到網路爬蟲擁有者網站,獲取其爬蟲名稱最為可靠
一般情況下,User-agent資訊中也會給出爬蟲名稱,其中"/"之前的部分基本就是爬蟲名稱





google爬蟲名稱
爬蟲名稱:
Googlebot:google主爬蟲程式,用於日常的網頁抓取、索引編制
Googlebot-Mobile:為google的移動索引抓取網頁
Googlebot-Image:為google圖片搜索抓取影像檔
Mediapartners-Google:抓取網頁來確定 AdSense 的內容。只有您的網站上展示AdSense廣告時,google才會使用它來抓取您的網站。本爬蟲會配合主爬蟲程式Googlebot同時影響網頁收錄。
Adsbot-Google:抓取網頁來衡量AdWords目標網頁的品質。僅在您使用Google AdWords推廣網站時,google才使用這種漫遊器。
robots.txt規範:在robots.txt基本規範之外,擴充了較多特性。參見robots.txt的擴展功能
參考網址:HTTP://www.google.com/support/webmasters/bin/answer.py?answer=40364
User-agent範例:
Mozilla/5.0 (compatible; Googlebot/2.1; +HTTP://www.google.com/bot.html)Mediapartners-Google


yahoo爬蟲名稱
名稱:
robots.txt規範:在robots.txt基本規範之外,擴充了較多特性。參見robots.txt的擴展功能
參考網址:
User-agent範例:
Mozilla/5.0 (compatible; Yahoo! Slurp China; HTTP://misc.yahoo.com.cn/help.html)Mozilla/5.0 (compatible; Yahoo! Slurp; HTTP://help.yahoo.com/help/us/ysearch/slurp)


baidu爬蟲名稱
名稱:Baiduspider
參考網址:
User-agent範例:
Baiduspider+(+HTTP://www.baidu.com/search/spider.htm)


騰訊搜搜爬蟲
名稱:Baiduspider
參考網址:
User-agent範例:
Sosospider+(+HTTP://help.soso.com/webspider.htm)


搜狗爬蟲名稱
名稱:sogou spider
參考網址:HTTP://www.sogou.com/docs/help/webmasters.htm#07
User-agent範例:
Sogou web spider/3.0(+HTTP://www.sogou.com/docs/help/webmasters.htm#07)Sogou Orion spider/3.0(+HTTP://www.sogou.com/docs/help/webmasters.htm#07)
robots.txt規範:遵循 HTTP://www.robotstxt.org/ 基本規範


新浪愛問爬蟲名稱
名稱:sogou spider
參考網址:HTTP://iask.com/help/help2.html
User-agent範例:
iaskspider/2.0(+HTTP://iask.com/help/help_index.html)
robots.txt規範:無介紹
Mozilla/5.0 (compatible; YodaoBot/1.0; HTTP://www.yodao.com/help/webmaster/spider/; )msnbot/1.0 (+HTTP://search.msn.com/msnbot.htm)msnbot/1.1 (+HTTP://search.msn.com/msnbot.htm)
您可能也喜歡:
獨闢蹊徑網路安裝系列後續--深入使用PXE網路環境 [第十四期] 2011.06.10
獨闢蹊徑網路安裝系列後續--深入使用PXE網路環境 [第十四期]網路備份工具bacula配置 2011.01.31 網路備份工具bacula配置Cacti與Nagios進行網路監控的區別 2011.03.31 Cacti與Nagios進行網路監控的區別linux apache反向代理 tomcat 2011.05.24
linux apache反向代理 tomcat5.nginx,apache 的alias 和認證 功能 2011.04.04
5.nginx,apache 的alias



  • 贊助網站       

    優潔電話清潔公司
    清潔公司, 電話清潔, 清潔保養, 電腦清潔, 清潔消毒, 清潔服務, 消毒服務
    清潔公司
    清潔公司, 電話清潔, 清潔保養, 電腦清潔, 清潔消毒, 清潔服務, 消毒服務
    優潔清潔公司
    夏季清潔讓您煥然一新,專業清潔團隊,寶貝家具不受損,輕鬆擁有乾淨居家,守護您的健康環境



  •  共 0 人回應

    姓名:
    佈告內容:
    其他選項: