在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > robots協(xié)議

robots協(xié)議

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇robots協(xié)議范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

robots協(xié)議

robots協(xié)議范文第1篇

robots協(xié)議是搜索行業(yè)的一種行業(yè)自律規(guī)則,它的約束力固然僅限于自律,沒有強制約束力,但這不等于說,它背后反映的精神,沒有法律基礎(chǔ)。例如美國《電子隱私權(quán)法》就規(guī)定“將決定權(quán)交給消費者,讓其切實有效地授權(quán)或者拒絕他人采集和使用其個人信息”。更重要的是,規(guī)則有沒有強制力,同它是不是規(guī)則并沒有關(guān)系。遵守規(guī)則是要遵守公平競爭,不是沒有強制力就可以不公平競爭。

我們可以把robots協(xié)議理解為客房的“請勿打擾”標志,服務(wù)人員不得以“更好服務(wù)”為借口,強行進入提供服務(wù)。因為這會損害三個主體的利益,一是消費者,未來人們更多把自己的數(shù)據(jù)存儲在云端,涉及私有數(shù)據(jù)隱私安全,掛上“請勿打擾”,就不能硬闖;二是企業(yè),企業(yè)網(wǎng)站后臺的機密數(shù)據(jù)信息,應(yīng)受到robots協(xié)議的保護。三是競爭中的服務(wù)者,如果離開robots協(xié)議的保護,服務(wù)網(wǎng)站、網(wǎng)站站長權(quán)利就會受到侵犯。robots協(xié)議執(zhí)行中是否排他,不直接影響robots協(xié)議本身涉及的上述利益關(guān)系。當然,robots協(xié)議應(yīng)該是對所有人都適用的。

在這一事件中,我認為當事人涉嫌違反《信息安全技術(shù)個人信息保護指南》,該指南制訂中,北京奇虎科技有限公司、北京百度網(wǎng)訊科技有限公司均有參與,理應(yīng)遵守。違反的原則包括:1、安全保障原則(防止未經(jīng)授權(quán)檢索、公開及丟失、泄露、損毀和篡改個人信息)。2、合理處置原則(不采用非法、隱蔽、間接等方式收集個人信息,在達到既定目標后不再繼續(xù)處理個人信息)。3、知情同意原則(未經(jīng)個人信息主體同意,不處理個人信息)。此外,企業(yè)自有版權(quán)及所具有其他機構(gòu)的版權(quán)授權(quán),未經(jīng)許可不得復制。隨意抓取,會造成侵權(quán),涉嫌違反知識產(chǎn)權(quán)有關(guān)法律。

現(xiàn)在的問題處理主要著眼于預防、避免3Q大戰(zhàn)那樣的事件重演。首先要明確規(guī)制的原則。我認為原則應(yīng)是保障行業(yè)秩序和市場秩序,保護消費者與從業(yè)者正當權(quán)益。其次,要慎重運用規(guī)制手段。規(guī)制的順序,應(yīng)是市場優(yōu)先,鼓勵企業(yè)自律;市場失靈后,行業(yè)協(xié)會介入,行業(yè)規(guī)范;社會自律失靈后,政府介入,以政策法律形式規(guī)范,包括行政手段。鑒于robots協(xié)議的自律約束失靈,首先應(yīng)向企業(yè)提示遵守協(xié)議。如果企業(yè)不接受,應(yīng)考慮由行業(yè)協(xié)會出面,以他律方式進行協(xié)調(diào),勸解。如果仍不起作用,為避免引起不良社會后果,可考慮政府出面,采取行政、法規(guī)手段進行強制制止。

robots協(xié)議范文第2篇

網(wǎng)絡(luò)蜘蛛即Web Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

對于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的,從目前公布的數(shù)據(jù)來看,容量最大的搜索引擎也不過是抓取了整個網(wǎng)頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無法遍歷所有的網(wǎng)頁,有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到;另一個原因是存儲技術(shù)和處理技術(shù)的問題,如果按照每個頁面的平均大小為20K計算(包含圖片),100億網(wǎng)頁的容量是100×2000G字節(jié),即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網(wǎng)頁下載完畢)。同時,由于數(shù)據(jù)量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁,而在抓取的時候評價重要性主要的依據(jù)是某個網(wǎng)頁的鏈接深度。

在抓取網(wǎng)頁的時候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。

廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式,因為這個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網(wǎng)絡(luò)蜘蛛在設(shè)計的時候比較容易。兩種策略的區(qū)別,下圖的說明會更加明確。

由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。例如,在上圖中,A為起始網(wǎng)頁,屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2的話,網(wǎng)頁I是不會被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網(wǎng)站設(shè)計者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計有助于搜索引擎抓取其更多的網(wǎng)頁。

網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時候,經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會員權(quán)限才能訪問。當然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓?。ㄏ滦」?jié)會介紹),但對于一些出售報告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報告,但又不能完全**的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進行網(wǎng)頁抓取,從而提供搜索。而當搜索者點擊查看該網(wǎng)頁的時候,同樣需要搜索者提供相應(yīng)的權(quán)限驗證。

網(wǎng)站與網(wǎng)絡(luò)蜘蛛

網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁,不同于一般的訪問,如果控制不好,則會引起網(wǎng)站服務(wù)器負擔過重。今年4月,淘寶taobao.com)就因為雅虎搜索引擎的網(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)蜘蛛交流呢?其實不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。

每個網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁的時候,都會向網(wǎng)站標明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時候會發(fā)送一個請求,這個請求中就有一個字段為User-agent,用于標識此網(wǎng)絡(luò)蜘蛛的身份。例如Google網(wǎng)絡(luò)蜘蛛的標識為GoogleBot,Baidu網(wǎng)絡(luò)蜘蛛的標識為BaiDuSpider,Yahoo網(wǎng)絡(luò)蜘蛛的標識為Inktomi Slurp。如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過,什么時候過來的,以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個蜘蛛有問題,就通過其標識來和其所有者聯(lián)系。下面是博客中blogchina.com)2004年5月15日的搜索引擎訪問日志:

網(wǎng)絡(luò)蜘蛛進入一個網(wǎng)站,一般會訪問一個特殊的文本文件Robots.txt,這個文件一般放在網(wǎng)站服務(wù)器的根目錄下,blogchina.com/robots.txt。網(wǎng)站管理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問,或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:

User-agent: *

Disallow:

當然,Robots.txt只是一個協(xié)議,如果網(wǎng)絡(luò)蜘蛛的設(shè)計者不遵循這個協(xié)議,網(wǎng)站管理員也無法阻止網(wǎng)絡(luò)蜘蛛對于某些頁面的訪問,但一般的網(wǎng)絡(luò)蜘蛛都會遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過其它方式來拒絕網(wǎng)絡(luò)蜘蛛對某些網(wǎng)頁的抓取。

網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁的時候,會去識別網(wǎng)頁的HTML代碼,在其代碼的部分,會有META標識。通過這些標識,可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁是否需要被抓取,還可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如:表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。

轉(zhuǎn)貼于

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站管理員可以建立一個網(wǎng)站地圖,即Site Map。許多網(wǎng)絡(luò)蜘蛛會把sitemap.htm文件作為一個網(wǎng)站網(wǎng)頁爬取的入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個文件里面,那么網(wǎng)絡(luò)蜘蛛可以很方便的把整個網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會減小對網(wǎng)站服務(wù)器的負擔。

內(nèi)容提取

搜索引擎建立網(wǎng)頁索引,處理的對象是文本文件。對于網(wǎng)絡(luò)蜘蛛來說,抓取下來網(wǎng)頁包括各種格式,包括html、圖片、doc、pdf、多媒體、動態(tài)網(wǎng)頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索準確性有重要作用,另一方面對于網(wǎng)絡(luò)蜘蛛正確跟蹤其它鏈接有一定影響。

對于doc、pdf等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會提供相應(yīng)的文本提取接口。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。

HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標識符來表示不同的字體、顏色、位置等版式,如:、、等,提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規(guī)則,只要按照不同的標識符取得相應(yīng)的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關(guān)鍵詞等,這些信息有助于計算單詞在網(wǎng)頁中的重要程度。同時,對于HTML網(wǎng)頁來說,除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關(guān)系也沒有,在提取網(wǎng)頁內(nèi)容的時候,也需要過濾這些無用的鏈接。例如某個網(wǎng)站有“產(chǎn)品介紹”頻道,因為導航條在網(wǎng)站內(nèi)每個網(wǎng)頁都有,若不過濾導航條鏈接,在搜索“產(chǎn)品介紹”的時候,則網(wǎng)站內(nèi)每個網(wǎng)頁都會搜索到,無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統(tǒng)計大量的網(wǎng)頁結(jié)構(gòu)規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結(jié)果特殊的網(wǎng)站,還需要個別處理。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計有一定的擴展性。

對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關(guān)的文件注釋來判斷這些文件的內(nèi)容。例如有一個鏈接文字為“張曼玉照片”,其鏈接指向一張bmp格式的圖片,那么網(wǎng)絡(luò)蜘蛛就知道這張圖片的內(nèi)容是“張曼玉的照片”。這樣,在搜索“張曼玉”和“照片”的時候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內(nèi)容。

動態(tài)網(wǎng)頁一直是網(wǎng)絡(luò)蜘蛛面臨的難題。所謂動態(tài)網(wǎng)頁,是相對于靜態(tài)網(wǎng)頁而言,是由程序自動生成的頁面,這樣的好處是可以快速統(tǒng)一更改網(wǎng)頁風格,也可以減少網(wǎng)頁所占服務(wù)器的空間,但同樣給網(wǎng)絡(luò)蜘蛛的抓取帶來一些麻煩。由于開發(fā)語言不斷的增多,動態(tài)網(wǎng)頁的類型也越來越多,如:asp、jsp、php等。這些類型的網(wǎng)頁對于網(wǎng)絡(luò)蜘蛛來說,可能還稍微容易一些。網(wǎng)絡(luò)蜘蛛比較難于處理的是一些腳本語言(如VBScript和javascript)生成的網(wǎng)頁,如果要完善的處理好這些網(wǎng)頁,網(wǎng)絡(luò)蜘蛛需要有自己的腳本解釋程序。對于許多數(shù)據(jù)是放在數(shù)據(jù)庫的網(wǎng)站,需要通過本網(wǎng)站的數(shù)據(jù)庫搜索才能獲得信息,這些給網(wǎng)絡(luò)蜘蛛的抓取帶來很大的困難。對于這類網(wǎng)站,如果網(wǎng)站設(shè)計者希望這些數(shù)據(jù)能被搜索引擎搜索,則需要提供一種可以遍歷整個數(shù)據(jù)庫內(nèi)容的方法。

對于網(wǎng)頁內(nèi)容的提取,一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。整個系統(tǒng)一般采用插件的形式,通過一個插件管理服務(wù)程序,遇到不同格式的網(wǎng)頁采用不同的插件處理。這種方式的好處在于擴充性好,以后每發(fā)現(xiàn)一種新的類型,就可以把其處理方式做成一個插件補充到插件管理服務(wù)程序之中。

更新周期

由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。

robots協(xié)議范文第3篇

關(guān)鍵詞:機構(gòu)知識庫 谷歌學術(shù)搜索 學術(shù)搜索引擎優(yōu)化 中科院機構(gòu)知識庫

中圖分類號: G252 G255.76 文獻標識碼: A 文章編號: 1003-6938(2012)05-0085-05

1 引言

近年來機構(gòu)知識庫(Institutional Repository,IR)快速穩(wěn)步增長,已覆蓋了大部分知名高校和科研機構(gòu)。目前在開放獲取機構(gòu)資源庫OpenDOAR中注冊登記的IR已有2163家[1],除此以外還有相當一部分數(shù)量的IR未在OpenDOAR中注冊。IR做為支持開放獲取的一種重要形式,支持機構(gòu)實施數(shù)字知識資產(chǎn)的長期保存和管理,提高機構(gòu)及科研人員智力成果的發(fā)現(xiàn)幾率、傳播范圍和影響,是吸引機構(gòu)及科研人員重視和參與IR建設(shè)的重要因素。相關(guān)的研究也表明,支持開放獲取的論文其引用影響可獲得25%~250%的提升[2]。 而Arlitsch等人[3]的調(diào)查結(jié)果顯示,當前IR內(nèi)容被Google Scholar收錄的比率總體上維持在10%~30%的水平,甚至有0%的IR(見圖1)。也就是說,大部分IR的內(nèi)容沒有得到充分的發(fā)現(xiàn)和利用,仍然局限在小范圍內(nèi)進行交流傳播。

Google Scholar作為一項針對學者和科研人員的免費學術(shù)文獻搜索服務(wù),現(xiàn)在已成為學者、研究人員和學生查找專業(yè)文獻資料的首選工具[4]。其搜索的范圍涵蓋了幾乎所有知識領(lǐng)域的高質(zhì)量學術(shù)研究資料,包括論文、專業(yè)書籍以及技術(shù)報告等。Google Scholar不但可以過濾普通網(wǎng)絡(luò)搜索引擎中對學術(shù)人士無用的大量信息,通過與眾多學術(shù)文獻出版商的合作,還加入了許多普通搜索引擎無法搜索到的內(nèi)容。目前,科研用戶通過網(wǎng)絡(luò)來獲取資源,第一選擇就是通過Google等搜索引擎進行大范圍搜索,其次考慮利用專業(yè)的學術(shù)數(shù)據(jù)庫,最后才會去翻閱學術(shù)期刊。這種檢索順序已經(jīng)形成了一種社會習慣。

因此,如何解決IR被搜索引擎Google Scholar收錄,提升IR中學術(shù)文章被Google Scholar收錄的比率,已成為增強IR內(nèi)容可發(fā)現(xiàn)性和可見性的關(guān)鍵。本文以中國科學院研究所IR平臺CAS OpenIR[5]為例,采用學術(shù)搜索引擎優(yōu)化(Academic Search Engine Optimization,ASEO)的策略和方法,通過提升IR在Google Scholar中的索引比率,進而增強IR中內(nèi)容被發(fā)現(xiàn)引用和利用影響力。

[圖1 IR被Google Scholar收錄情況調(diào)查表[3]]

2 ASEO策略和目的

ASEO建立在傳統(tǒng)的SEO[6]基礎(chǔ)之上,是從普通的SEO發(fā)展而來。由于學術(shù)搜索引擎Google Scholar與普通搜索引擎有著明確的定位區(qū)別,因此ASEO與SEO有著明顯的不同之處。

SEO指通過采用易于搜索引擎索引的合理技術(shù)手段和策略,使網(wǎng)站各項要素適合搜索引擎的檢索原則,從而更容易被搜索引擎收錄和優(yōu)先排序。SEO基于網(wǎng)頁(Web Page),收錄過程較靈活和容易。IR屬于學術(shù)產(chǎn)出的數(shù)據(jù)庫平臺,有著自身的元數(shù)據(jù)元素集,其中的學術(shù)文章屬于“Academic Invisible Web”[7],不能被Google Scholar直接訪問和索引。因此,在被學術(shù)搜索引擎Google Scholar收錄前,需要對IR進行ASEO改造,使其符合Google Scholar索引標準,易于被Google Scholar收錄爬取。即:

(1) 使IR可以被搜索引擎Google Scholar更好地收錄和更新(包括IR的元數(shù)據(jù)和全文);

(2) 使搜索引擎在規(guī)則允許的范圍內(nèi)進行索引,明確IR的哪些頁面可以被索引收錄,哪些頁面不能被索引收錄;

(3) 在用戶使用Google Scholar搜索時,可以排名靠前的呈現(xiàn)IR中的相關(guān)條目,起到推介IR的作用;

(4) 將IR中開放權(quán)限的全文納入Google Scholar的全文檢索中,增加IR中論文的可見性,提高論文的被引用率。

3 Google Scholar收錄原則和排名算法

Google Scholar針對學術(shù)性數(shù)據(jù)庫內(nèi)容的收錄和索引,有明確的收錄原則[8],如:① 被收錄文章需要有唯一的URL;②匿名用戶可免費地通過原文URL進入閱讀被收錄文章;③數(shù)據(jù)庫服務(wù)的Robots.txt協(xié)議正確配置,明確允許及禁止Googlebot爬取的路徑及內(nèi)容范圍;④數(shù)據(jù)記錄的Meta標簽符合Google Scholar Meta規(guī)則,并且必須包含DC.title,DC.creator,DCTERMS.issued三項描述元數(shù)據(jù);⑤記錄除了題錄文摘信息外,被收錄記錄必須要有全文;⑥全文格式為PDF格式。

Google Scholar檢索排名繼承了普通Google檢索中應(yīng)用的PageRank算法[9],即主要看某項學術(shù)內(nèi)容、頁面被引用的情況,同時還將文章全文、作者和出版物等因素納入算法,從而保證檢索結(jié)果的高相關(guān)性,提高查準率。學術(shù)論文被引述的頻度越多,一般判斷這篇論文的權(quán)威性就越高,它的PageRank值就越高。

4 面向IR的ASEO策略與方法實現(xiàn)

根據(jù)學術(shù)搜索引擎Google Scholar收錄、排名的要約特點,本文中筆者將選取ASEO中的關(guān)鍵環(huán)節(jié),就設(shè)計思路和實現(xiàn)的過程做一分析說明。

4.1 搜索引擎注冊

在傳統(tǒng)SEO過程中,網(wǎng)站管理員不用太擔心網(wǎng)站的收錄情況,在網(wǎng)站運行一定時間后搜索引擎的機器人會自動通過已被索引的外部鏈接發(fā)現(xiàn)該網(wǎng)站。而學術(shù)搜索引擎ASEO過程中,往往需要通過管理員在Google Scholar中對相關(guān)的服務(wù)進行注冊,來通知機器人將其納入爬取對象。有鑒于此,在研究所IR部署完成后:

(1)要求或者幫助研究所盡快在Google Scholar中完成其IR的注冊和。在Google Scholar注冊IR過程中,除了聲明Google Scholar要求的收錄原則外,還需要聲明IR所用軟件、論文數(shù)量、語種、訪問地址。

(2)由于Google Scholar的PageRank算法對網(wǎng)絡(luò)分類目錄尤為重視,如果網(wǎng)站被ODP(.

[9]Page,L.,Brin,S.,Motwani,R.andet al.The PageRank Citation Ranking: Bringing Order to the Web[EB/OL].[2012-06-18].http://citeseerxist psu.edu/viewdoc/summary?doi=10.1.1.31.1768.

[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http://ukoln.ac.uk/meta

data/dcmi/collection-application-profile/.

[11]Sitemap[EB/OL].[2012-05-18].http://

/wiki/Sitemap.

[12]Rewrite engine[EB/OL].[2012-02-25].http://en.wikpe

robots協(xié)議范文第4篇

對此,蘑菇街品牌部經(jīng)理接受媒體采訪時予以否認:“外界對于這種‘截流’之類不實言論挺多的,可以肯定的是,我們和淘寶的合作都很順利?!彼坪跏亲鳛樽糇C,6月中旬,再在百度搜索“蘑菇街”,已不見淘寶導流鏈接,但搜索“美麗說”,其結(jié)果依舊導向淘寶天貓商城。

百度上的變化,到底是意味著淘寶在刻意打壓導購網(wǎng)站,還是只是淘寶與“美麗說”合作不暢,抑或是有其他原因?

美麗說遭遇的“危機”,其實是淘寶、百度兩大巨頭之間重新合作的一個結(jié)果,但從這結(jié)果很難倒推回去說淘寶存在一個刻意針對導購網(wǎng)站的打壓計劃

非刻意的傷害

卻也不介意“假道伐虢”

比“美麗說”被截流更大的新聞是淘寶與百度的重新合作。在此之前,從2008年開始,馬云就在淘寶的Robots.txt協(xié)議中全面屏蔽百度蜘蛛——禁止百度搜索結(jié)果抓取淘寶內(nèi)容,時隔5年之后的2013年,淘寶的內(nèi)容又重新出現(xiàn)在百度上。

眾所周知,百度搜索可以為網(wǎng)站導流,而流量就是財富,但當年馬云為什么會下決心屏蔽百度呢?分析原因應(yīng)有兩個,其一,馬云認為淘寶已經(jīng)足夠強大,可以作為一個單獨的世界存在,而不必借助百度;其二,馬云認為百度太強大,如果用戶漸漸習慣直接從百度搜索作為購物入口,淘寶就很可能被拋棄,而百度當時又對自有電商野心勃勃,意欲打造一個“中文互聯(lián)網(wǎng)領(lǐng)域最具規(guī)模的網(wǎng)上個人交易平臺”。

時隔5年,世界卻已經(jīng)發(fā)生變化。百度現(xiàn)在已經(jīng)對自有電商基本放棄,與日方合資的B2C網(wǎng)站樂酷天也在去年被徹底關(guān)閉,百度對淘寶的威脅大幅度降低。而阿里巴巴最近又在籌劃IPO,對業(yè)績快速增長的需求日益迫切。這種情況下,百度、淘寶重新攜手已不是意外。

不僅與百度合作,阿里還同時與360搜索簽署了相關(guān)協(xié)議。在與360簽署的合作框架中,其商品、購物搜索均通過阿里媽媽旗下一淘網(wǎng)直接向淘寶、天貓等阿里系電商平臺引流。

淘寶不會為了對付美麗說才與百度合作,后者的量級實在太小了。然而,巨頭一打噴嚏,跟班們就要感冒,淘寶與百度的合作又確確實實對美麗說、蘑菇街這樣的淘寶寄生者造成性命之憂。5年前,正因為淘寶屏蔽了百度搜索,才給美麗說這樣的第三方導購網(wǎng)站創(chuàng)造了更大的生存空間,借助社會化電商概念,它們不斷壯大,大有成為淘寶最重要流量入口之勢,淘寶聯(lián)盟數(shù)據(jù)顯示,在2012年的30億元分成金額中,蘑菇街、美麗說等導購網(wǎng)站占比為21%,從淘寶分成超過6億元。從長遠看,這對淘寶不能不說是一大潛在威脅。借助這次與百度恢復合作,馬云應(yīng)當不介意“假道伐虢”。

更何況,馬云在百度的合作中,也是投了巨資的,即便沒有對付導購網(wǎng)站的確切意圖,它也要購買一些關(guān)鍵詞,把目標用戶直接導向淘寶,與其從美麗說導流再分給美麗說,還不如自己購買“美麗說”這樣的關(guān)鍵詞,把流量直接導過來。

擺脫對淘寶的依賴

轉(zhuǎn)型個性化垂直社區(qū)的機會

導購網(wǎng)站在巨頭齟齬中漁翁得利,獲得發(fā)展良機,現(xiàn)在巨頭握手,它們蒙受池魚之殃,這也算是因果循環(huán)了。事實上,如果美麗說們富有遠見的話,早就該預料到這一天。因為淘寶收緊流量入口,防止養(yǎng)虎為患的姿態(tài)顯露了已不止一天。根據(jù)媒體公開報道,2012年5月,馬云曾針對電商導購、返利類的網(wǎng)站在內(nèi)部做了幾點指示:不扶持上游導購網(wǎng)站繼續(xù)做大,不支持返利類的網(wǎng)站。產(chǎn)業(yè)鏈上可以和異業(yè)合作,盡量不和同業(yè)合作。作為信號,去年底淘寶已經(jīng)對返利網(wǎng)站下手。去年11月20日,一淘旗下淘寶聯(lián)盟公告稱,部分返現(xiàn)類淘寶客在宣傳上夸大返現(xiàn)金額、延長返現(xiàn)賬期、故意設(shè)定眾多限制不返利,侵害了消費者利益,并影響了商家價格體系。因此,淘寶聯(lián)盟將從2013年1月1日起不再支持針對淘寶站內(nèi)(包括天貓和淘寶集市)購物返現(xiàn)金給會員或買家的淘寶客模式,只支持返積分、返實物、優(yōu)惠券等非現(xiàn)金返利方式。

馬云說,阿里的流量入口應(yīng)該是草原而不是森林。淘寶希望上游有1萬個蘑菇街,每家收入都是2萬元/天。

淘寶和“美麗說”們曾經(jīng)相愛,但它最希望的是這些導購網(wǎng)站有永遠“做小”的覺悟,只要你不奢望登堂入室,那我也不介意一直包養(yǎng),淘寶最介意的是導購網(wǎng)站越做越大,控制了淘寶的入口,或者這些與淘寶合作密切的網(wǎng)站被競爭對手買走,進而給淘寶來個釜底抽薪。

但理想很豐滿,現(xiàn)實很骨干,“美麗說”們也有自己的生活與理想。去年底以來就一直有消息稱騰訊領(lǐng)投了美麗說的D輪融資,這類行為無疑一定會摸到淘寶的老虎屁股。

robots協(xié)議范文第5篇

搜索引擎在互聯(lián)網(wǎng)上的作用非常重要,大多數(shù)網(wǎng)民在尋找某個信息的時候都會使用搜索引擎來尋找,將網(wǎng)站地址排在搜索結(jié)果的第一名就成為搜索引擎營銷推廣的最終目標。搜索引擎營銷推廣的方法又可以分為多種不同的形式,常見的有:登錄搜索引擎、登錄分類目錄、搜索引擎優(yōu)化、付費關(guān)鍵詞競價廣告等。從目前的發(fā)展趨勢來看,搜索引擎在網(wǎng)絡(luò)營銷中的地位依然重要,并且受到越來越多企業(yè)的認可,搜索引擎營銷的方式也在不斷發(fā)展演變,因此應(yīng)根據(jù)環(huán)境的變化選擇搜索引擎營銷的合適方式。

登錄搜索引擎

搜索引擎推廣的第一步就是提交網(wǎng)站到搜索引擎。將網(wǎng)站等級到搜索引擎之后,搜索引擎就會自動抓取用戶網(wǎng)站的信息。對于中文網(wǎng)站來說,使用量排名前四名的搜索引擎幾乎占據(jù)了99%以上的搜索量,因此著重關(guān)注這幾個搜索引擎即可。

提交搜索引擎的步驟是:1、制作sitemaps文件,并將其添加到robots.txt中;2、登錄四大搜索站長平臺;3、提交sitempas和URL到平臺上。4、觀察站長平臺對于網(wǎng)站的收錄和抓取情況。

Sitemaps協(xié)議使網(wǎng)站能夠告知搜索引擎網(wǎng)站中可供抓取的網(wǎng)址,以便于搜索引擎更方便地抓取網(wǎng)站。而sitemap.xml是遵守該協(xié)議的包含了一個網(wǎng)站所有鏈接的xml格式文件。簡單的來說,sitemap就是網(wǎng)站地圖。

Sitemaps是一個和網(wǎng)站管理員相關(guān)的工具,有點象BLOG的RSS功能,是一個方便自己的服務(wù),如果大家(互聯(lián)網(wǎng)上所有的信息源)都采用了這種方式提交自己的更新的話,搜索引擎就再也不用派出那么多爬蟲辛辛苦苦的到處亂竄了,任何一個站點,只要有更新,便會自動“通知”搜索引擎,方便搜索引擎進行索引。

首先用戶在各個搜索引擎的站長平臺創(chuàng)建帳號,驗證自己的網(wǎng)站權(quán)限,然后登錄站長平臺,在提交Sitempas界面里提交自己網(wǎng)站的sitemap.xml文件。

sitemap.xml文件可以手工編寫,也可以通過軟件自動生成,sitemap.xml文件創(chuàng)建好了之后可以提交給各個搜索引擎。

最后,在站長平臺的Sitemaps的提交頁面填寫你生成的Sitemaps地址,并提交即可。

過了幾個小時后,再登錄各個搜索引擎的站長平臺,可以看到Sitemaps的索引情況。

此外,各個站長平臺還提供了Spider對用戶網(wǎng)站訪問情況的說明報告,如:查詢統(tǒng)計信息、抓取統(tǒng)計信息、網(wǎng)頁分析、索引統(tǒng)計信息等信息。“查詢統(tǒng)計信息”中,有列出幾個進入你網(wǎng)站的熱門搜索關(guān)鍵字。在“抓取統(tǒng)計信息”中,可以看到Spider抓取網(wǎng)站的概要統(tǒng)計和抓取錯誤的地址。實現(xiàn)了網(wǎng)站主和Spider的信息交互。

四大搜索站長平臺地址:

百度站長平臺:zhanzhang.baidu.com

360站長平臺:zhanzhang.haosou.com

搜狗站長平臺:zhanzhang.sogou.com

谷歌站長平臺:google.com/webmasters

優(yōu)化搜索結(jié)果中排名

網(wǎng)站內(nèi)容被搜索引擎收錄只是最基本的開始,搜索引擎營銷的目的是讓網(wǎng)站在搜索結(jié)果的第一頁顯示。提升搜索排名的方法主要有兩種,一種是搜索引擎優(yōu)化(SEO),這個在之前的章節(jié)已經(jīng)詳細介紹過,另一種方法是競價排名。

競價排名,顧名思義就是網(wǎng)站付費后讓搜索引擎展示,排名的算法和用戶出價、關(guān)鍵詞質(zhì)量度等一系列因素有關(guān),通常來說,付費越高者排名越靠前;競價排名服務(wù)是按點擊計費的一種服務(wù),用戶可以通過調(diào)整每次點擊付費價格,控制自己在特定關(guān)鍵字搜索結(jié)果中的排名;并可以通過設(shè)定不同的關(guān)鍵詞捕捉到不同類型的的目標訪問者。

而在國內(nèi)最流行的點擊付費搜索引擎有百度、360、搜狗和谷歌。值得一提的是即使是做了競價排名,最好也應(yīng)該對網(wǎng)站進行搜索引擎優(yōu)化設(shè)計,并將網(wǎng)站登錄到各大搜索引擎中。

搜索引擎競價排名推廣主要分為以下幾個步驟:1、在各個搜索推廣平臺申請搜索引擎營銷推廣帳號;2、制作并優(yōu)化網(wǎng)站著陸頁;3、確定關(guān)鍵詞,創(chuàng)建推廣計劃;4、安裝統(tǒng)計代碼,確認網(wǎng)站轉(zhuǎn)化目標;5、投放廣告;6、跟蹤并評估廣告投放效果。

關(guān)鍵詞的選擇是競價排名推廣的一個重要環(huán)節(jié),選擇的策略是:第一,選擇產(chǎn)品或服務(wù)核心關(guān)鍵詞。核心關(guān)鍵詞包括產(chǎn)品的門類、種類、品牌、產(chǎn)品型號等。第二,添加形容詞以擴展核心關(guān)鍵詞,如添加屬性、功能、比較、價格、銷售、行動等來形容核心關(guān)鍵詞,如機票的企業(yè),添加價格“特價機票、打折機票”,添加行動為“買機票”。

在轉(zhuǎn)化統(tǒng)計方面,百度統(tǒng)計和百度推廣是集成的,谷歌分析和谷歌adwords是集成的,360和搜狗則暫時沒有官方的轉(zhuǎn)化統(tǒng)計系統(tǒng),不過可以通過一些第三方的搜索統(tǒng)計平臺進行轉(zhuǎn)化統(tǒng)計,這些第三方平臺通常只能每天和搜索引擎同步一次數(shù)據(jù),因此無法看到實時的轉(zhuǎn)化情況,只能看到昨天之前的轉(zhuǎn)化效果。

付費廣告投放一段時間之后,就可以通過數(shù)據(jù)報表來分析各個關(guān)鍵詞的轉(zhuǎn)化情況了。關(guān)鍵詞的效果分析可以用關(guān)鍵詞的總消費金額除以關(guān)鍵詞的總轉(zhuǎn)化量來衡量,如果該數(shù)字高于平均數(shù),則表示這個關(guān)鍵詞的轉(zhuǎn)化效果不好,需要優(yōu)化(如降低出價、增加否定關(guān)鍵詞、修改匹配方式為精確匹配等等),如果該數(shù)字低于平均數(shù),則表示這個關(guān)鍵詞的轉(zhuǎn)化效果好,需要進行拓展(增加同類關(guān)鍵詞、提高出價、修改匹配方式為短語或廣泛等等)。

總而言之,SEM追求最高的性價比,以最小的投入,獲最大的來自搜索引擎的訪問量,并產(chǎn)生商業(yè)價值。

四大競價搜索平臺地址:

百度推廣平臺:www2.baidu.com

360推廣平臺:e.#

搜狗推廣平臺:p4p.sogou.com

相關(guān)期刊更多

經(jīng)濟資料譯叢

省級期刊 審核時間1個月內(nèi)

廈門大學

長春工程學院學報·自然科學版

省級期刊 審核時間1個月內(nèi)

吉林省教育廳

廣東第二師范學院學報

省級期刊 審核時間1個月內(nèi)

廣東省教育廳

锦州市| 靖宇县| 封丘县| 马边| 焦作市| 陇西县| 聂拉木县| 昌图县| 攀枝花市| 开封市| 平度市| 托里县| 兰州市| 鄂温| 兴山县| 句容市| 泾源县| 招远市| 申扎县| 宝丰县| 务川| 永善县| 扬中市| 西吉县| 金坛市| 郧西县| 衡水市| 遂川县| 邵阳县| 竹山县| 新乡市| 通山县| 乌苏市| 股票| 黄石市| 安平县| 收藏| 从江县| 小金县| 泽普县| 杭锦后旗|