名詞解釋:什么是搜索引擎搜索引擎(英語:search engine)是一種信息檢索系統,旨在協助搜索存儲在計算機系統中的信息 。搜索結果一般被稱為“hits”,通常會以表單的形式列出 。網絡搜索引擎是最常見、公開的一種搜索引擎,其功能為搜索萬維網上儲存的信息 。
搜索引擎為一組項目提供了一個接口,使用戶能夠指定關于感興趣的項目的標準,并讓引擎找到匹配的項目,這些標準稱為搜索查詢 。在文本搜索引擎的情況下,搜索查詢通常表示為識別一個或多個文檔可能包含的期望概念的一組單詞 。
有多種樣式的搜索查詢語法在嚴格性上有差異 。它也可以在以前的站點中搜索搜索引擎中的名稱 。而一些文本搜索引擎要求用戶輸入由白色空格分隔的兩個或三個字,其他搜索引擎可以使用戶能夠指定整個文檔,圖片,聲音和各種形式的自然語言 。
一些搜索引擎對搜索查詢進行改進,以增加通過稱為查詢擴展的過程提供質量集合的可能性 。查詢理解方法可用于標準化查詢語言 。
擴展資料:
一個完整的搜索引擎需要有網頁爬取和收錄,建立索引,查詢詞分析,搜索排序,推薦系統五個部分組成 。
1、網頁爬取和收錄 。
網絡爬蟲技術是網頁爬取的核心技術,可以通過編寫一定的程序或者腳本來對互聯網的信息進行抓取 。在網頁抓取之后,要構建相應的數據庫來存儲我們爬取的網頁信息 。
但是互聯網的信息具有冗余性,主要原因是各大網站也都會在后臺進行爬蟲爬取,他們也會通過爬蟲來檢測一些熱點的內容或者文章,然后爬取其信息并對格式進行重新的組織,但其實網頁的內容幾乎都是一致的 。
所以在收錄爬蟲爬取的網頁信息之前,我們還要加入一個關鍵的環節——網頁去重,來確保我們數據庫中網頁的唯一性 。
2、建立索引
在抓取了網頁的信息之后,需要對網頁的信息進行解析,抽取到網頁的主題內容和類別信息 。其主要涉及的技術為文本識別和文本分類技術 。
網頁解析后的輸出往往是一些結構化的信息(每個網頁的信息完整度是不同的,需要統一對數據進行結構化操作),一般的結構化信息包括網頁的URL、網頁編碼、網頁標題、作者、生成時間、類別信息、摘要等等 。
在獲取了網頁結構化信息后,就要構建相應的索引了 。為了加快響應用戶査詢的速度,網頁內容通過"倒排索引"這種高效查詢數據結構來保存,而網頁之間的鏈接關系也會予以保存 。
之所以要保存鏈接關系,是因為這種關系 在網F相關性排序階段是可利用的,通過"鏈接分析"可以判斷頁面的相對重要性,對于為用 戶提供準確的搜索結果幫助很大 。
由于互聯網的網頁信息是海量的,所以搜索引擎的構建離不開大數據處理平臺和云計算技術,目前較為常用的大數據處理平臺為Hadoop生態架構 。
3、查詢詞分析 。
查詢詞分析就是query分析或者query聚類 。當搜索引擎接收到用戶的査詢詞后,首先需要對查詢詞進行分析,希望能夠結合查詢詞和用戶信息來正確推導用戶的真正搜索意圖 。
比如,一個用戶輸入的查詢詞為“養水仙花”,那么除了基本的內容匹配外,搜索引擎需要讀懂用戶,其實用戶的查詢詞還可以這樣被理解“水仙花的養法”,“水仙花好養不” 等等近意的查詢詞 。
在此之后,首先在緩存中査找,搜索引擎的緩存系統存儲了不同的查詢意圖對應的搜索結果,如果能夠在緩存系統找到滿足用戶需求的信息,則可以直接將搜索結果返回給用戶,這樣既省掉了重復計算對資源的消耗,又加快了響應速度 。
4、搜索排序
搜索引擎在分析了用戶的查詢詞以后,如果緩存的信息無法滿足用戶的查詢需求,搜索引擎要根據索引來查詢數據庫的網頁內容,并根據網頁內容與用戶需求來進行網頁排序 。
網頁排序需要眾多的因素,其中最為主要的因素為網頁內容與用戶查詢內容的相似度(匹配度),這個不難理解,搜索引擎的基本功能就是查詢 。
如果一個搜索引擎無法為用戶提供用戶需要查詢的內容,那其也就不能稱為是一個搜索引擎,所以網頁內容與用戶查詢內容的相似度是網頁排序的一個首要依據;
另外網頁的重要程度也是以關鍵元素,一個網頁的重要程度關乎了網頁內容的質量,在滿足用戶需求的基礎之上,用戶更加希望獲得高質量的內容,這是無可厚非的 。
根據上述因素,搜索引擎對查詢到的結果進行排序,然后展示給用戶 。
5、推薦系統
其實從不嚴格的角度來說,整個網頁排序的過程就屬于一種推薦策略 。從嚴格意義上來說,推薦系統并不屬于一個搜索引擎架構的必要環節,而且推薦系統在上述示意圖中并沒有顯示 。
但是一個優秀的搜索引擎不止要能分析出用戶查詢的基本需求,進一步來講,要能了解到或者猜測用戶的可能的下一步需求 。
目前隨著大數據的熱潮,各大互聯網公司和眾多專家認為推薦系統是解決互聯網大數據的一種有效途徑 。而且,最近越來越多個性化推薦知識受到了熱捧 。其實推薦系統在搜索引擎中往往是以中間頁的形式展示的,它的主要作用就是為推薦系統進行導流 。
參考資料來源:百度百科——搜索引擎
搜索引擎是什么意思 搜索引擎的含義
1、所謂搜索引擎,就是根據用戶需求與一定算法,運用特定策略從互聯網檢索出制定信息反饋給用戶的一門檢索技術 。
2、搜索引擎依托于多種技術,如網絡爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等,為信息檢索用戶提供快速、高相關性的信息服務 。
3、搜索引擎技術的核心模塊一般包括爬蟲、索引、檢索和排序等,同時可添加其他一系列輔助模塊,以為用戶創造更好的網絡使用環境 。
搜索引擎有哪幾種?
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(FullText Search Engine)、
目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine) 。
目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已 。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息 。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種 。
工作原理
搜索引擎的整個工作過程視為三個部分:
一是蜘蛛在互聯網上爬行和抓取網頁信息,并存入原始網頁數據庫;
二是對原始網頁數據庫中的信息進行提取和組織,并建立索引庫;
三是根據用戶輸入的關鍵詞,快速找到相關文檔,并對找到的結果進行排序,并將查詢結果返回給用戶 。
【搜索引擎有哪幾種 搜索引擎營銷】以上內容參考:百度百科-搜索引擎
搜索引擎的作用是什么?
搜索引擎是一個對互聯網信息資源進行搜索整理和分類,并儲存在網絡數據庫中供用戶查詢的系統,包括信息搜集、信息分類、用戶查詢三部分 。
工作原理
1.爬行:搜索引擎是通過一種特定規律的軟件跟蹤網頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人” 。搜索引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或文件的內容 。
2.抓取存儲:搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,并將爬行的數據存入原始頁面數據庫 。其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的 。搜索引擎蜘蛛在抓取頁面時,也做一定的重復內容檢測,一旦遇到權重很低的網站上有大量抄襲、采集或者復制的內容,很可能就不再爬行 。
3.預處理:搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理 。
關于搜索引擎和搜索引擎營銷的內容就分享到這兒!更多實用知識經驗,盡在 m.apearl.cn
- 七國集團有哪些國家 七國集團制裁俄羅斯
- 梁氏家譜世系完整版,梁氏骨科
- 工程機械與維修官網,工程機械與維修哪家好
- 崇字組詞,惠字組詞和部首
- 環保專業承包資質,環保專業學校有哪些
- 歌頌祖國的古詩詞有哪些,歌頌祖國的古詩詞朗誦
- 中級注冊安全工程師有什么用處,中級注冊安全工程師值不值得考
- 羊字成語大全100個,羊字成語接龍
- 誰發明了飛機 飛機是誰發明的?哪個國家?
- 麒麟區委書記,麒麟區人民政府
