您找過以下的關鍵字

尚無搜尋紀錄

飼育網路爬蟲: 搜尋引擎資料探勘最佳化

飼育網路爬蟲: 搜尋引擎資料探勘最佳化

作者 : SUN I視覺設計

出版社 : 佳魁資訊股份有限公司

※ ※ 無庫存

無庫存

定價 : NT 550

售價9折, NT495

內容簡介


本書作者是一位資深的搜尋引擎開發人員,作者對資料獲取(網路資訊挖掘)與資料檢索(搜尋引擎)兩方面作了深入的介紹。本書首先提出了一套「網路資料採擷」的完整理論,並舉出一個實際的智慧爬蟲系統,透過理論與實際的完整呈現,使讀者能夠對「網路資料採擷」有一個比較具體的認識,然後介紹了一個專用程式語言IRS,並舉出了這個語言的編譯器以及虛擬機器的實現方法。
本書還透過對多個開放原始碼搜尋引擎項目抽絲剝繭的細緻分析,引出搜尋引擎的一些基本原理與開發方法,並介紹一個商業化搜尋引擎的實例;最终還結合一個Java框架介紹一些軟體設計思想。
希望本書能對搜尋引擎開發人員有所啟發,幫助那些對搜尋引擎開發有興趣的讀者踏進這扇大門,並為那些經驗不那麼豐富的搜尋引擎開發者提供一些參考,使得廣大網際網路使用者能在Google 和Baidu 之外的眾多的垂直搜索網站上獲得更好的體驗與服務。從初學者到有一定經驗的搜尋引擎開發人員,各個層次的讀者都能找到一些適合自己閱讀的章節。

  


本書內容
第1章 網頁資料採擷
1.1 網頁資料採擷定義
1.2 Web 資料採擷面臨的問題
1.3 Web 資料採擷的分類
1.4 網頁資料的結構與特點
1.5 網頁資料採擷的基本方法
第2章 智慧型網路爬蟲
2.1 智慧型網路爬蟲的定義與特點
2.2 抓取入口定義
2.3 次級頁面自動發現
2.4 次級頁面位址拼接
2.5 已爬位址處理
2.6 資訊採集強度控制
2.7 模擬使用者登入
2.8 驗證碼識別
2.9 代理伺服器設置
2.10 JavaScript 解析控制
第3章 網頁資訊挖掘專用程式設計語言IRS
3.1 IRS 語言的簡介與設計原則
3.2 IRS 腳本語法結構
第4章 IRS 虛擬機器及編譯器實現原理
4.1 Ruby 基本語法
4.2 Java 與JRuby 的整合
4.3 詞法分析和語法分析
4.4 IRS 語言的語義分析
4.5 IRVM 虛擬機器主類別
第5章 搜尋引擎設計原理
5.1 概述
5.2 Lucene 搜尋引擎的原理
5.3 Hadoop 搜尋引擎的原理
5.4 Nutch 搜尋引擎的原理
5.5 Compass 搜尋引擎的原理
5.6 Solr 搜尋引擎的原理
第6章 搜尋引擎的商業化實現
6.1 索引
6.2 查詢
第7章 Hivemind
7.1 模組(Modules)
7.2 子模組與依賴性(Sub Modules & Dependency)
7.3 服務點(ServicePoints)
7.4 攔截器(Interceptor)
7.5 設定點(ConfigurationPoints)
7.6 符號資源(SymbolSources)
7.7 轉換器(Translators)
7.8 物件提供器(ObjectProviders)
7.9 服務模型(ServiceModels)
7.10 啟動& 預載入(Startup & EagerLoad)
7.11 服務構造器
看更多 隱藏
作者介紹

■作者簡介

SUN I視覺設計

看更多 隱藏