SysNucleus WebHarvy
詳情介紹
WebHarvy是一款專業(yè)的網(wǎng)頁(yè)數(shù)據(jù)抓取工具??梢宰詣?dòng)抓取并從多個(gè)頁(yè)面提取數(shù)據(jù),你可以直接在網(wǎng)頁(yè)上選擇需要選擇的資源,也可以直接將整個(gè)網(wǎng)頁(yè)保存為HTML的格式,可以幫助用戶快速?gòu)木W(wǎng)頁(yè)上提取數(shù)據(jù)并保存在不同的格式,允許您將抓取的數(shù)據(jù)導(dǎo)出為Excel,XML,CSV,JSON或TSV文件。智能地識(shí)別數(shù)據(jù)模式發(fā)生在web頁(yè)面。 SysNucleus WebHarvy自動(dòng)提取文字、圖片、網(wǎng)址和電子郵件從網(wǎng)站,并保存了各種格式的內(nèi)容。從網(wǎng)頁(yè)上采集數(shù)據(jù)作為導(dǎo)航到包含數(shù)據(jù)和點(diǎn)擊數(shù)據(jù)被捕獲的網(wǎng)頁(yè)一樣簡(jiǎn)單。可以自動(dòng)抓取并從多個(gè)網(wǎng)頁(yè)中提取數(shù)據(jù)。只是指出了“鏈接到下一頁(yè)'和WebHarvy網(wǎng)站刮板將自動(dòng)刮從所有頁(yè)面的數(shù)據(jù)。使用這款軟件,您可以從各種網(wǎng)站提取數(shù)據(jù),例如產(chǎn)品目錄或搜索結(jié)果,這些網(wǎng)站可能涉及房地產(chǎn),電子商務(wù),學(xué)術(shù)研究,娛樂,技術(shù)等不同類別。
通過 WebHarvy 的點(diǎn)擊界面,網(wǎng)頁(yè)抓取變得非常簡(jiǎn)單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內(nèi)置瀏覽器加載和導(dǎo)航網(wǎng)站,并且可以通過單擊鼠標(biāo)選擇要抓取的數(shù)據(jù)。
2、智能模式檢測(cè)
WebHarvy 自動(dòng)識(shí)別網(wǎng)頁(yè)中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁(yè)中抓取項(xiàng)目列表或表格(名稱、地址、電子郵件、價(jià)格等),不需要額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy 會(huì)自動(dòng)抓取它。
3、保存到文件或數(shù)據(jù)庫(kù)
抓取的數(shù)據(jù)可以以多種格式保存。當(dāng)前版本的 WebHarvy 網(wǎng)頁(yè)抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫(kù)。
4、處理分頁(yè)
網(wǎng)站通常會(huì)在多個(gè)頁(yè)面中顯示產(chǎn)品列表或搜索結(jié)果等數(shù)據(jù)。WebHarvy 可以自動(dòng)從多個(gè)頁(yè)面爬行和抓取數(shù)據(jù)。只需指出“下一頁(yè)的鏈接”,WebHarvy 就會(huì)自動(dòng)從所有頁(yè)面中抓取數(shù)據(jù)。
5、提交關(guān)鍵詞
通過自動(dòng)向搜索表單提交輸入關(guān)鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關(guān)鍵字提交到多個(gè)輸入文本字段來執(zhí)行搜索??梢詮妮斎腙P(guān)鍵字的所有組合的搜索結(jié)果中抓取數(shù)據(jù)。
6、保護(hù)隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或 VPN 訪問目標(biāo)網(wǎng)站??梢允褂脝蝹€(gè)代理服務(wù)器或代理服務(wù)器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內(nèi)類似頁(yè)面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內(nèi)的類別和子類別。
8、常用表達(dá)
正則表達(dá)式 (RegEx) 可以應(yīng)用于網(wǎng)頁(yè)的文本或 HTML 源來抓取匹配部分。這種強(qiáng)大的技術(shù)為您在抓取數(shù)據(jù)時(shí)提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運(yùn)行您自己的 JavaScript 代碼。這可用于與頁(yè)面元素交互、修改 DOM 或調(diào)用目標(biāo)頁(yè)面中已實(shí)現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動(dòng)抓取電子商務(wù)網(wǎng)站產(chǎn)品詳細(xì)信息頁(yè)面中顯示的多張圖像。
11、自動(dòng)執(zhí)行瀏覽器任務(wù)
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項(xiàng)、在字段中輸入文本、 滾動(dòng)頁(yè)面、 打開彈出窗口等任務(wù)。
WebHarvy 需要 Windows 操作系統(tǒng)才能運(yùn)行。如果您想在 Mac 上運(yùn)行 WebHarvy,您應(yīng)該通過 BootCamp 安裝 Windows 或通過 Parallels 運(yùn)行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構(gòu)建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項(xiàng)目構(gòu)建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運(yùn)行
WebHarvy 可以在 Amazon AWS EC2 Windows 實(shí)例中運(yùn)行
功能特點(diǎn)
1、簡(jiǎn)單的網(wǎng)頁(yè)抓取通過 WebHarvy 的點(diǎn)擊界面,網(wǎng)頁(yè)抓取變得非常簡(jiǎn)單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內(nèi)置瀏覽器加載和導(dǎo)航網(wǎng)站,并且可以通過單擊鼠標(biāo)選擇要抓取的數(shù)據(jù)。
2、智能模式檢測(cè)
WebHarvy 自動(dòng)識(shí)別網(wǎng)頁(yè)中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁(yè)中抓取項(xiàng)目列表或表格(名稱、地址、電子郵件、價(jià)格等),不需要額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy 會(huì)自動(dòng)抓取它。
3、保存到文件或數(shù)據(jù)庫(kù)
抓取的數(shù)據(jù)可以以多種格式保存。當(dāng)前版本的 WebHarvy 網(wǎng)頁(yè)抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫(kù)。
4、處理分頁(yè)
網(wǎng)站通常會(huì)在多個(gè)頁(yè)面中顯示產(chǎn)品列表或搜索結(jié)果等數(shù)據(jù)。WebHarvy 可以自動(dòng)從多個(gè)頁(yè)面爬行和抓取數(shù)據(jù)。只需指出“下一頁(yè)的鏈接”,WebHarvy 就會(huì)自動(dòng)從所有頁(yè)面中抓取數(shù)據(jù)。
5、提交關(guān)鍵詞
通過自動(dòng)向搜索表單提交輸入關(guān)鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關(guān)鍵字提交到多個(gè)輸入文本字段來執(zhí)行搜索??梢詮妮斎腙P(guān)鍵字的所有組合的搜索結(jié)果中抓取數(shù)據(jù)。
6、保護(hù)隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或 VPN 訪問目標(biāo)網(wǎng)站??梢允褂脝蝹€(gè)代理服務(wù)器或代理服務(wù)器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內(nèi)類似頁(yè)面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內(nèi)的類別和子類別。
8、常用表達(dá)
正則表達(dá)式 (RegEx) 可以應(yīng)用于網(wǎng)頁(yè)的文本或 HTML 源來抓取匹配部分。這種強(qiáng)大的技術(shù)為您在抓取數(shù)據(jù)時(shí)提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運(yùn)行您自己的 JavaScript 代碼。這可用于與頁(yè)面元素交互、修改 DOM 或調(diào)用目標(biāo)頁(yè)面中已實(shí)現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動(dòng)抓取電子商務(wù)網(wǎng)站產(chǎn)品詳細(xì)信息頁(yè)面中顯示的多張圖像。
11、自動(dòng)執(zhí)行瀏覽器任務(wù)
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項(xiàng)、在字段中輸入文本、 滾動(dòng)頁(yè)面、 打開彈出窗口等任務(wù)。
軟件優(yōu)勢(shì)
1、需要 WindowsWebHarvy 需要 Windows 操作系統(tǒng)才能運(yùn)行。如果您想在 Mac 上運(yùn)行 WebHarvy,您應(yīng)該通過 BootCamp 安裝 Windows 或通過 Parallels 運(yùn)行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構(gòu)建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項(xiàng)目構(gòu)建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運(yùn)行
WebHarvy 可以在 Amazon AWS EC2 Windows 實(shí)例中運(yùn)行
下載地址
- 電腦版
SysNucleus WebHarvy v7.2.0.217
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
同類軟件
網(wǎng)友評(píng)論
共0條評(píng)論(您的評(píng)論需要經(jīng)過審核才能顯示)
分類列表
精彩發(fā)現(xiàn)
換一換精品推薦
-
QuiteRSS(RSS閱讀器) v0.19.4 網(wǎng)絡(luò)輔助 / 37.63M
查看 -
ProxyCap(代理服務(wù)器工具)官方版 v5.3.90 網(wǎng)絡(luò)輔助 / 7.28M
查看 -
ssport高速端口掃描器中文版 v1.1官方版 網(wǎng)絡(luò)輔助 / 579K
查看 -
Acrylic WiFi professional(網(wǎng)絡(luò)檢測(cè)分析工具)官方版 v3.3.6621.26352 網(wǎng)絡(luò)輔助 / 8.4M
查看 -
WireEdit(網(wǎng)絡(luò)數(shù)據(jù)包編輯工具) v1.10.118官方版 網(wǎng)絡(luò)輔助 / 23.2M
查看
專題推薦
本類排行
月排行總排行