
懶人采集器(網(wǎng)頁(yè)資源采集工具)官方版
- 類型:國(guó)產(chǎn)軟件
- 授權(quán):免費(fèi)軟件
- 更新:2024-05-29
- 標(biāo)簽: 數(shù)據(jù)采集工具
- 環(huán)境:Windows11,Windows10,Windows8,Windows7
- 本地下載
詳情介紹
懶人采集器官方版是一款非常實(shí)用的網(wǎng)頁(yè)信息采集工具,軟件擁有內(nèi)置瀏覽器,能夠以可視化的方式幫助用戶采集各種網(wǎng)頁(yè)內(nèi)容,操作方便簡(jiǎn)單,不需要掌握任何專業(yè)的網(wǎng)絡(luò)知識(shí),只需點(diǎn)擊鼠標(biāo)就能輕松創(chuàng)建采集任務(wù)。懶人采集器可自定義采集到你所需要網(wǎng)頁(yè)上的所有信息,可智能自動(dòng)識(shí)別網(wǎng)頁(yè)列表、采集字段和分頁(yè)等,輸入采集網(wǎng)址,點(diǎn)擊鼠標(biāo)即可輕松選取要抓取的內(nèi)容;懶人采集器可視化采集器,采集就像是搭積木,功能模塊隨意組合,可視化提取或操作網(wǎng)頁(yè)元素,自動(dòng)登錄、自動(dòng)發(fā)布、自動(dòng)識(shí)別驗(yàn)證碼,是萬(wàn)能的瀏覽器,可以快速創(chuàng)建自動(dòng)化腳本,甚至可以生成獨(dú)立的應(yīng)用程序;用戶可以通過(guò)懶人采集器來(lái)采集網(wǎng)頁(yè)上的一些數(shù)據(jù)內(nèi)容,并且可以將這些數(shù)據(jù)內(nèi)容單獨(dú)保存下來(lái),這樣用戶如果在瀏覽網(wǎng)頁(yè)的時(shí)候需要收集素材的話就可以通過(guò)這款采集器將這些數(shù)據(jù)保存下來(lái)使用了,有興趣的小伙伴快來(lái)下載體驗(yàn)吧!

2、支持三種高速引擎:瀏覽器引擎、HTTP引擎、JSON引擎,內(nèi)置優(yōu)化后的火狐瀏覽器,加上獨(dú)創(chuàng)的內(nèi)存優(yōu)化使瀏覽器采集也可以高速運(yùn)行,甚至可以快速轉(zhuǎn)換為HTTP方式運(yùn)行,享受更高的采集速度,而在抓取JSON數(shù)據(jù)時(shí),同樣可以使用瀏覽器可視化方式,通過(guò)鼠標(biāo)點(diǎn)選需要抓取的內(nèi)容,完全不需要去分析JSON數(shù)據(jù)結(jié)構(gòu),使非網(wǎng)頁(yè)專業(yè)設(shè)計(jì)人士也可以輕松抓取需要的數(shù)據(jù)
3、不用分析網(wǎng)頁(yè)請(qǐng)求和源代碼,卻支持更多的網(wǎng)頁(yè)采集
4、先進(jìn)的智能算法,可以一鍵生成目標(biāo)元素XPATH、自動(dòng)識(shí)別網(wǎng)頁(yè)列表、自動(dòng)識(shí)別分頁(yè)中的下一頁(yè)按鈕
5、支持豐富的數(shù)據(jù)導(dǎo)出方式,可以導(dǎo)出為txt文件、html文件、csv文件、excel文件,也可以導(dǎo)出到已有的數(shù)據(jù)庫(kù),如sqlite數(shù)據(jù)庫(kù)、access數(shù)據(jù)庫(kù)、sqlserver數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù),通過(guò)向?qū)У姆绞胶?jiǎn)單映射字段,即可輕松導(dǎo)出到目標(biāo)網(wǎng)站數(shù)據(jù)庫(kù)中
2、計(jì)劃任務(wù):靈活定義運(yùn)行時(shí)間,全自動(dòng)運(yùn)行
3、多引擎支持:支持多個(gè)采集引擎,內(nèi)置高速瀏覽器內(nèi)核、HTTP引擎和JSON引擎
4、智能識(shí)別:可自動(dòng)識(shí)別網(wǎng)頁(yè)列表、采集字段和分頁(yè)等
5、攔截請(qǐng)求:自定義攔截域名,方便過(guò)濾站外廣告,提高采集速度
6、多種數(shù)據(jù)導(dǎo)出:可導(dǎo)出為Txt 、Excel、MySQL、SQLServer、 SQlite、Access、網(wǎng)站等
要采集一個(gè)網(wǎng)站的數(shù)據(jù),首先我們要設(shè)置從哪些網(wǎng)址進(jìn)入采集,比如我們要采集一個(gè)網(wǎng)站的國(guó)內(nèi)新聞,那么我們就要設(shè)置起始網(wǎng)址為國(guó)內(nèi)新聞欄目列表的網(wǎng)址,而一般不會(huì)設(shè)置網(wǎng)站首頁(yè)為起始網(wǎng)址,因?yàn)槭醉?yè)通常會(huì)包含很多列表,比如最新文章、熱門文章、推薦文章等等各種列表塊,并且這些列表塊里顯示的內(nèi)容也是非常有限的,采集這些列表的話一般都無(wú)法采集完整信息
下面我們以采集新浪新聞為例,從新浪首頁(yè)找到國(guó)內(nèi)新聞,但該欄目首頁(yè)內(nèi)容還是比較雜亂,而且還細(xì)分三個(gè)子欄目

我們從進(jìn)入其中一個(gè)子欄目?jī)?nèi)地新聞看一下

該欄目頁(yè)包含有一個(gè)帶分頁(yè)的內(nèi)容列表,通過(guò)切換分頁(yè),我們就可以采集到該欄目下的所有文章,所以這種列表頁(yè)就非常適合作為我們采集的起始網(wǎng)址
現(xiàn)在,我們就復(fù)制該列表網(wǎng)址到任務(wù)編輯框第一步的文本框中

如果你要在一個(gè)任務(wù)中同時(shí)采集國(guó)內(nèi)新聞里的其他子欄目,也可以把另兩個(gè)子欄目列表地址復(fù)制進(jìn)來(lái),因?yàn)檫@些子欄目列表格式都是相似的,但為了便于導(dǎo)出或發(fā)布分類數(shù)據(jù),一般不建議多個(gè)欄目?jī)?nèi)容混合在一起
對(duì)于起始網(wǎng)址我們也可以批量添加或從txt文件導(dǎo)入,比如我們要采集前5頁(yè),也可以這樣自定義五個(gè)起始頁(yè)

需要注意的是如果這里自定義了多個(gè)分頁(yè)列表,在后面的采集配置里就不要再啟用分頁(yè)了,通常我們要采集某個(gè)欄目下的所有文章時(shí),都只需要定義該欄目第一頁(yè)為起始網(wǎng)址就行了,在后面的采集配置里啟用分頁(yè),就可以采集到每個(gè)分頁(yè)列表的數(shù)據(jù)
二、自動(dòng)生成列表和字段
進(jìn)入第二步后,對(duì)于某些網(wǎng)頁(yè),懶人采集器會(huì)智能分析出該頁(yè)的列表,并自動(dòng)高亮選擇網(wǎng)頁(yè)列表和生成列表數(shù)據(jù),如

然后我們?cè)賹?duì)這些數(shù)據(jù)進(jìn)行修整,比如刪掉一些不需要的字段

點(diǎn)擊圖示三角符號(hào),會(huì)彈出該字段采集詳細(xì)配置,點(diǎn)擊上面的刪按鈕即可刪除該字段,其余參數(shù)后面章節(jié)會(huì)獨(dú)立介紹
如果某些網(wǎng)頁(yè)自動(dòng)生成的列表數(shù)據(jù)并不是我們想要的數(shù)據(jù),可以點(diǎn)擊清除字段,把生成的字段全部清除

如果自動(dòng)分析出的高亮列表也不是我們要采集的列表,那么我們就手動(dòng)選取列表,要是想取消高亮顯示的列表框,可以點(diǎn)擊 查找列表,列表XPATH,把里面的xpath清空后確定即可
三、手動(dòng)生成列表
點(diǎn)擊查找列表按鈕,選擇手動(dòng)選擇列表


按提示,用鼠標(biāo)左鍵點(diǎn)擊網(wǎng)頁(yè)列表中的第一行數(shù)據(jù)
點(diǎn)完第一行,再按提示點(diǎn)擊第二行或其他相似的行

點(diǎn)擊完列表里的任意兩行后,整個(gè)列表就高亮顯示出來(lái)了,同時(shí)該列表里的字段也會(huì)字段生成,如果生成的字段不對(duì),點(diǎn)擊清除字段,把下面的字段全部清除掉,下一章再介紹手動(dòng)選取字段

四、手動(dòng)生成字段
點(diǎn)擊增加字段按鈕

點(diǎn)擊列表中任意一行中要提取的元素,比如要提取標(biāo)題和鏈接地址,鼠標(biāo)左鍵點(diǎn)擊一下該標(biāo)題即可

當(dāng)點(diǎn)擊的是網(wǎng)頁(yè)鏈接時(shí),會(huì)提示是否用時(shí)要抓取鏈接地址

如果要同時(shí)提取鏈接標(biāo)題和鏈接地址,點(diǎn)是,如果只要提取標(biāo)題文本,點(diǎn)否,這里我們點(diǎn)是

系統(tǒng)會(huì)自動(dòng)生成標(biāo)題和鏈接地址字段,并在字段列表中顯示出提取到的字段內(nèi)容,當(dāng)點(diǎn)擊底部表格字段標(biāo)題時(shí),會(huì)在網(wǎng)頁(yè)上以黃色背景高亮顯示出匹配的內(nèi)容
如何還有標(biāo)記列表中的其他字段,點(diǎn)擊新增字段,重復(fù)以上操作即可
五、分頁(yè)設(shè)置
當(dāng)列表有分頁(yè)時(shí),啟用分頁(yè)后就可以采集到所有的分頁(yè)列表數(shù)據(jù)
網(wǎng)頁(yè)分頁(yè)有兩種
普通分頁(yè):存在分頁(yè)條,并顯示有下一頁(yè)按鈕,點(diǎn)擊后可以進(jìn)入下一頁(yè),如之前的新浪新聞列表里的分頁(yè)
瀑布流分頁(yè):網(wǎng)頁(yè)滾動(dòng)條拉到底部時(shí)會(huì)自動(dòng)加載下一頁(yè)內(nèi)容
如果是普通分頁(yè),我們選擇嘗試自動(dòng)設(shè)置或手動(dòng)設(shè)置
1、自動(dòng)設(shè)置分頁(yè)

新建任務(wù)時(shí)默認(rèn)是沒(méi)有啟用分頁(yè)的,點(diǎn)擊不啟用分頁(yè),會(huì)彈出一個(gè)菜單,選擇自動(dòng)識(shí)別分頁(yè),如果識(shí)別成功,會(huì)彈出對(duì)話框提示成功識(shí)別并設(shè)置了分頁(yè)元素,并在網(wǎng)頁(yè)下一頁(yè)按鈕上出現(xiàn)高亮的紅色虛線框,至此成功啟用自動(dòng)分頁(yè)

如果自動(dòng)識(shí)別識(shí)別,會(huì)出現(xiàn)如下綠色提示框

2、手動(dòng)設(shè)置分頁(yè)
在菜單中選擇手動(dòng)設(shè)置分頁(yè)

然后會(huì)自動(dòng)出現(xiàn)查找分頁(yè)按鈕,點(diǎn)擊后彈出菜單,選擇標(biāo)記分頁(yè)

按提示向?qū)c(diǎn)擊下一頁(yè)按鈕

點(diǎn)擊后會(huì)在網(wǎng)頁(yè)下一頁(yè)按鈕上出現(xiàn)高亮的紅色虛線框,至此成功標(biāo)記了分頁(yè),如果要查看剛才設(shè)置的分頁(yè)xpath,可以選擇菜單中的分頁(yè)XPath,即可看到該分頁(yè)xpath,在這里也可以手動(dòng)輸入xpath進(jìn)行設(shè)置

3、瀑布流分頁(yè)
有些網(wǎng)頁(yè)需要將滾動(dòng)條拉到底部才能進(jìn)入下一頁(yè),例如今日頭條、知乎等網(wǎng)站,在菜單中選擇瀑布流分頁(yè)即可啟用該分頁(yè),使用瀑布流分頁(yè)采集時(shí),頁(yè)面會(huì)自動(dòng)滾動(dòng)到底部,直到分頁(yè)完成或達(dá)到指定的分頁(yè)次數(shù)
4、最大分頁(yè)
指定最大分頁(yè)次數(shù),也就是切換分頁(yè)的次數(shù)不會(huì)超過(guò)此數(shù)值

六、采集內(nèi)容頁(yè)等多級(jí)網(wǎng)頁(yè)
如果我們要采集二級(jí)頁(yè)面,如內(nèi)容頁(yè),或采集更深一級(jí)的頁(yè)面,三級(jí)、四級(jí)等,在當(dāng)前頁(yè)字段列表中,必須包含有一個(gè)提取鏈接地址的字段,也就是提取屬性為Href的字段,如圖

點(diǎn)擊該字段標(biāo)題欄,選中該列后會(huì)出現(xiàn)深入鏈接頁(yè)采集按鈕

點(diǎn)擊該按鈕后會(huì)自動(dòng)創(chuàng)建一個(gè)配置選項(xiàng)卡,并自動(dòng)打開之前選中那個(gè)字段的一個(gè)網(wǎng)址

而采集模式也自動(dòng)顯示為單條模式

列表模式:用于提取某個(gè)網(wǎng)頁(yè)列表中的數(shù)據(jù),預(yù)覽中可看到多條數(shù)據(jù)
單條模式:適用于采集內(nèi)容詳情頁(yè)里的各項(xiàng)信息,如文章標(biāo)題、時(shí)間、正文等
因?yàn)槲覀兩钊氩杉倪@個(gè)頁(yè)面是內(nèi)容頁(yè),所有使用默認(rèn)的單條模式
然后,我們新建一個(gè)字段,提取網(wǎng)頁(yè)中的文章發(fā)布時(shí)間,因?yàn)槲恼聵?biāo)題在第一層列表采集里已經(jīng)提取了,這里就不需要重復(fù)了,采集運(yùn)行時(shí),多個(gè)頁(yè)面的字段會(huì)自動(dòng)合并為一個(gè)表格數(shù)據(jù)的

繼續(xù)新建字段提取正文

而為了保持原文的段落格式,這里的取值屬性可以選擇InnerHtml,即該字段提取的數(shù)據(jù)包含Html標(biāo)簽

七、其他設(shè)置
我們可以對(duì)瀏覽器做一些設(shè)置,比如禁用圖片、JS、Flash、框架等,提高瀏覽網(wǎng)頁(yè)的速度
還可以設(shè)置瀏覽器標(biāo)識(shí)(UserAgent)、代理IP、請(qǐng)求的間隔時(shí)間等
瀏覽器標(biāo)識(shí)(UserAgent):網(wǎng)頁(yè)通過(guò)讀取瀏覽器標(biāo)識(shí)來(lái)獲取客戶端的一些信息
請(qǐng)求間隔時(shí)間:用于降低請(qǐng)求的頻率,即降低采集速度,避免因采集太快而被封IP,如果不需要降速,可以設(shè)置為0時(shí)
多值連接符:字段設(shè)置了多個(gè)xpah提取多個(gè)元素時(shí),使用這里自定義的連接符連接多個(gè)元素值
HTTP引擎線程數(shù):使用HTTP請(qǐng)求時(shí),多線程運(yùn)行的線程數(shù),同一個(gè)HTTP請(qǐng)求的任務(wù)可以拆分并使用多個(gè)線程同時(shí)采集,提高采集速度,只適用于HTTP引擎,瀏覽器引擎不適合
① .Net Framework 4.7.2
② VC++2015運(yùn)行庫(kù)
以上兩個(gè)組件缺一不可,請(qǐng)務(wù)必安裝完整,否則將無(wú)法正常運(yùn)行。
修復(fù)預(yù)登錄部分網(wǎng)站后出現(xiàn)閃退等問(wèn)題

功能介紹
1、操作簡(jiǎn)單,可通過(guò)鼠標(biāo)點(diǎn)擊的方式輕松選取要抓取的內(nèi)容2、支持三種高速引擎:瀏覽器引擎、HTTP引擎、JSON引擎,內(nèi)置優(yōu)化后的火狐瀏覽器,加上獨(dú)創(chuàng)的內(nèi)存優(yōu)化使瀏覽器采集也可以高速運(yùn)行,甚至可以快速轉(zhuǎn)換為HTTP方式運(yùn)行,享受更高的采集速度,而在抓取JSON數(shù)據(jù)時(shí),同樣可以使用瀏覽器可視化方式,通過(guò)鼠標(biāo)點(diǎn)選需要抓取的內(nèi)容,完全不需要去分析JSON數(shù)據(jù)結(jié)構(gòu),使非網(wǎng)頁(yè)專業(yè)設(shè)計(jì)人士也可以輕松抓取需要的數(shù)據(jù)
3、不用分析網(wǎng)頁(yè)請(qǐng)求和源代碼,卻支持更多的網(wǎng)頁(yè)采集
4、先進(jìn)的智能算法,可以一鍵生成目標(biāo)元素XPATH、自動(dòng)識(shí)別網(wǎng)頁(yè)列表、自動(dòng)識(shí)別分頁(yè)中的下一頁(yè)按鈕
5、支持豐富的數(shù)據(jù)導(dǎo)出方式,可以導(dǎo)出為txt文件、html文件、csv文件、excel文件,也可以導(dǎo)出到已有的數(shù)據(jù)庫(kù),如sqlite數(shù)據(jù)庫(kù)、access數(shù)據(jù)庫(kù)、sqlserver數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù),通過(guò)向?qū)У姆绞胶?jiǎn)單映射字段,即可輕松導(dǎo)出到目標(biāo)網(wǎng)站數(shù)據(jù)庫(kù)中
軟件特色
1、可視化向?qū)В核胁杉兀詣?dòng)生成采集數(shù)據(jù)2、計(jì)劃任務(wù):靈活定義運(yùn)行時(shí)間,全自動(dòng)運(yùn)行
3、多引擎支持:支持多個(gè)采集引擎,內(nèi)置高速瀏覽器內(nèi)核、HTTP引擎和JSON引擎
4、智能識(shí)別:可自動(dòng)識(shí)別網(wǎng)頁(yè)列表、采集字段和分頁(yè)等
5、攔截請(qǐng)求:自定義攔截域名,方便過(guò)濾站外廣告,提高采集速度
6、多種數(shù)據(jù)導(dǎo)出:可導(dǎo)出為Txt 、Excel、MySQL、SQLServer、 SQlite、Access、網(wǎng)站等
懶人采集器使用方法
一、設(shè)置起始網(wǎng)址要采集一個(gè)網(wǎng)站的數(shù)據(jù),首先我們要設(shè)置從哪些網(wǎng)址進(jìn)入采集,比如我們要采集一個(gè)網(wǎng)站的國(guó)內(nèi)新聞,那么我們就要設(shè)置起始網(wǎng)址為國(guó)內(nèi)新聞欄目列表的網(wǎng)址,而一般不會(huì)設(shè)置網(wǎng)站首頁(yè)為起始網(wǎng)址,因?yàn)槭醉?yè)通常會(huì)包含很多列表,比如最新文章、熱門文章、推薦文章等等各種列表塊,并且這些列表塊里顯示的內(nèi)容也是非常有限的,采集這些列表的話一般都無(wú)法采集完整信息
下面我們以采集新浪新聞為例,從新浪首頁(yè)找到國(guó)內(nèi)新聞,但該欄目首頁(yè)內(nèi)容還是比較雜亂,而且還細(xì)分三個(gè)子欄目

我們從進(jìn)入其中一個(gè)子欄目?jī)?nèi)地新聞看一下

該欄目頁(yè)包含有一個(gè)帶分頁(yè)的內(nèi)容列表,通過(guò)切換分頁(yè),我們就可以采集到該欄目下的所有文章,所以這種列表頁(yè)就非常適合作為我們采集的起始網(wǎng)址
現(xiàn)在,我們就復(fù)制該列表網(wǎng)址到任務(wù)編輯框第一步的文本框中

如果你要在一個(gè)任務(wù)中同時(shí)采集國(guó)內(nèi)新聞里的其他子欄目,也可以把另兩個(gè)子欄目列表地址復(fù)制進(jìn)來(lái),因?yàn)檫@些子欄目列表格式都是相似的,但為了便于導(dǎo)出或發(fā)布分類數(shù)據(jù),一般不建議多個(gè)欄目?jī)?nèi)容混合在一起
對(duì)于起始網(wǎng)址我們也可以批量添加或從txt文件導(dǎo)入,比如我們要采集前5頁(yè),也可以這樣自定義五個(gè)起始頁(yè)

需要注意的是如果這里自定義了多個(gè)分頁(yè)列表,在后面的采集配置里就不要再啟用分頁(yè)了,通常我們要采集某個(gè)欄目下的所有文章時(shí),都只需要定義該欄目第一頁(yè)為起始網(wǎng)址就行了,在后面的采集配置里啟用分頁(yè),就可以采集到每個(gè)分頁(yè)列表的數(shù)據(jù)
二、自動(dòng)生成列表和字段
進(jìn)入第二步后,對(duì)于某些網(wǎng)頁(yè),懶人采集器會(huì)智能分析出該頁(yè)的列表,并自動(dòng)高亮選擇網(wǎng)頁(yè)列表和生成列表數(shù)據(jù),如

然后我們?cè)賹?duì)這些數(shù)據(jù)進(jìn)行修整,比如刪掉一些不需要的字段

點(diǎn)擊圖示三角符號(hào),會(huì)彈出該字段采集詳細(xì)配置,點(diǎn)擊上面的刪按鈕即可刪除該字段,其余參數(shù)后面章節(jié)會(huì)獨(dú)立介紹
如果某些網(wǎng)頁(yè)自動(dòng)生成的列表數(shù)據(jù)并不是我們想要的數(shù)據(jù),可以點(diǎn)擊清除字段,把生成的字段全部清除

如果自動(dòng)分析出的高亮列表也不是我們要采集的列表,那么我們就手動(dòng)選取列表,要是想取消高亮顯示的列表框,可以點(diǎn)擊 查找列表,列表XPATH,把里面的xpath清空后確定即可
三、手動(dòng)生成列表
點(diǎn)擊查找列表按鈕,選擇手動(dòng)選擇列表


按提示,用鼠標(biāo)左鍵點(diǎn)擊網(wǎng)頁(yè)列表中的第一行數(shù)據(jù)
點(diǎn)完第一行,再按提示點(diǎn)擊第二行或其他相似的行

點(diǎn)擊完列表里的任意兩行后,整個(gè)列表就高亮顯示出來(lái)了,同時(shí)該列表里的字段也會(huì)字段生成,如果生成的字段不對(duì),點(diǎn)擊清除字段,把下面的字段全部清除掉,下一章再介紹手動(dòng)選取字段

四、手動(dòng)生成字段
點(diǎn)擊增加字段按鈕

點(diǎn)擊列表中任意一行中要提取的元素,比如要提取標(biāo)題和鏈接地址,鼠標(biāo)左鍵點(diǎn)擊一下該標(biāo)題即可

當(dāng)點(diǎn)擊的是網(wǎng)頁(yè)鏈接時(shí),會(huì)提示是否用時(shí)要抓取鏈接地址

如果要同時(shí)提取鏈接標(biāo)題和鏈接地址,點(diǎn)是,如果只要提取標(biāo)題文本,點(diǎn)否,這里我們點(diǎn)是

系統(tǒng)會(huì)自動(dòng)生成標(biāo)題和鏈接地址字段,并在字段列表中顯示出提取到的字段內(nèi)容,當(dāng)點(diǎn)擊底部表格字段標(biāo)題時(shí),會(huì)在網(wǎng)頁(yè)上以黃色背景高亮顯示出匹配的內(nèi)容
如何還有標(biāo)記列表中的其他字段,點(diǎn)擊新增字段,重復(fù)以上操作即可
五、分頁(yè)設(shè)置
當(dāng)列表有分頁(yè)時(shí),啟用分頁(yè)后就可以采集到所有的分頁(yè)列表數(shù)據(jù)
網(wǎng)頁(yè)分頁(yè)有兩種
普通分頁(yè):存在分頁(yè)條,并顯示有下一頁(yè)按鈕,點(diǎn)擊后可以進(jìn)入下一頁(yè),如之前的新浪新聞列表里的分頁(yè)
瀑布流分頁(yè):網(wǎng)頁(yè)滾動(dòng)條拉到底部時(shí)會(huì)自動(dòng)加載下一頁(yè)內(nèi)容
如果是普通分頁(yè),我們選擇嘗試自動(dòng)設(shè)置或手動(dòng)設(shè)置
1、自動(dòng)設(shè)置分頁(yè)

新建任務(wù)時(shí)默認(rèn)是沒(méi)有啟用分頁(yè)的,點(diǎn)擊不啟用分頁(yè),會(huì)彈出一個(gè)菜單,選擇自動(dòng)識(shí)別分頁(yè),如果識(shí)別成功,會(huì)彈出對(duì)話框提示成功識(shí)別并設(shè)置了分頁(yè)元素,并在網(wǎng)頁(yè)下一頁(yè)按鈕上出現(xiàn)高亮的紅色虛線框,至此成功啟用自動(dòng)分頁(yè)

如果自動(dòng)識(shí)別識(shí)別,會(huì)出現(xiàn)如下綠色提示框

2、手動(dòng)設(shè)置分頁(yè)
在菜單中選擇手動(dòng)設(shè)置分頁(yè)

然后會(huì)自動(dòng)出現(xiàn)查找分頁(yè)按鈕,點(diǎn)擊后彈出菜單,選擇標(biāo)記分頁(yè)

按提示向?qū)c(diǎn)擊下一頁(yè)按鈕

點(diǎn)擊后會(huì)在網(wǎng)頁(yè)下一頁(yè)按鈕上出現(xiàn)高亮的紅色虛線框,至此成功標(biāo)記了分頁(yè),如果要查看剛才設(shè)置的分頁(yè)xpath,可以選擇菜單中的分頁(yè)XPath,即可看到該分頁(yè)xpath,在這里也可以手動(dòng)輸入xpath進(jìn)行設(shè)置

3、瀑布流分頁(yè)
有些網(wǎng)頁(yè)需要將滾動(dòng)條拉到底部才能進(jìn)入下一頁(yè),例如今日頭條、知乎等網(wǎng)站,在菜單中選擇瀑布流分頁(yè)即可啟用該分頁(yè),使用瀑布流分頁(yè)采集時(shí),頁(yè)面會(huì)自動(dòng)滾動(dòng)到底部,直到分頁(yè)完成或達(dá)到指定的分頁(yè)次數(shù)
4、最大分頁(yè)
指定最大分頁(yè)次數(shù),也就是切換分頁(yè)的次數(shù)不會(huì)超過(guò)此數(shù)值

六、采集內(nèi)容頁(yè)等多級(jí)網(wǎng)頁(yè)
如果我們要采集二級(jí)頁(yè)面,如內(nèi)容頁(yè),或采集更深一級(jí)的頁(yè)面,三級(jí)、四級(jí)等,在當(dāng)前頁(yè)字段列表中,必須包含有一個(gè)提取鏈接地址的字段,也就是提取屬性為Href的字段,如圖

點(diǎn)擊該字段標(biāo)題欄,選中該列后會(huì)出現(xiàn)深入鏈接頁(yè)采集按鈕

點(diǎn)擊該按鈕后會(huì)自動(dòng)創(chuàng)建一個(gè)配置選項(xiàng)卡,并自動(dòng)打開之前選中那個(gè)字段的一個(gè)網(wǎng)址

而采集模式也自動(dòng)顯示為單條模式

列表模式:用于提取某個(gè)網(wǎng)頁(yè)列表中的數(shù)據(jù),預(yù)覽中可看到多條數(shù)據(jù)
單條模式:適用于采集內(nèi)容詳情頁(yè)里的各項(xiàng)信息,如文章標(biāo)題、時(shí)間、正文等
因?yàn)槲覀兩钊氩杉倪@個(gè)頁(yè)面是內(nèi)容頁(yè),所有使用默認(rèn)的單條模式
然后,我們新建一個(gè)字段,提取網(wǎng)頁(yè)中的文章發(fā)布時(shí)間,因?yàn)槲恼聵?biāo)題在第一層列表采集里已經(jīng)提取了,這里就不需要重復(fù)了,采集運(yùn)行時(shí),多個(gè)頁(yè)面的字段會(huì)自動(dòng)合并為一個(gè)表格數(shù)據(jù)的

繼續(xù)新建字段提取正文

而為了保持原文的段落格式,這里的取值屬性可以選擇InnerHtml,即該字段提取的數(shù)據(jù)包含Html標(biāo)簽

七、其他設(shè)置
我們可以對(duì)瀏覽器做一些設(shè)置,比如禁用圖片、JS、Flash、框架等,提高瀏覽網(wǎng)頁(yè)的速度
還可以設(shè)置瀏覽器標(biāo)識(shí)(UserAgent)、代理IP、請(qǐng)求的間隔時(shí)間等
瀏覽器標(biāo)識(shí)(UserAgent):網(wǎng)頁(yè)通過(guò)讀取瀏覽器標(biāo)識(shí)來(lái)獲取客戶端的一些信息
請(qǐng)求間隔時(shí)間:用于降低請(qǐng)求的頻率,即降低采集速度,避免因采集太快而被封IP,如果不需要降速,可以設(shè)置為0時(shí)
多值連接符:字段設(shè)置了多個(gè)xpah提取多個(gè)元素時(shí),使用這里自定義的連接符連接多個(gè)元素值
HTTP引擎線程數(shù):使用HTTP請(qǐng)求時(shí),多線程運(yùn)行的線程數(shù),同一個(gè)HTTP請(qǐng)求的任務(wù)可以拆分并使用多個(gè)線程同時(shí)采集,提高采集速度,只適用于HTTP引擎,瀏覽器引擎不適合

注意事項(xiàng)
系統(tǒng)組件:① .Net Framework 4.7.2
② VC++2015運(yùn)行庫(kù)
以上兩個(gè)組件缺一不可,請(qǐng)務(wù)必安裝完整,否則將無(wú)法正常運(yùn)行。
更新日志
v3.2.9.1版本修復(fù)預(yù)登錄部分網(wǎng)站后出現(xiàn)閃退等問(wèn)題
下載地址
- 電腦版
懶人采集器(網(wǎng)頁(yè)資源采集工具)官方版 v3.2.9.1
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
猜您喜歡

- 電腦數(shù)據(jù)采集軟件
- 工作中大家可能會(huì)用到一些數(shù)據(jù),而苦于沒(méi)有好的數(shù)據(jù)采集軟件,只能一個(gè)一個(gè)的去網(wǎng)站采集。數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用一種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。數(shù)據(jù)采集技術(shù)目前廣泛應(yīng)用于各個(gè)領(lǐng)域。針對(duì)制造業(yè)企業(yè)的龐大生產(chǎn)數(shù)據(jù),數(shù)據(jù)采集工具尤為重要。那么市場(chǎng)上數(shù)據(jù)采集工具有哪些?3322小編整理了一批好用的數(shù)據(jù)采集軟件,安裝后可以輕松的采集到你想要的數(shù)據(jù),還不趕快下載安裝。
-
-
火車頭采集器官方版 v10.24正式版 網(wǎng)絡(luò)輔助 / 53.96M
-
爬山虎采集器官方版 v3.1.0.0 網(wǎng)絡(luò)輔助 / 61.81M
-
后羿采集器 v4.0.2官方版 網(wǎng)絡(luò)輔助 / 81.78M
-
懶人采集器(網(wǎng)頁(yè)資源采集工具)官方版 v3.2.9.1 網(wǎng)絡(luò)輔助 / 85.66M
-
八爪魚采集器官方版(免費(fèi)網(wǎng)絡(luò)爬蟲軟件) v8.6.7 網(wǎng)絡(luò)輔助 / 79.69M
同類軟件
網(wǎng)友評(píng)論
共0條評(píng)論(您的評(píng)論需要經(jīng)過(guò)審核才能顯示)