欧美+在线播放,蜜臀av在线,久久久99久久久国产自输拍,免费 黄 色 人成 视频 在 线,免费+国产+国产精品

 
您的位置:首頁 >  新聞中心 > 開發(fā)者專區(qū)
  開發(fā)者專區(qū)
 

網(wǎng)絡(luò)爬蟲無孔不入,不經(jīng)意間讓你的隱私無處安放

來源:原創(chuàng)    時間:2018-03-03    瀏覽:0 次

         一位朋友曾困惑地問:“據(jù)說谷歌可以搜索私人郵件,真的嗎?”“在你回答之前,你需要解釋一下網(wǎng)絡(luò)爬蟲的作用”。如今,搜索引擎已經(jīng)成為上網(wǎng)沖浪的標(biāo)準(zhǔn),甚至“不問百度”。外事不問谷歌:“搜索引擎可以根據(jù)用戶的需要提供豐富的在線信息。與傳統(tǒng)的紙質(zhì)信息媒體相比,搜索引擎從根本上改變了人們獲取和處理信息的習(xí)慣。它基于一個收集大量網(wǎng)絡(luò)信息的網(wǎng)絡(luò)爬蟲。在搜索引擎的早期,程序員的小兄弟們互相炫耀的指標(biāo)之一,就是他們自己的爬蟲收集的網(wǎng)頁數(shù)量。

blob.png

        搜索引擎收集在線信息的主要手段是網(wǎng)絡(luò)爬蟲(也稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人等)。這是一個程序,“自動瀏覽網(wǎng)頁”,根據(jù)一定的規(guī)則。自動抓取互聯(lián)網(wǎng)信息,如:網(wǎng)頁、各種文檔、圖片、音頻、視頻等。搜索引擎通過索引技術(shù)組織這些信息,并根據(jù)用戶的查詢快速提供搜索結(jié)果。如果互聯(lián)網(wǎng)上的網(wǎng)頁或網(wǎng)站被理解為節(jié)點,那么大量的網(wǎng)頁或網(wǎng)站將通過超鏈接形成網(wǎng)格結(jié)構(gòu)。當(dāng)人們?yōu)g覽網(wǎng)頁時,他們通過點擊頁面上的鏈接從一個節(jié)點跳到另一個節(jié)點。
        就像在網(wǎng)上散步。網(wǎng)絡(luò)爬蟲模擬了這種行為,但是它更快,跳的節(jié)點更全面,所以它們被生動地稱為網(wǎng)絡(luò)爬蟲或網(wǎng)絡(luò)蜘蛛。不斷優(yōu)化的網(wǎng)絡(luò)爬蟲技術(shù)有效地應(yīng)對了各種挑戰(zhàn),為有效搜索用戶關(guān)注的特定領(lǐng)域和主題提供了強有力的支持,并為推廣中小型網(wǎng)站提供了一種有效的途徑。該網(wǎng)站是針對搜索引擎爬蟲的優(yōu)化曾經(jīng)非常流行。
   需要注意的是,Web爬蟲開始從一些初始Web頁面(URL)抓取頁面,并在此過程中繼續(xù)從當(dāng)前頁面中提取新鏈接供爬行,并來回循環(huán)以擴展到整個網(wǎng)絡(luò)。為搜索引擎或大型網(wǎng)絡(luò)服務(wù)提供商收集數(shù)據(jù)。網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量都很大,爬行速度和存儲空間都很大。同時,因為有很多頁面需要刷新,所以通常是并行的。這是一個常見的爬蟲框架。首先,仔細(xì)選擇一些網(wǎng)頁,并使用這些頁面的鏈接地址作為種子URL放入要獲取的URL隊列中。
        爬蟲依次從URL隊列讀取每個URL,通過DNS解析將其解析到相應(yīng)的IP地址。一方面,下載的內(nèi)容存儲在數(shù)據(jù)庫中,等待后續(xù)處理;另一方面,將頁面的URL添加到爬行隊列中(此隊列記錄下載的頁面URL以避免重復(fù)爬行)。此外,如果鏈接未被獲取,則從新下載的頁面中提取新的URL。添加到要獲取的URL隊列,并在以后的計劃中下載相應(yīng)的頁面。這個循環(huán)來回循環(huán),直到要獲取的URL隊列為空(實際上不是空的。
       將有其他條件來停止爬行,這表示完成了完整的爬行過程。這是一個通用爬蟲的整個過程。由于互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量如此之多,所以在實踐中往往會有不同的爬行策略。常用的策略有:深度優(yōu)先策略、廣度優(yōu)先策略。
        一個典型的網(wǎng)頁層次關(guān)系通常就像一棵樹,如果主頁被認(rèn)為是樹的根,那么其他的網(wǎng)頁就會在樹枝上留下。具體來說,深度優(yōu)先策略是垂直爬行,逐個分支,然后依次訪問頁面的下一個級別,直到您不能更進(jìn)一步為止。返回到上一個鏈接節(jié)點以搜索其他分支。當(dāng)遍歷所有分支時,爬行任務(wù)就會結(jié)束。這種策略更適合于垂直搜索或站內(nèi)搜索.。
        但是,爬行一個內(nèi)容層次更深的網(wǎng)站會造成資源的巨大浪費。)廣度優(yōu)先策略是水平地、一個接一個地爬行,然后在較低的層次上先爬行。在一定層次上對所有頁面進(jìn)行爬行時,該策略可以有效地控制頁面的爬行深度,避免了不能以無限深的分支結(jié)束爬行的問題。爬蟲技術(shù)也面臨著一系列的困難,如:大量的重復(fù)網(wǎng)頁在互聯(lián)網(wǎng)上,動態(tài)頁面,動畫特效頁面等?,F(xiàn)有的搜索引擎只能爬行互聯(lián)網(wǎng)上的網(wǎng)頁總數(shù)的一半,而極限估計值不到16個。
          堅持在這里看到寶寶問,無聊的技術(shù)結(jié)束了嗎?爬行動物有什么用?眾所周知,許多電子商務(wù)平臺都具有價格自動調(diào)整的功能。他們將依靠爬蟲程序掃描類似網(wǎng)站的價格,并相應(yīng)地調(diào)整它們,從而獲得價格優(yōu)勢。例如,蘇寧的“棱鏡”系統(tǒng)是一個實時的價格比較工具。它使用網(wǎng)絡(luò)爬蟲來獲取其他電子商務(wù)平臺上同類產(chǎn)品的價格、促銷、評論和其他產(chǎn)品的信息。這對商人來說是個極大的方便。事實上,自從亞馬遜在十多年前推出這種自動定價模式以來,機器人驅(qū)動的定價已經(jīng)徹底改變了整個零售業(yè)。零售商店每周最多調(diào)整一次價格,因為更換標(biāo)簽的成本和時間成本都很高。
        在電子商務(wù)世界里,零售商可以隨時調(diào)整價格,有時一天調(diào)整幾次.。這是由于相互競爭的價格數(shù)據(jù)。在電子商務(wù)中,爬蟲的使用已經(jīng)成為一種貓捉老鼠的游戲.。公司希望阻止競爭對手爬上他們的網(wǎng)站。另一方面,我想滲透我對手的網(wǎng)站。盡管采取了各種技術(shù)措施,但機器人爬行的數(shù)量仍然令人震驚。
        除了競爭對手,一些流量來自研究機構(gòu),研究競爭,搜索引擎,廣告服務(wù),甚至非法分子試圖侵入網(wǎng)站帳戶。在這里,我們必須談?wù)劸W(wǎng)絡(luò)爬蟲的安全性。因為網(wǎng)絡(luò)爬蟲的策略是盡可能地“抓取”更多的高價值信息。根據(jù)特定的策略訪問盡可能多的頁面,這將占用網(wǎng)絡(luò)帶寬,增加網(wǎng)絡(luò)服務(wù)器的處理開銷。許多小型網(wǎng)站管理員發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)爬蟲光顧時,訪問流量將明顯增加。
例如,有一個10 MB的網(wǎng)站(如PDF格式)文件,該文件使用爬蟲1000次,將使網(wǎng)站產(chǎn)生大量出站流量(可在幾分鐘內(nèi)達(dá)到GB級),后果可能是災(zāi)難性的。一旦這種攻擊效果達(dá)到了類似的熟人。聲名狼藉的DDoS攻擊,使Web服務(wù)在獲取大量暴力、資源枯竭的同時停止提供服務(wù)。此外,惡意用戶還可以通過Web爬蟲對所有敏感數(shù)據(jù)進(jìn)行不正當(dāng)?shù)淖ト。饕憩F(xiàn)在以下幾個方面:(1)網(wǎng)站入侵,大部分基于Web服務(wù)的系統(tǒng)都附加到測試頁面和調(diào)試后門。
        通過這些頁面或程序甚至可以繞過認(rèn)證服務(wù)器敏感的數(shù)據(jù),已經(jīng)成為惡意用戶分析攻擊的有效信息源。文件存儲本身就意味著網(wǎng)站中存在潛在的安全漏洞。(2)搜索管理員登錄頁面,許多在線管理系統(tǒng)提供了一個基于Web的界面,使管理員能夠遠(yuǎn)程控制和管理管理員。
        如果管理員登錄頁面被惡意用戶搜索,將面臨巨大的威脅(3)搜索互聯(lián)網(wǎng)用戶的個人信息,包括姓名、ID號、電話號碼、電子郵件地址、QQ地址等個人信息,惡意用戶可能在實施攻擊或欺詐后獲得。因此,采取適當(dāng)措施限制對網(wǎng)頁爬蟲的訪問,推廣網(wǎng)頁打開網(wǎng)頁爬蟲,屏蔽敏感,維護(hù)網(wǎng)站的安全運行,保護(hù)用戶的隱私是非常重要的。所以,在正常情況下不應(yīng)該被谷歌抓取一條私密消息,但不排除特例,因為服務(wù)器管理漏洞和信息可能會被泄露。
        要想看到最后的孩子們,一定要鼓勵他們推薦一個叫“黑暗”谷歌的Shodan搜索引擎,它也被稱為世界上最糟糕的搜索引擎。它與一般的搜索引擎相比,可在互聯(lián)網(wǎng)路由器、攝像頭、數(shù)據(jù)采集和打印機監(jiān)控系統(tǒng)上找到,并根據(jù)各自的國家、操作系統(tǒng)、分類等品牌屬性進(jìn)行分類。如果谷歌和百度搜索網(wǎng)頁內(nèi)容,那么就是網(wǎng)絡(luò)設(shè)備的搜索,應(yīng)用探究物聯(lián)網(wǎng)中的場景。