Mnoho lidí si myslí, že internet a World Wide Web (WWW) jsou to samé. Ale přestože jsou úzce propojené, jedná se o dva odlišné systémy. Internet je obrovská síť počítačů, které jsou propojené. World Wide Web, w3 nebo web je ale propojený systém veřejných webových stránek prostřednictvím internetu.
Vývoj WWW začal už v roce 1989, když Tim Berners-Lee a jeho kolegové v CERN – mezinárodní vědecké organizaci se sídlem v Ženevě – vytvořili internetový protokol HTTP. Ten upřesnil komunikaci mezi servery a klienty. Jejich textový webový prohlížeč byl zpřístupněný v lednu 1992.
WWW je založen na různých technologiích: webové prohlížeče, Hypertext Markup Language (HTML) a Hypertext Transfer Protocol (HTTP).
Webový prohlížeč se používá pro přístup k webovým stránkám. Webové prohlížeče můžeme definovat jako programy, které zobrazují text, údaje, obrázky, animace a video na internetu. K hypertextovým prostředkům na WWW je možné přistupovat pomocí softwarového rozhraní poskytovaného webovými prohlížeči. Nejdříve se webové prohlížeče používaly jen k surfování na webu, ale teď se staly univerzálnějšími. Webové prohlížeče můžou být použité pro několik úloh včetně vykonávání, vyhledávání, posílání, přenosu souborů a spousty dalšího. Běžně používané prohlížeče jsou Internet Explorer, Opera Mini a Google Chrome.
Z pohledu uživatele se web skládá z rozsáhlého celosvětového propojení dokumentů nebo webových stránek. Každá stránka může obsahovat odkazy na jiné stránky kdekoliv na světě. Stránky je možné získat a zobrazit pomocí prohlížečů. Ty načítají požadovanou stránku správně naformátovanou na obrazovce.
Existují tři komponenty webu:
- jednotný lokátor zdrojů (URL) – slouží jako systém pro zdroje na webu
- protokol HTTP – specifikuje komunikaci prohlížeče a serveru
- HTML – definuje strukturu, organizaci a obsah webové stránky
Web obsahuje mnohem více tajemství, než dokážeme pochopit nebo vnímat. WWW obsahuje tři vrstvy:
- povrchový web (Surface Web)
- hluboký web (Deep Web)
- tmavý web (Dark Web)
Pro lepší pochopení vrstev WWW téměř každý odborník využívá obrázek v podobě ledovce. Surface Web je viditelná část ledovce obsahující všechen obsah, který je indexovatelný vyhledavači. Vyhledavače nemohou indexovat stránky na Deep Webu, ten vyžaduje speciální povolení pro přístup k nim. Nakonec nejhlubší část webu – Dark Web – je přístupná jen pomocí speciálního softwaru a zajišťuje anonymitu a šifrování.
Co je Surface Web?
Surface Web je povrchová síť, která na obrázku představuje špičku ledovce a je viditelná pro všechny. Je přístupná prostřednictvím webových prohledávačů a vyhledavačů, jako jsou Google, Yahoo a podobně. V podstatě vyhledavače prohledávají a indexují webové stránky tak, aby uživateli zobrazily nejrelevantnější výsledky. Surface Web je také známý jako viditelný web, indexovatelný web nebo Clernet. Téměř každá stránka s jednoduchou adresou (http://www.jmeno.domena/filname) je povrchová stránka. Surface Web je součástí webu, o kterém všichni víme a používáme ho pravidelně. Tato část webu představuje jen 4 % z celého webu.
Jak „vzniká“ Surface Web?
Když uživatel odešle vyhledávací dotaz, vyhledavač nevykoná vyhledávání přímo na webu, ale místo toho prohledá svou vlastní databázi a podle toho vrátí příslušné výsledky. Na vytvoření těchto databází indexů vyhledavače používají webové prohledávače, známé jako weboví pavouci nebo roboti. Můžeme si to představit tak, že prohledávač je automatizovaný text, který cestuje po webu, aby objevil nový obsah. Když webový pavouk objeví novou stránku, následuje všechna hypertextová přepojení.
Výsledek procesu prohledávání obsahu se odešle zpět globálnímu indexu vyhledávání, což je obrovská databáze, která organizuje všechen objevený obsah způsobem, který ulehčuje jednoduché vyhledávání informací. Pro zabezpečení vysoké úrovně přesnosti vyhledavače nepřidají do databáze indexů všechny objevené webové stránky, protože informace v rámci objevených webových stránek by měly mít hodnotu, například originálnost, aktuálnost nebo přesnost.
Používání vyhledavačů nabízí pohodlný způsob, jak uživatelé internetu můžou surfovat na webu. Poskytovatel webových stránek může dokonce spustit a ovlivnit proces indexování. Mnohé webové stránky však nejsou prohledané, což znamená, že se nachází na Deep Webu.
Co je to Deep Web?
Deep Web, hluboký web nebo skrytý web je součástí WWW, který typické vyhledavače nemůžou indexovat. Tato vrstva představuje největší část webového obsahu. Obsah na hlubokém webu nelze indexovat, protože:
- Tento obsah může být chráněný heslem, jako je cloudové uložiště, digitální knihovny, online časopisy nebo noviny.
- Obsah může být uložený za webovými službami nebo rozhraním API, které brání přímému přístupu k surovým údajům.
Obsah Surface a Deep Webu je přístupný bez použití speciálního softwaru, na rozdíl od Dark Webu, který pro přístup vyžaduje instalaci konkrétního softwaru.
K dispozici je mnoho údajů z Deep Webu, jako například:
- patentová databáze Google pro patenty po celém světě
- akademická databáze Google pro výzkumné články
- seznamy sankcí Evropské unie, které jsou skutečně užitečné pří řízení rizik dodavatelů a mnoho dalšího
Co je to Dark Web?
Dark Web je poslední vrstva WWW a nachází se nejhlouběji. Tento web je všeobecně považovaný za útočiště pro pochybné činnosti, jako například obchodování s drogami a zbraněmi. Také tu působí vyděrači a prodejci ukradených osobních údajů. Mnoho lidí ví, že tento web existuje, ale jen málo lidí ví, jak se tam dostat.
Surface Web, Deep Web i Dark Web jsou součástí obřího systému webových stránek World Wide Webu. Zajímavé je to, že Surface Web tvoří jen 4 % informací na webu, Deep Web spolu s Dark Webem tedy tvoří zbývajících 96 %. A z toho je Dark Web pravděpodobně jen 1–2 %.
Přečtěte si další zajímavosti na našem blogu.
Zdrojehttps://stackoverflow.com/questions/3207418/crawler-vs-scraper
https://www.parsehub.com/blog/web-scraping-vs-web-crawling/
https://brightdata.com/blog/guest-post/difference-between-web-crawling-and-web-scraping
https://www.techopedia.com/definition/5196/spider
https://en.ryte.com/wiki/Crawler
https://www.cloudflare.com/learning/bots/what-is-a-web-crawler/
https://www.sciencedaily.com/terms/web_crawler.htm