2016 m. „Google“ tvarkė 3,2 trln. Paieškos užklausų, tačiau paieškos sistemos pateikti rezultatai sudarė tik dalį turimo internete turinio. Didžioji dalis internete prieinamos informacijos nėra pasiekiama paieškos sistemose, todėl norėdami rasti šiuos paslėptus puslapius, turite naudoti specialius įrankius arba patys ištirti svetaines. Ši paslėpta informacija, žinoma kaip gilusis žiniatinklis, užima 5000 kartų daugiau, nei galima naudojant tipinius paieškos metodus.
Paslėpto turinio tipai
Paslėptų tinklalapių puslapiai skirstomi į kategorijas, apibūdinančias, kodėl jų vis dar nematyti paieškos sistemoms.
Kai kurie yra dinaminis turinys, teikiamas tik tada, kai lankytojas pateikia konkrečią užklausą svetainėje, kurioje naudojami duomenų bazės valdomas kodas tiksliniams rezultatams pateikti. Pavyzdžiui, šiuose puslapiuose gali būti apsipirkimo rezultatų, pagrįstų konkrečiais produktų kriterijų deriniais. Paieškos sistemos nėra skirtos sekti ir saugoti šiose duomenų bazėse saugomos informacijos. Norėdami rasti šiuos puslapius, turėtumėte apsilankyti svetainėje ir ieškoti konkrečios informacijos, kurios ieškote, arba naudoti į duomenų bazę orientuotą paieškos paslaugą, pvz., „Bright Planet“.
Kai kuriuose puslapiuose nėra nuorodų, susiejančių juos su ieškomais šaltiniais. Į šią kategoriją gali patekti laikini ištekliai, pvz., Kelios nepilnaverčių svetainių versijos, taip pat blogai suprojektuotos svetainės. Pavyzdžiui, jei kas nors sukūrė tinklalapį ir įkėlė jį į svetainės serverį, bet nepadėjo jo nuorodos pridėti dabartiniuose svetainės puslapiuose, niekas nežinotų, kad jis yra, įskaitant paieškos sistemas.
Dar daugiau puslapių, norint juos peržiūrėti ar pasiekti, reikalauja prisijungimo duomenų, pvz., Prenumeratos svetainių. Interneto svetainių dizaineriai puslapius ir svetainių skyrius nurodo kaip ribojančius paieškos variklius, veiksmingai pašalindami jų paiešką įprastomis priemonėmis. Kad galėtumėte patekti į šiuos puslapius, paprastai turite susikurti paskyrą, kol gausite leidimą patekti į juos.
Robots.txt failų naudojimas
Paieškos sistemos tikrina svetainės puslapius ir indeksuoja jos turinį, kad jis galėtų būti rodomas atsakant į užklausas. Kai svetainės savininkė nori neįtraukti kai kurių savo domeno dalių iš šių indeksavimo procedūrų, ji prideda šių katalogų ar puslapių adresus į specialų tekstinį failą, pavadintą robots.txt, saugomą savo svetainės šaknyje. Kadangi daugelyje svetainių yra roboto failas, neatsižvelgiant į tai, ar jie prideda kokių nors išimčių, galite naudoti nuspėjamą dokumento pavadinimą norėdami parodyti jo turinį.
Jei į naršyklės vietos eilutę įvedate „[domain name] /robots.txt“ be kabučių, pakeisdami „[domain name]“ svetainės adresu, robotų failo turinys dažnai rodomas naršyklės lange po paspaudžiate klavišą „Enter“. Įrašai, prieš kuriuos nurodoma „neleisti“ arba „nofollow“, reiškia svetainės dalis, kurioms nepasiekiama per paieškos variklį.
Įsilaužimas „pasidaryk pats“ svetainėje
Be „robot.txt“ failų, dažnai galite rasti kitaip paslėptą turinį, žiniatinklio naršyklėje įvesdami konkrečių puslapių ir aplankų interneto adresus. Pvz., Jei žiūrėjote į atlikėjo svetainę ir pastebėjote, kad kiekviename puslapyje buvo naudojama ta pati pavadinimų suteikimo tvarka, pvz., Gallery1.html, gallery2.html, gallery4.html, tuomet galite rasti paslėptą galeriją įvesdami puslapį. gallery3.html. " žiniatinklio naršyklėje.
Panašiai, jei matote, kad svetainė naudoja aplankus tvarkydama puslapius, pvz., Example.com/content/page1.html, o aplankas yra „/ content“, galite pamatyti patį aplanką įvesdami svetainę ir aplanką , be puslapio, pvz., „example.com/content/“ jūsų žiniatinklio naršyklėje. Jei prieiga prie aplanko nebuvo išjungta, galbūt galėsite naršyti jame esančius puslapius, taip pat puslapius bet kuriuose antriniuose aplankuose, kad rastumėte paslėptą turinį.