Hur till identifiera dåliga robotar och blockera dem



Det finns bra bots och det finns dåliga robotar. Bra bots (robotar som genomsöker en webbplats) genomsöka och indexera din webbplats och få in trafik. Dåliga robotar förbrukar bandbredd och sakta ner din server, stjäl ditt innehåll och titta säkerhetsproblem äventyra din server.

Jag har kämpat i under de senaste 15 åren som sysadmin. Denna "hur-till" är baserat på min personliga erfarenhet. Dåliga robotar finns i alla storlekar och använder olika User-Agent strängar för att identifiera själva. Det finns många bots ute - som kan genomsöka din webbplats med olika nivåer av iver. Många är dock ofarliga. Andra än sökmotorer, vissa robotar drivs av andra legitima myndigheter att avgöra det bästa matchande kampanj för en sidas innehåll för en potentiell annonsör eller leta efter länka information eller ta en ögonblicksbild för arkivering ändamål.

Du kan hitta en lista över vanliga bots här:

Såvitt vi kunde säga - lyda de direktiven i Robots.txt i en viss webbplats. Listan innehåller bots med identifierbar information i deras användaragent fältet. När du bläddrar genom listan, hittar du också att många stora sökmotorerna byta User-Agent strängar enligt deras behov. De flesta anständiga robotar kommer att ge deras kontaktlänk i deras Förbrukaren-Agent snöre att hjälpa webmaster att kommunicera deras preferens eller erbjuda sätt att blockera dem från textfil - Robots.txt
Du kan sakta ner andelen kryper eller neka åtkomst till vissa kataloger från denna textfil.

Till exempel kan du neka åtkomst till alla sidor i ditt rot för detta 'Zum' bot från din robots.txt-fil som här:

User-agent: ZumBot

Tillåt inte: /

Alla vanliga robotar kommer att läsa denna fil och lyda de direktiv som finns där. Men dåliga robotar bry sig om inte att läsa din robotar fil eller läsa dem för att veta vilka är de förbjudna katalogerna att krypa. Så här ' hur till identifiera dåliga robotar använder ett enkelt knep att upptäcka sin avsikt och skapa en loggfil för ytterligare åtgärder.

Steg 1: skapa en fil som kan skriva en logg i din server. Jag har med tanke på en Perl script här bots.pl. Kontrollera att filen sparas i cgi-bin katalogen (förutsatt att din server kan köra Perl-skript). Ställ in behörigheten att utföra för textfilen. Brand upp din webbläsare och peka på denna sida. Du kan läsa din webbläsares Förbrukaren Agent snöre, din IP-adress, referrer sidan (det kommer att bli tomt nu) och servertid där serverades denna begäran. Förresten, visas en tom sida.

Steg 2: den ovan sidan bots.pl bör kopplas från din indexsida - dold från de mänskliga besökarna.
Skapa en länk som så:

< en href = "din domain/cgi-bin/bots.pl >< /a >

Nu ställt du. Loggfilen innehåller uppgifter om dåliga robotar. Men vänta. För att spara bandbredd cachelagras de flesta vanliga normala bots robots.txt. Så finns det en möjlighet att de kan ha cachelagrad din robots.txt tidigare och kanske inte medveten om det nya direktivet. I så fall skulle de krypa blockerade sidan. Så ignorera dem från listan.

Blockerar dåliga robotar

Kolla denna dåliga-robotar fil senare för ytterligare åtgärder. Det finns många sätt att neka åtkomst till dessa oönskade robotar.

Alternativ 1:
Du kan kontrollera IP-adressen mot en vit lista (du lägga till din egen IP-adress as well as det stora sökmotorerna i vita listan) och sista IP-adresserna kan blockeras i brandväggen.

Eller tilldela strängen User-Agent till en neka lista vilket kan resultera i 403-status (förbjudna). Den använder mindre resurser.

En av våra webbplatser använder till exempel ett CGI-skript i vårt CMS. Den följande kodsträng skickas en 403-Forbidden status till User-Agents wget och Zum:

om ($ENV {"HTTP_USER_AGENT"} = ~ / wget|zum/jag) {
skriva ut "status: 403 Forbidden\n"; skriva ut "Content-type: text / html \n\n"; utresa. }

Alternativ 2:
Du kan använda .htaccess för att blockera den dåliga robotar förutsatt att du använder Apache HTTP-server. Om du har några dåliga robotar som använder en särskild Förbrukaren-Agent snöre regelbundet, är det lätt att blockera dem baserat på strängen.

SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ gåtan" bad_user

Förneka från env = bad_user

Den ovanstående Instructable är baserad på denna blogg.

Tack för att läsa detta Instructable. Jag kommer gärna att besvara alla frågor relaterade till detta Instructable i kommentarerna.

Relaterade Ämnen

Hur till få Rid av sniglar och sniglar

sniglar och sniglar är förmodligen den mest förödande insekten till trädgård och växter.Döda sniglar och sniglar med bekämpningsmedel (så kallade medel mot sniglar pellets) kan vara mycket effektivt, men det är också förödande för djurlivet, din säll...

Hur till: Bygg en Holiday renar och släde för $15

många av de föreslagna holiday trä projekt ser vi på projektwebbplatser ta på en Julia Childs inställning till design - du vet, med material som du inte har, verktyg du har inte råd och planer som du inte kunde rita upp även om du var en raketforskar...

Hur till sätta fast, sand och polska sprayfärg

Vi gör alla misstag genom att vara hasteful :)Så jag har jobbat på slutfasen av den centerhögtalaren stå jag gör för min slutgiltiga teknik CS-8080HD center kanal enhet och jag betalade priset av rusande. Mitt garage var mycket kallt när jag måla met...

Hur till göra en enkel och snabb garn boll

en enkel, grundläggande, garn bollen. För dem som hatar hur garnet kommer från butiken. Jag är säker på att det finns många sätt att göra detta, och detta är mitt sätt. Använda dem för att enkelt hålla ditt garn trevligt och snyggt, dekorera med dem...

Hur till: choklad franska Macarons (recept och Tips!)

Att göra franska macarons är en söt men komplicerad vetenskap. Dessa delikata kakor kräver massor av uppmärksamhet och vissa speciella kök know-how, men med lite hjälp från vår video, du kommer känna som en parisisk konditor på nolltid. Och om du int...

Hur till restaurera, förbättra, och digitalisera ett gammalt Mikroskop

denna mikroskopet ignorerades eftersom belysning mekanismen det medföljde hade slutat fungera helt. Ändra glödlampan fixade inte problemet, och eftersom hela elektriska mekanismen hade varit epoxied till en solid platta under tillverkningsprocessen,...

Hur till göra delade ärter och skinka soppa, hur min mamma lärde mig

det finns flera recept på Ärtsoppa på instructables men ingen av dem är för soppan min mamma gjort. Så detta instructable handlar om "Hur man gör Split Ärtsoppa på sätt som min mamma lärde mig att göra det". Varför? Eftersom det är den bästa sop...

Hur till ren Laptop fläkt och tillämpa termisk pasta på CPU och GPU

för några veckor sedan jag upplevt problem med Flash Player orsakar min laptop att stänga på grund av överhettning som CPU-användning-topp på ytterst. Jag märkte trenden om Flash när jag vände på systemet och öppnade ett facebook spel, särskilt för F...

Hur till ta din PSP ISOs och civila samhällets organisationer på vägen!

DISCLAIMER: detta är för UTBILDNINGSÄNDAMÅL bara jag inte tolererar PIRATKOPIERING av VIDEOSPEL!'' 'Om du har Custom Firmware på din PSP då vet du att du kan spela homebrew spel eller Psp ISOs och civila samhällets organisationer. Men här är den fråg...

Hur till ren en RC bil och RC du bort

om du köper en begagnad rc bil eller om du bara har använt en rc bil länge, du behöver rengöra den. Skräp kan täppa till redskap och minimera din rc bilar prestanda. Jag rekommenderar rengöring din rc bil varannan månad om du kör den inomhus eller va...

Hur till vända skräppost och pappret i mycket fina skålar

jag får en massa gamla papper, från tidningar att skräppost till gamla telefonkataloger. Jag arbetar också på ett jobb där jag kasta ut (eller er förment till, men istället jag gör skålar!) en hel del papper. Jag menar en hel del. På sommaren, kan ja...

Hur till göra INSTRUCTABLES snabbt och enkelt

detta är hur du gör det, utan problem! Garanterat! (Kanske)Det handlar inte om bara dunka slumpmässighet tillsammans och kalla det gjort. Nej. Är det inte.Detta kommer mest bara fungera för iPad, men datoranvändare, gå för det.1. öppna upp två flikar...

Hur till Arduino #1 - installera Arduino och ladda upp en skiss

jag visa hur man installera Arduino på en Mac, prata om Arduino Nano lite, ladda upp en skiss till Arduino och sedan tala om hur brödunderläggen arbete....

Hur till få Rid av blodfetter och livsmedel fett

tycker du att det finns fett i blodet? Jag vet att de flesta av oss vet om fet mat, men vi vet lite eller ingenting om blodfetter.Ditt blod, fett är lika viktig som din mat fett. Men fått mat fett från vår dagliga kost. Kost i hög mättat fett som röt...

Hur till använda färska och naturliga Makeup

http://www.styleunited.com/TipsAndTrends/article/How-to-Apply-Fresh-and-Natural-Looking-Makeup skapa en enkel, breezy makeup ser för de varma månaderna med dessa subtila makeup steg.Steg för steg:1. foundation: Tillämpa det endast om du behöver för m...

Hur till bygga en Tryannosaurus skiftnyckel och Pliersarus

bygga din egen T-nyckel att sätta där allt du vill hadu behöver Tänger, tråd snips, en kvarn, hammare, stålborsteoch en liten hobby svetsare. Något annat sätt du kan göra på grund är också acceptabelt!Steg 1: Vad du behöver -En mindre cresent skiftny...

Hur till använda belysning, ljud och bildskärmar i en marionett Video

gör du vill göra stor marionett videor, men är orolig med leriga belysning, sumpiga ljud, marionetter som stirrar ut i ingenstans, och en begränsad budget? I denna korta video, vi visar dig några enkla verktyg och tekniker som kan hjälpa förvandla di...

Hur till återvinna HDPE (mjölkflaskor och mössor) i användbara skivmaterial

upptäckte jag ett enkelt sätt att återvinna HDPE i små skivor av hårda, styva material, med hjälp av en platt smörgåsgrillen.Här är en video av processen:Och här är en annan visar olika sätt att arbeta plastmaterial:Källmaterialet kan hittas i form a...

Hur till identifiera stjärnbilder

måste du först:* En stjärnkarta (finns på skymaps.com)* En riktigt mörk himmel* Ett bra par ögonSteg 1: Orientera stjärnkarta För att använda en stjärnkarta för att identifiera stjärnor och konstellationer, måste du först hitta en lämplig för tid på...