Sådan blokerer du et websted fra at indeksere i robots.txt: instruktioner og anbefalinger

Indholdsfortegnelse:

Sådan blokerer du et websted fra at indeksere i robots.txt: instruktioner og anbefalinger
Sådan blokerer du et websted fra at indeksere i robots.txt: instruktioner og anbefalinger
Anonim

Arbejdet af en SEO-optimizer er meget storstilet. Begyndere rådes til at skrive optimeringsalgoritmen ned for ikke at gå glip af nogen trin. Ellers vil kampagnen næppe blive kaldt vellykket, da siden konstant vil opleve fejl og fejl, som skal rettes i lang tid.

Et af optimeringstrinene er at arbejde med robots.txt-filen. Hver ressource bør have dette dokument, for uden det vil det være sværere at klare optimering. Den udfører mange funktioner, som du bliver nødt til at forstå.

Robot Assistant

Robots.txt-filen er et almindeligt tekstdokument, der kan ses i systemets standardnotesblok. Når du opretter den, skal du indstille kodningen til UTF-8, så den kan læses korrekt. Filen fungerer med http-, https- og FTP-protokoller.

Dette dokument er en assistent til at søge i robotter. Hvis du ikke ved det, bruger hvert system "edderkopper", der hurtigt gennemgår World Wide Web for at returnere relevante websteder til forespørgsler.brugere. Disse robotter skal have adgang til ressourcedataene, robots.txt fungerer til dette.

For at edderkopperne kan finde vej, skal du sende robots.txt-dokumentet til rodmappen. For at kontrollere, om webstedet har denne fil, skal du indtaste "https://site.com.ua/robots.txt" i browserens adresselinje. I stedet for "site.com.ua" skal du indtaste den ressource, du har brug for.

Arbejder med robots.txt
Arbejder med robots.txt

Dokumentfunktioner

Robots.txt-filen giver crawlere flere typer oplysninger. Det kan give delvis adgang, så "edderkoppen" scanner specifikke elementer af ressourcen. Fuld adgang giver dig mulighed for at kontrollere alle tilgængelige sider. Et fuldstændigt forbud forhindrer robotter i overhovedet at begynde at tjekke, og de forlader siden.

Efter at have besøgt ressourcen modtager "edderkopper" et passende svar på anmodningen. Der kan være flere af dem, det hele afhænger af oplysningerne i robots.txt. Hvis f.eks. scanningen lykkedes, vil robotten modtage koden 2xx.

Måske er webstedet blevet omdirigeret fra én side til en anden. I dette tilfælde modtager robotten koden 3xx. Hvis denne kode forekommer flere gange, vil edderkoppen følge den, indtil den modtager et andet svar. Selvom han som regel kun bruger 5 forsøg. Ellers vises den populære 404-fejl.

Hvis svaret er 4xx, har robotten lov til at crawle hele indholdet på webstedet. Men i tilfælde af 5xx-koden kan kontrollen stoppe helt, da dette ofte indikerer midlertidige serverfejl.

Søg robotter
Søg robotter

Hvad tilhar du brug for robots.txt?

Som du måske har gættet, er denne fil robotternes guide til webstedets rod. Nu bruges det til delvist at begrænse adgangen til upassende indhold:

  • sider med personlige oplysninger om brugere;
  • spejlwebsteder;
  • søgeresultater;
  • dataindsendelsesformularer osv.

Hvis der ikke er nogen robots.txt-fil i webstedets rod, vil robotten gennemgå absolut alt indhold. Derfor kan uønskede data dukke op i søgeresultaterne, hvilket betyder, at både du og webstedet vil lide. Hvis der er specielle instruktioner i robots.txt-dokumentet, vil "edderkoppen" følge dem og give de oplysninger, som ejeren af ressourcen ønsker.

Arbejder med en fil

For at bruge robots.txt til at blokere webstedet fra at indeksere, skal du finde ud af, hvordan du opretter denne fil. For at gøre dette skal du følge instruktionerne:

  1. Opret et dokument i Notepad eller Notepad++.
  2. Indstil filtypenavnet ".txt".
  3. Indtast de nødvendige data og kommandoer.
  4. Gem dokumentet, og upload det til webstedets rod.

Som du kan se, er det på et af stadierne nødvendigt at indstille kommandoer til robotter. De er af to typer: tillade (Allow) og forbud (Disallow). Nogle optimeringsværktøjer kan også angive gennemgangshastigheden, værten og linket til ressourcens sidekort.

Sådan lukker du et websted fra indeksering
Sådan lukker du et websted fra indeksering

For at begynde at arbejde med robots.txt og fuldstændig blokere webstedet fra at indeksere, skal du også forstå de anvendte symboler. For eksempel i et dokumentbrug "/", som angiver, at hele webstedet er valgt. Hvis "" bruges, er en sekvens af tegn påkrævet. På denne måde vil det være muligt at angive en specifik mappe, der enten kan scannes eller ej.

Funktion af bots

"Edderkopper" til søgemaskiner er forskellige, så hvis du arbejder for flere søgemaskiner på én gang, så bliver du nødt til at tage højde for dette øjeblik. Deres navne er forskellige, hvilket betyder, at hvis du vil kontakte en bestemt robot, skal du angive dens navn: "Brugeragent: Yandex" (uden anførselstegn).

Hvis du vil angive direktiver for alle søgemaskiner, skal du bruge kommandoen: "Brugeragent: " (uden anførselstegn). For korrekt at blokere webstedet fra at indeksere ved hjælp af robots.txt, skal du kende detaljerne for populære søgemaskiner.

Faktum er, at de mest populære søgemaskiner Yandex og Google har flere bots. Hver af dem har sine egne opgaver. For eksempel er Yandex Bot og Googlebot de vigtigste "edderkopper", der gennemgår webstedet. Når du kender alle bots, vil det være lettere at finjustere indekseringen af din ressource.

Sådan fungerer robots.txt-filen
Sådan fungerer robots.txt-filen

Eksempler

Så ved hjælp af robots.txt kan du lukke webstedet fra indeksering med simple kommandoer, det vigtigste er at forstå, hvad du specifikt har brug for. Hvis du f.eks. ønsker, at Googlebot ikke skal nærme sig din ressource, skal du give den den passende kommando. Det vil se sådan ud: "User-agent: Googlebot Disallow: /" (uden anførselstegn).

Nu skal vi forstå, hvad der er i denne kommando, og hvordan den virker. Så "bruger-agent"bruges til at bruge et direkte opkald til en af botsene. Dernæst angiver vi til hvilken, i vores tilfælde er det Google. Kommandoen "Disallow" skal starte på en ny linje og forhindre robotten i at komme ind på stedet. Skråstregsymbolet i dette tilfælde angiver, at alle sider i ressourcen er valgt til kommandoudførelsen.

Hvad er robots.txt til?
Hvad er robots.txt til?

I robots.txt kan du deaktivere indeksering for alle søgemaskiner med en simpel kommando: "User-agent:Disallow: /" (uden anførselstegn). Stjernetegnet i dette tilfælde angiver alle søgerobotter. Typisk er en sådan kommando nødvendig for at sætte indekseringen af webstedet på pause og starte kardinalarbejde på det, hvilket ellers kunne påvirke optimeringen.

Hvis ressourcen er stor og har mange sider, indeholder den ofte proprietære oplysninger, som enten er uønskede at afsløre, eller det kan påvirke reklamen negativt. I dette tilfælde skal du forstå, hvordan du lukker siden fra indeksering i robots.txt.

Du kan skjule enten en mappe eller en fil. I det første tilfælde skal du starte igen ved at kontakte en bestemt bot eller alle, så vi bruger kommandoen "User-agent", og nedenfor angiver vi kommandoen "Disallow" for en bestemt mappe. Det vil se sådan ud: "Disallow: / folder /" (uden anførselstegn). På denne måde skjuler du hele mappen. Hvis den indeholder en vigtig fil, som du gerne vil vise, så skal du skrive kommandoen nedenfor: "Allow: /folder/file.php" (uden anførselstegn).

Tjek fil

Hvis du bruger robots.txt til at lukke webstedet fraDet lykkedes dig at indeksere, men du ved ikke, om alle dine direktiver fungerede korrekt. Du kan tjekke arbejdets rigtighed.

Først skal du kontrollere placeringen af dokumentet igen. Husk at det udelukkende skal være i rodmappen. Hvis det er i rodmappen, så virker det ikke. Åbn derefter browseren og indtast følgende adresse der: "https://dit websted. com/robots.txt" (uden anførselstegn). Hvis du får en fejl i din webbrowser, er filen ikke, hvor den skal være.

Sådan lukker du en mappe fra indeksering
Sådan lukker du en mappe fra indeksering

Direktiver kan tjekkes i specielle værktøjer, der bruges af næsten alle webmastere. Vi taler om Google- og Yandex-produkter. For eksempel er der i Google Search Console en værktøjslinje, hvor du skal åbne "Crawl", og derefter køre "Robots.txt File Inspection Tool". Du skal kopiere alle data fra dokumentet ind i vinduet og begynde at scanne. Præcis den samme kontrol kan udføres i Yandex. Webmaster.

Anbefalede: