Hvordan konfigurerer jeg Robots.txt korrekt?

Indholdsfortegnelse:

Hvordan konfigurerer jeg Robots.txt korrekt?
Hvordan konfigurerer jeg Robots.txt korrekt?
Anonim

Den korrekte Robots-txt til html-webstedet opretter action-mockups for søgemaskine-bots, der fortæller dem, hvad de kan tjekke. Denne fil omtales ofte som Robot Exclusion Protocol. Det første, bots kigger efter, før de crawler et websted, er robots.txt. Det kan pege på eller fortælle sitemappet om ikke at kontrollere visse underdomæner. Når du ønsker, at søgemaskiner skal søge efter det, der oftest findes, så er robots.txt ikke påkrævet. Det er meget vigtigt i denne proces, at filen er formateret korrekt og ikke indekserer brugersiden med brugerens personlige data.

Robotscanningsprincip

Princippet om robotscanning
Princippet om robotscanning

Når en søgemaskine støder på en fil og ser en forbudt URL, crawler den den ikke, men den kan indeksere den. Dette skyldes, at selvom robotterne ikke må se indholdet, kan de huske backlinks, der peger på den forbudte URL. På grund af blokeret adgang til linket vil URL'en vises i søgemaskiner, men uden fragmenter. Hvis enfor den indgående marketingstrategi kræves den korrekte Robots txt for bitrix (Bitrix), de sørger for webstedsbekræftelse efter anmodning fra brugeren af scannere.

På den anden side, hvis filen ikke er korrekt formateret, kan dette resultere i, at webstedet ikke vises i søgeresultaterne og ikke bliver fundet. Søgemaskiner kan ikke omgå denne fil. En programmør kan se robots.txt for ethvert websted ved at gå til dets domæne og følge det med robots.txt, for eksempel www.domain.com/robots.txt. Ved at bruge et værktøj som Unamos SEO-optimeringssektion, hvor du kan indtaste et hvilket som helst domæne, og tjenesten vil vise information om filens eksistens.

Begrænsninger for scanning:

  1. Brugeren har forældet eller følsomt indhold.
  2. Billeder på webstedet vil ikke blive inkluderet i billedsøgeresultater.
  3. Webstedet er endnu ikke klar til demo, der skal indekseres af robotten.

Husk på, at den information, en bruger ønsker at modtage fra en søgemaskine, er tilgængelig for alle, der indtaster URL'en. Brug ikke denne tekstfil til at skjule følsomme data. Hvis domænet har en 404 (ikke fundet) eller 410 (bestået) fejl, tjekker søgemaskinen webstedet på trods af tilstedeværelsen af robots.txt, i hvilket tilfælde den mener, at filen mangler. Andre fejl som f.eks. 500 (intern serverfejl), 403 (forbudt), timeout eller "ikke tilgængelig" respekterer robots.txt-instruktionerne, men omgåelsen kan blive forsinket, indtil filen er tilgængelig.

Oprettelse af en søgefil

Oprettelse af en søgefil
Oprettelse af en søgefil

MangeCMS-programmer såsom WordPress har allerede en robots.txt-fil. Før man konfigurerer Robots txt WordPress korrekt, skal brugeren sætte sig ind i dets muligheder for at finde ud af, hvordan man får adgang til det. Hvis programmøren selv opretter filen, skal den opfylde følgende betingelser:

  1. Skal stå med små bogstaver.
  2. Brug UTF-8-kodning.
  3. Gem i en teksteditor som en fil (.txt).

Når en bruger ikke ved, hvor den skal placeres, kontakter de webserversoftwareleverandøren for at finde ud af, hvordan man får adgang til roden af et domæne eller går til Google-konsollen og downloader det. Med denne funktion kan Google også kontrollere, om botten fungerer korrekt, og listen over websteder, der er blevet blokeret ved hjælp af filen.

Hovedformatet for den korrekte Robots txt til bitrix (Bitrix):

  1. Legend robots.txt.
  2. , tilføjer kommentarer, der kun bruges som noter.
  3. Disse kommentarer vil blive ignoreret af scannere sammen med eventuelle brugertastefejl.
  4. User-agent - angiver, hvilken søgemaskine instruktionerne til filen er angivet på.
  5. Tilføjelse af en stjerne () fortæller scannere, at instruktionerne er for alle.

Angiver en specifik bot, for eksempel Googlebot, Baiduspider, Applebot. Disallow fortæller crawlere, hvilke dele af webstedet der ikke skal crawles. Det ser sådan ud: User-agent:. Stjernen betyder "alle bots". Du kan dog angive sider for specifikkebots. For at gøre dette skal du kende navnet på den bot, som anbefalingerne er indstillet til.

Den korrekte robots-txt til Yandex kan se sådan ud:

Korrekt robots txt til Yandex
Korrekt robots txt til Yandex

Hvis botten ikke skulle crawle webstedet, kan du angive det, og for at finde navnene på brugeragenter anbefales det at gøre dig bekendt med onlinefunktionerne på useragentstring.com.

Sideoptimering

Side optimering
Side optimering

De følgende to linjer betragtes som en komplet robots.txt-fil, og en enkelt robots-fil kan indeholde flere linjer med brugeragenter og direktiver, der deaktiverer eller aktiverer crawl. Hovedformatet for den korrekte Robots txt:

  1. Brugeragent: [agentbrugernavn].
  2. Disallow: .

I filen vises hver blok af direktiver som diskrete, adskilt af en linje. I filen ved siden af agentbrugerbiblioteket anvendes hver regel på et specifikt sæt sektionsadskilte linjer. Hvis en fil har en multi-agent regel, vil robotten kun overveje den mest specifikke gruppe af instruktioner.

Teknisk syntaks

Teknisk syntaks
Teknisk syntaks

Det kan opfattes som "sproget" for robots.txt-filer. Der er fem udtryk, der kan eksistere i dette format, de vigtigste omfatter:

  1. User-agent - Webcrawler med crawlinstruktioner, norm alt en søgemaskine.
  2. Disallow er en kommando, der bruges til at bede brugeragenten om at omgå(udeladelse) af en bestemt URL. Der er kun én forbudt betingelse for hver.
  3. Tillad. For den Googlebot, der får adgang, bliver selv brugersiden nægtet.
  4. Crawl-forsinkelse - angiver, hvor mange sekunder crawleren skal bruge, før den crawler. Når botten ikke bekræfter det, indstilles hastigheden i Google-konsollen.
  5. Sitemap - Bruges til at finde alle XML-kort, der er knyttet til en URL.

Mønstermatches

Når det kommer til faktisk at blokere URL'er eller tillade gyldig Robots txt, kan operationerne være ret vanskelige, da de giver dig mulighed for at bruge mønstermatching til at dække en række mulige URL-parametre. Google og Bing bruger begge to tegn, der identificerer sider eller undermapper, som SEO ønsker at udelukke. De to tegn er stjernen () og dollartegnet ($), hvor:er et jokertegn, der repræsenterer en hvilken som helst sekvens af tegn. $ - matcher slutningen af webadressen.

Google tilbyder en stor liste over mulige skabelonsyntakser, der forklarer brugeren, hvordan man korrekt opsætter en Robots txt-fil. Nogle almindelige brugstilfælde omfatter:

  1. Forhindrer duplikatindhold i at blive vist i søgeresultaterne.
  2. Hold alle dele af hjemmesiden private.
  3. Gem interne sider med søgeresultater baseret på åben erklæring.
  4. Angiv placering.
  5. Forhindrer søgemaskiner i at indeksere vissefiler.
  6. Specificering af en crawl-forsinkelse for at stoppe genindlæsningen, når der scannes flere indholdsområder på samme tid.

Kontrollerer, om der er en robotfil

Hvis der ikke er nogen områder på siden, der skal crawles, er robots.txt slet ikke nødvendig. Hvis brugeren ikke er sikker på, at denne fil eksisterer, skal han indtaste roddomænet og skrive det i slutningen af URL'en, noget som dette: moz.com/robots.txt. En række søgerobotter ignorerer disse filer. Men som regel hører disse crawlere ikke til velrenommerede søgemaskiner. De er den slags spammere, e-mail-aggregatorer og andre typer automatiserede bots, der findes i overflod på internettet.

Det er meget vigtigt at huske, at brugen af robotekskluderingsstandarden ikke er en effektiv sikkerhedsforanst altning. Faktisk kan nogle bots starte med sider, hvor brugeren indstiller dem til scanningstilstand. Der er flere dele, der indgår i standardundtagelsesfilen. Før du fortæller robotten, hvilke sider den ikke skal virke på, skal du angive, hvilken robot du skal tale med. I de fleste tilfælde vil brugeren bruge en simpel erklæring, der betyder "alle bots".

SEO-optimering

SEO optimering
SEO optimering

Før optimering skal brugeren sikre sig, at han ikke blokerer indhold eller dele af webstedet, der skal omgås. Links til sider blokeret af den korrekte Robots txt vil ikke blive respekteret. Det betyder:

  1. Hvis de ikke er linket til andre sider, der er tilgængelige for søgemaskiner, dvs. sider,ikke blokeret af robots.txt eller en metarobot, og relaterede ressourcer vil ikke blive crawlet og kan derfor ikke indekseres.
  2. Intet link kan overføres fra en blokeret side til linkdestinationen. Hvis der er en sådan side, er det bedre at bruge en anden blokeringsmekanisme end robots.txt.

Fordi andre sider kan linke direkte til en side, der indeholder personlige oplysninger, og du ønsker at blokere denne side fra søgeresultater, skal du bruge en anden metode, såsom adgangskodebeskyttelse eller noindex-metadata. Nogle søgemaskiner har flere brugeragenter. For eksempel bruger Google Googlebot til organiske søgninger og Googlebot-Image til billedsøgninger.

De fleste brugeragenter fra den samme søgemaskine følger de samme regler, så der er ingen grund til at specificere direktiver for hver af flere crawlere, men at være i stand til at gøre det kan finjustere gennemgangen af webstedsindhold. Søgemaskinen cacher indholdet af filen og opdaterer typisk det cachelagrede indhold mindst én gang om dagen. Hvis brugeren ændrer filen og ønsker at opdatere den hurtigere end norm alt, kan de indsende robots.txt-webadressen til Google.

Søgemaskiner

Kontrollerer, om der findes en robotfil
Kontrollerer, om der findes en robotfil

For at forstå, hvordan Robots txt fungerer korrekt, skal du kende til søgemaskinernes muligheder. Kort sagt ligger deres formåen i, at de sender "scannere", som er programmer, dersurfe på internettet efter information. De gemmer derefter nogle af disse oplysninger for senere at videregive dem til brugeren.

For mange mennesker er Google allerede internettet. Faktisk har de ret, da dette måske er hans vigtigste opfindelse. Og selvom søgemaskiner har ændret sig meget siden deres start, er de underliggende principper stadig de samme. Crawlere, også kendt som "bots" eller "edderkopper", finder sider fra milliarder af websteder. Søgemaskiner giver dem anvisninger på, hvor de skal hen, mens individuelle websteder også kan kommunikere med bots og fortælle dem, hvilke specifikke sider de skal se på.

Generelt ønsker webstedsejere ikke at dukke op i søgemaskiner: adminsider, backend-portaler, kategorier og tags og andre informationssider. Robots.txt-filen kan også bruges til at forhindre søgemaskiner i at tjekke sider. Kort sagt fortæller robots.txt webcrawlere, hvad de skal gøre.

Forbyd sider

Dette er hoveddelen af robotekskluderingsfilen. Med en simpel erklæring fortæller brugeren en bot eller en gruppe af bots om ikke at crawle bestemte sider. Syntaksen er enkel, for eksempel at nægte adgang til alt i webstedets "admin"-mappe, skriv: Disallow: /admin. Denne linje forhindrer bots i at crawle yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html og alt andet under admin-biblioteket.

For at afvise en side, skal du blot angive den i disallow-linjen: Disallow: /public/exception.html. Nu "undtagelses"-sidenvil ikke migrere, men alt andet i den "offentlige" mappe vil.

For at inkludere flere sider skal du blot angive dem:

Vejviser og sider
Vejviser og sider

Disse fire linjer i den korrekte Robots-txt til symfoni vil gælde for enhver brugeragent, der er angivet øverst irobots.txt-sektionen for

Forbyd sider
Forbyd sider

Sitemap:

Andre kommandoer:live - tillad ikke webcrawlere at indeksere cpresources/ eller provider/.

Brugeragent:Disallow: /cpresources/.

Nægt: / leverandør / Disallow: /.env.

Sæt standarder

Brugeren kan angive specifikke sider for forskellige bots ved at kombinere de to foregående elementer, sådan ser det ud. Et eksempel på den korrekte Robots txt for alle søgemaskiner er vist nedenfor.

Sætte standarder
Sætte standarder

Sektionerne "admin" og "private" vil være usynlige for Google og Bing, men Google vil stadig se den "hemmelige" mappe, mens Bing ikke vil. Du kan angive generelle regler for alle bots, der bruger asterisk-brugeragenten, og derefter give specifikke instruktioner til bots i de følgende afsnit. Med ovenstående viden kan brugeren skrive et eksempel på den korrekte Robots txt til alle søgemaskiner. Du skal bare tænde dit yndlingstekstredigeringsprogram og fortælle botterne, at de ikke er velkomne i visse dele af webstedet.

Tips til forbedring af serverydeevne

SublimeText eren alsidig teksteditor og guldstandarden for mange programmører. Hans programmeringstips er desuden baseret på effektiv kodning. brugere sætter pris på tilstedeværelsen af genveje i programmet. Hvis brugeren ønsker at se et eksempel på en robots.txt-fil, skal de gå til et hvilket som helst websted og tilføje "/robots.txt" til slutningen. Her er en del af robots.txt-filen GiantBicycles.

Programmet giver mulighed for oprettelse af sider, som brugere ikke ønsker at vise i søgemaskiner. Og har også et par eksklusive ting, som de færreste kender til. For eksempel, mens robots.txt-filen fortæller bots, hvor de ikke skal gå hen, gør sitemap-filen det modsatte og hjælper dem med at finde det, de leder efter, og selvom søgemaskinerne sandsynligvis allerede ved, hvor sitemap'et er placeret, bliver det ikke i vejen.

Der er to typer filer: HTML-side eller XML-fil. En HTML-side er en, der viser besøgende alle de tilgængelige sider på et websted. I sin egen robots.txt ser det sådan ud: Sitemap://www.makeuseof.com/sitemap_index.xml. Hvis webstedet ikke er indekseret af søgemaskiner, selvom det er blevet crawlet flere gange af webrobotter, skal du sikre dig, at filen er til stede, og at dens tilladelser er indstillet korrekt.

Som standard vil dette ske for alle SeoToaster-installationer, men hvis det er nødvendigt, kan du nulstille det sådan: Fil robots.txt - 644. Afhængigt af PHP-serveren, hvis dette ikke virker for brugeren, kan det anbefales at prøve følgende: Fil robots.txt - 666.

Indstilling af scanningsforsinkelse

direktivet om bypass-forsinkelse informerer vissesøgemaskiner, hvor ofte de kan indeksere en side på webstedet. Det måles i sekunder, selvom nogle søgemaskiner fortolker det lidt anderledes. Nogle mennesker ser kravleforsinkelse 5, når de får besked på at vente fem sekunder efter hver scanning for at starte den næste.

Andre tolker dette som en instruktion om kun at scanne én side hvert femte sekund. Robotten kan ikke scanne hurtigere for at spare serverbåndbredde. Hvis serveren skal matche trafikken, kan den indstille en bypass-forsinkelse. Generelt behøver brugerne i de fleste tilfælde ikke at bekymre sig om dette. Sådan er gennemgangsforsinkelsen på otte sekunder indstillet - Crawl-forsinkelse: 8.

Men ikke alle søgemaskiner vil adlyde dette direktiv, så når du ikke tillader sider, kan du indstille forskellige crawl-forsinkelser for visse søgemaskiner. Når alle instruktionerne i filen er sat op, kan du uploade den til webstedet, sørg først for, at det er en simpel tekstfil og har navnet robots.txt og kan findes på yoursite.com/robots.txt.

Bedste WordPress-bot

Bedste WordPress Bot
Bedste WordPress Bot

Der er nogle filer og mapper på et WordPress-websted, der skal låses hver gang. De mapper, som brugere bør nægte, er cgi-bin-biblioteket og standard WP-bibliotekerne. Nogle servere tillader ikke adgang til cgi-bin-biblioteket, men brugere skal inkludere det i disallow-direktivet, før de konfigurerer Robots korrekt txt WordPress

Standard WordPress mapper,som skal blokere er wp-admin, wp-content, wp-includes. Disse mapper indeholder ikke data, der oprindeligt er nyttige for søgemaskiner, men der er en undtagelse, dvs. der er en undermappe med navnet uploads i wp-indholdsmappen. Denne undermappe skal tillades i robot.txt-filen, da den indeholder alt, der er indlæst ved hjælp af WP-medieoverførselsfunktionen. WordPress bruger tags eller kategorier til at strukturere indhold.

Hvis der bruges kategorier, så for at lave den korrekte Robots txt til Wordpress, som specificeret af programproducenten, er det nødvendigt at blokere tag-arkiverne fra søgningen. Først tjekker de databasen ved at gå til panelet "Administration"> "Indstillinger"> "Permalink".

Som standard er basen tagget, hvis feltet er tomt: Disallow: / tag /. Hvis en kategori bruges, skal du deaktivere kategorien i robot.txt-filen: Disallow: /category/. Som standard er basen tagget, hvis feltet er tomt: Disallow: / tag /. Hvis en kategori bruges, skal du deaktivere kategorien i robot.txt-filen: Disallow: / kategori /.

Filer, der primært bruges til at vise indhold, vil blive blokeret af den korrekte Robots txt-fil til Wordpress:

Robots txt til wordpress
Robots txt til wordpress

Joomla grundlæggende opsætning

Når brugeren har installeret Joomla, skal du se den korrekte Joomla Robots txt-indstilling i den globale konfiguration, som er placeret i kontrolpanelet. Nogle indstillinger her er meget vigtige for SEO. Find først navnet på webstedet og sørg for detwebstedets korte navn bruges. Så finder de en gruppe indstillinger til højre for samme skærm, som kaldes SEO-indstillinger. Den, der helt sikkert skal ændres, er den anden: brug en omskrivnings-URL.

Dette lyder kompliceret, men det hjælper dybest set Joomla med at skabe renere URL'er. Mest bemærkelsesværdigt, hvis du fjerner index.php-linjen fra URL'erne. Hvis du ændrer det senere, ændres webadresserne, og Google kan ikke lide det. Men når du ændrer denne indstilling, skal der tages flere trin på samme tid for at oprette den korrekte robots txt til Joomla:

  1. Find filen htaccess.txt i Joomla-rodmappen.
  2. Marker det som.htaccess (ingen udvidelse).
  3. Medtag webstedsnavn i side titler.
  4. Find metadataindstillinger nederst på den globale konfigurationsskærm.

Robot i skyen MODX

Robot i MODX Cloud
Robot i MODX Cloud

Tidligere gav MODX Cloud brugerne muligheden for at kontrollere adfærden ved at tillade, at robots.txt-filen blev serveret baseret på en skift i dashboardet. Selvom dette var nyttigt, var det muligt ved et uheld at tillade indeksering på iscenesættelses-/udviklerwebsteder ved at skifte mellem en indstilling i Dashboardet. På samme måde var det nemt at deaktivere indeksering på produktionsstedet.

I dag antager tjenesten tilstedeværelsen af robots.txt-filer i filsystemet med følgende undtagelse: ethvert domæne, der ender med modxcloud.com, vil fungere som et Disallow: /direktiv for alle brugeragenter, uanset tilstedeværelsen eller fravær af filen. Produktionswebsteder, der modtager reel besøgende trafik, skal bruge deres eget domæne, hvis brugeren ønsker at indeksere deres websted.

Nogle organisationer bruger den korrekte Robots txt for modx til at køre flere websteder fra en enkelt installation ved hjælp af Contexts. Et tilfælde, hvor dette kunne anvendes, ville være et offentligt markedsføringswebsted kombineret med destinationssidemikrowebsteder og muligvis et ikke-offentligt intranet.

Traditionelt har dette været svært at gøre for flerbrugerinstallationer, da de deler den samme netværksrod. Med MODX Cloud er dette nemt. Du skal blot uploade en ekstra fil til et websted kaldet robots-intranet.example.com.txt med følgende indhold, og det vil blokere indeksering med velfungerende robotter, og alle andre værtsnavne falder tilbage til standardfiler, medmindre der er andre specifikke navnenoder.

Robots.txt er en vigtig fil, der hjælper brugeren med at linke til webstedet på Google, større søgemaskiner og andre websteder. Placeret i roden af en webserver, instruerer filen webrobotter til at crawle et websted, indstille hvilke mapper den skal eller ikke skal indeksere, ved hjælp af et sæt instruktioner kaldet Bot Exclusion Protocol. Et eksempel på den korrekte Robots txt for alle søgemaskiner obots.txt er særligt let at lave med SeoToaster. Der er oprettet en særlig menu til det i kontrolpanelet, så botten vil aldrig skulle overanstrenge sig for at få adgang.

Anbefalede: