el mejor archivo robots txt para wordpress y prestashop

WordPress y Prestashop robots.txt

Rate this post

¿Qué es el Archivo robots.txt y para qué se utiliza?

El archivo robots.txt es un archivo de texto que indica a Google que partes de nuestra web queremos que indexe y cuales no. Los crawlers o arañas de Google como Google bot tienen un tiempo limitado para rastrear nuestro sitio web, por ese motivo, si le decimos que rastrée todo agotará su tiempo de rastreo o Crawl budget rápidamente dejando sin indexar las partes más importantes. Estos crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo. Por este motivo, al crear nuestro archivo robots.txt indicándole que partes no queremos que indexe, Google bot aprovechará su Crawl budget o tiempo de rastreo para indexar las partes más importantes de la página.

Es decir, es un archivo que utilizamos para indicar a estas arañas de Google o rastreadores qué partes no deben entrar a rastrear e indexar de nuestra página web para que no aparezcan en los resultados de búsqueda, por ejemplo, la política de cookies, política de privacidad, aspectos legales, comentarios, etc.

Por ejemplo si no queremos indexar una página de nuestro blog de wordpress añadiríamos la línea de texto Disallow: /url-pagina-a-bloquear

También existen diversos rastreadores considerados “maliciosos” que no queremos que nos rastréen, por ello debemos indicarlo también en nuestro archivo de texto plano robots.txt. El archivo robots txt debemos configurarlo atendiendo al sitemap, para no generar discordancias de indexación.

Como subir el archivo robots.txt a nuestro sitio web

El archivo robots txt lo subiremos a nuestro sitio web por FTP en la carpeta principal httpdocs

Podemos comprobar nuestro archivo robots txt en la URL: www.tudominio.com/robots.txt

A continuación dejo el que es para mí el mejor archivo robots.txt posible para WordPress y PrestaShop.

Mejor archivo robots.txt para WordPress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login
Disallow: /wp-admin
Disallow: /author/
Disallow: /?format=feed&type=rss
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-comments
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /comment-page
Disallow: /replytocom=
Disallow: /author
Disallow: /?author=
Disallow: /?feed=
Disallow: /search
Disallow: /?s=
Disallow: /?se=
Disallow: *?replytocom
Disallow: /?s=
Disallow: /author/*/$
Disallow: /comments/feed   
Disallow: /*/feed/$   
Disallow: /*/feed/rss/$   
Disallow: /*/trackback/$   
Disallow: /*/*/feed/$   
Disallow: /*/*/feed/rss/$   
Disallow: /*/*/trackback/$   
Disallow: /*/*/*/feed/$   
Disallow: /*/*/*/feed/rss/$   
Disallow: /*/*/*/trackback/$
Disallow: /*/attachment/
Disallow: /politica-de-cookies/

Sitemap: https://tudominio.com/sitemap.xml
Sitemap: https://tudominio.com/post-sitemap.xml
Sitemap: https://tudominio.com/page-sitemap.xml
Sitemap: https://tudominio.com/html-sitemap/

User-agent: Orthogaffe
Disallow: /

User-agent: UbiCrawler
Disallow: /

User-agent: DOC
Disallow: /

User-agent: Zao
Disallow: /

# Some bots are known to be trouble, 
particularly those designed to copy

# entire sites. Please obey robots.txt.

User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: linko
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: Xenu
Disallow: /

User-agent: larbin
Disallow: /

User-agent: libwww
Disallow: /

User-agent: ZyBORG
Disallow: /

User-agent: Download Ninja
Disallow: /

User-agent: wget
Disallow: /

User-agent: grub-client
Disallow: /

#
# Doesn't follow robots.txt anyway, but...
#
User-agent: k2spider
Disallow: /

#
# Hits many times per second, not acceptable
# http://www.nameprotect.com/botinfo.html
User-agent: NPBot
Disallow: /

# A capture bot, downloads gazillions 
of pages with no public benefit
# http://www.webreaper.net/
User-agent: WebReaper
Disallow: /

Mejor archivo robots.txt para PrestaShop

User-agent: *
Allow: */modules/*.css
Allow: */modules/*.js
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?tag=
Disallow: /*?id_currency=
Disallow: /*?search_query=
Disallow: /*?back=
Disallow: /*?n=
Disallow: /*&orderby=
Disallow: /*&orderway=
Disallow: /*&tag=
Disallow: /*&id_currency=
Disallow: /*&search_query=
Disallow: /*&back=
Disallow: /*&n=
Disallow: /*controller=addresses
Disallow: /*controller=address
Disallow: /*controller=authentication
Disallow: /*controller=cart
Disallow: /*controller=discount
Disallow: /*controller=footer
Disallow: /*controller=get-file
Disallow: /*controller=header
Disallow: /*controller=history
Disallow: /*controller=identity
Disallow: /*controller=images.inc
Disallow: /*controller=init
Disallow: /*controller=my-account
Disallow: /*controller=order
Disallow: /*controller=order-opc
Disallow: /*controller=order-slip
Disallow: /*controller=order-detail
Disallow: /*controller=order-follow
Disallow: /*controller=order-return
Disallow: /*controller=order-confirmation
Disallow: /*controller=pagination
Disallow: /*controller=password
Disallow: /*controller=pdf-invoice
Disallow: /*controller=pdf-order-return
Disallow: /*controller=pdf-order-slip
Disallow: /*controller=product-sort
Disallow: /*controller=search
Disallow: /*controller=statistics
Disallow: /*controller=attachment
Disallow: /*controller=guest-tracking
Disallow: /404/
Disallow: */classes/
Disallow: */config/
Disallow: */download/
Disallow: */mails/
Disallow: */modules/
Disallow: */translations/
Disallow: */tools/
Disallow: /*direccion
Disallow: /*direcciones
Disallow: /*acceder
Disallow: /*carro-de-la-compra
Disallow: /*descuentos
Disallow: /*seguimiento-del-pedido
Disallow: /*historial-de-pedidos
Disallow: /*datos-personales
Disallow: /*mi-cuenta
Disallow: /*pedido
Disallow: /*confirmacion-de-pedido
Disallow: /*seguimiento-de-pedido
Disallow: /*pedido-rapido
Disallow: /*nota-de-abono
Disallow: /*contrasena-olvidada
Disallow: /*buscar
Sitemap: https://www.tudominio.com/1_index_sitemap.xml
Sitemap: https://www.tudominio.com/upload/blockblog/blog.xml
User-agent: Orthogaffe
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
# Some bots are known to be trouble, 
particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: wget
Disallow: /
User-agent: grub-client
Disallow: /
#
# Doesn't follow robots.txt anyway, but...
#
User-agent: k2spider
Disallow: /
#
# Hits many times per second, not acceptable
# http://www.nameprotect.com/botinfo.html
User-agent: NPBot
Disallow: /
# A capture bot, downloads gazillions 
of pages with no public benefit
# http://www.webreaper.net/
User-agent: WebReaper
Disallow: /
Disallow: /
consultor seo

Manuel Espejo

Ayudo a autónomos, emprendedores, pymes y particulares a crear presencia de marca en internet. Desde mi blog escribo lo que voy aprendiendo por el camino y me parece interesante.

2 Comments

Leave a comment