WordPress robots.txt y PrestaShop Google Sitemap
Tabla o índice de contenidos
¿Qué es el Archivo robots.txt y para qué se utiliza?
El archivo robots.txt es un archivo de texto que indica a Google que partes de nuestra web queremos que indexe y cuales no. Los crawlers o arañas de Google como Google bot tienen un tiempo limitado para rastrear nuestro sitio web, por ese motivo, si le decimos que rastrée todo agotará su tiempo de rastreo o Crawl budget rápidamente dejando sin indexar las partes más importantes. Estos crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo. Por este motivo, al crear nuestro archivo robots.txt indicándole que partes no queremos que indexe, Google bot aprovechará su Crawl budget o tiempo de rastreo para indexar las partes más importantes de la página.
Es decir, es un archivo que utilizamos para indicar a estas arañas de Google o rastreadores qué partes no deben entrar a rastrear e indexar de nuestra página web para que no aparezcan en los resultados de búsqueda, por ejemplo, la política de cookies, política de privacidad, aspectos legales, comentarios, etc.
Por ejemplo si no queremos indexar una página de nuestro blog de wordpress añadiríamos la línea de texto Disallow: /url-pagina-a-bloquear
También existen diversos rastreadores considerados “maliciosos” que no queremos que nos rastréen, por ello debemos indicarlo también en nuestro archivo de texto plano robots.txt. El archivo robots txt debemos configurarlo atendiendo al sitemap, para no generar discordancias de indexación. Para tiendas online PrestaShop grandes, el Google sitemap tiene más relevancia que para webs corporativas con pocas URLs. El sitemap es útil para tiendas grandes con muchas categorías.
Como subir el archivo robots.txt a nuestro sitio web
El archivo robots txt lo subiremos a nuestro sitio web por FTP en la carpeta principal httpdocs
Podemos comprobar nuestro archivo robots txt en la URL: www.tudominio.com/robots.txt
A continuación dejo el que es para mí el mejor archivo robots.txt posible para WordPress y PrestaShop.
Mejor archivo robots.txt para WordPress:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-login Disallow: /wp-admin Disallow: /author/ Disallow: /?format=feed&type=rss Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-comments Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /comment-page Disallow: /replytocom= Disallow: /author Disallow: /?author= Disallow: /?feed= Disallow: /search Disallow: /?s= Disallow: /?se= Disallow: *?replytocom Disallow: /?s= Disallow: /author/*/$ Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ Disallow: /*/attachment/ Disallow: /politica-de-cookies/ Sitemap: https://tudominio.com/sitemap.xml Sitemap: https://tudominio.com/post-sitemap.xml Sitemap: https://tudominio.com/page-sitemap.xml Sitemap: https://tudominio.com/html-sitemap/ User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / # Some bots are known to be trouble, particularly those designed to copy # entire sites. Please obey robots.txt. User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / # # Doesn't follow robots.txt anyway, but... # User-agent: k2spider Disallow: / # # Hits many times per second, not acceptable # http://www.nameprotect.com/botinfo.html User-agent: NPBot Disallow: / # A capture bot, downloads gazillions of pages with no public benefit # http://www.webreaper.net/ User-agent: WebReaper Disallow: /
Mejor archivo robots.txt para PrestaShop
User-agent: * Allow: */modules/*.css Allow: */modules/*.js Disallow: /*?orderby= Disallow: /*?orderway= Disallow: /*?tag= Disallow: /*?id_currency= Disallow: /*?search_query= Disallow: /*?back= Disallow: /*?n= Disallow: /*&orderby= Disallow: /*&orderway= Disallow: /*&tag= Disallow: /*&id_currency= Disallow: /*&search_query= Disallow: /*&back= Disallow: /*&n= Disallow: /*controller=addresses Disallow: /*controller=address Disallow: /*controller=authentication Disallow: /*controller=cart Disallow: /*controller=discount Disallow: /*controller=footer Disallow: /*controller=get-file Disallow: /*controller=header Disallow: /*controller=history Disallow: /*controller=identity Disallow: /*controller=images.inc Disallow: /*controller=init Disallow: /*controller=my-account Disallow: /*controller=order Disallow: /*controller=order-opc Disallow: /*controller=order-slip Disallow: /*controller=order-detail Disallow: /*controller=order-follow Disallow: /*controller=order-return Disallow: /*controller=order-confirmation Disallow: /*controller=pagination Disallow: /*controller=password Disallow: /*controller=pdf-invoice Disallow: /*controller=pdf-order-return Disallow: /*controller=pdf-order-slip Disallow: /*controller=product-sort Disallow: /*controller=search Disallow: /*controller=statistics Disallow: /*controller=attachment Disallow: /*controller=guest-tracking Disallow: /404/ Disallow: */classes/ Disallow: */config/ Disallow: */download/ Disallow: */mails/ Disallow: */modules/ Disallow: */translations/ Disallow: */tools/ Disallow: /*direccion Disallow: /*direcciones Disallow: /*acceder Disallow: /*carro-de-la-compra Disallow: /*descuentos Disallow: /*seguimiento-del-pedido Disallow: /*historial-de-pedidos Disallow: /*datos-personales Disallow: /*mi-cuenta Disallow: /*pedido Disallow: /*confirmacion-de-pedido Disallow: /*seguimiento-de-pedido Disallow: /*pedido-rapido Disallow: /*nota-de-abono Disallow: /*contrasena-olvidada Disallow: /*buscar Sitemap: https://www.tudominio.com/1_index_sitemap.xml Sitemap: https://www.tudominio.com/upload/blockblog/blog.xml User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / # Some bots are known to be trouble, particularly those designed to copy # entire sites. Please obey robots.txt. User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / # # Doesn't follow robots.txt anyway, but... # User-agent: k2spider Disallow: / # # Hits many times per second, not acceptable # http://www.nameprotect.com/botinfo.html User-agent: NPBot Disallow: / # A capture bot, downloads gazillions of pages with no public benefit # http://www.webreaper.net/ User-agent: WebReaper Disallow: / Disallow: /
conque generas estas urls, porque con el alloneseopack o el sitemapxml no se generan:
Sitemap: https://tudominio.com/post-sitemap.xml
Sitemap: https://tudominio.com/page-sitemap.xml
Sitemap: https://tudominio.com/html-sitemap/