# ----------------------------------------------- # Bots de IA / Scrapers - BLOQUEAR # ----------------------------------------------- User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Claude-Web Disallow: / User-agent: Perplexity-User Disallow: / User-agent: PerplexityBot Disallow: / User-agent: meta-externalagent Disallow: / User-agent: FacebookBot Disallow: / User-agent: PetalBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: BLEXBot Disallow: / User-agent: DataForSeoBot Disallow: / User-agent: Bytespider Disallow: / User-agent: YandexBot Disallow: / User-Agent: * # Permitir AJAX de WordPress Allow: /wp-admin/admin-ajax.php # Bloquear áreas de administración y sensibles Disallow: /wp-admin/ Disallow: /trackback/ Disallow: */trackback/ # Bloquea trackbacks en subdirectorios también # Bloquear resultados de búsqueda internos y parámetros de consulta generales Disallow: /?s= Disallow: /search/ # Asegúrate que termine en / si es un directorio Disallow: /*? # Bloquear archivos core de PHP y otros archivos de código Disallow: /index.php Disallow: /*.php$ Disallow: /*.inc$ # Bloquear taxonomías, paginación y archivos Disallow: /archives/ Disallow: /page/ Disallow: /tag/ Disallow: /category/ # Bloquear trackback Disallow: /*/trackback/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/trackback/$ # Bloquear archivos de backup, logs y control de versiones Disallow: /*.git$ Disallow: /*.sql$ Disallow: /*.tgz$ Disallow: /*.gz$ Disallow: /*.tar$ Disallow: /*.svn$ Disallow: /*.bz2$ Disallow: /*.log$ # Bloquear URLs de WooCommerce/E-commerce Disallow: /*add-to-cart=* # Para parámetros que pueden no estar al inicio de la ruta Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ # ----------------------------------------------- # Reglas para Bots Específicos # ----------------------------------------------- # Bots que se desea bloquear completamente User-agent: ia_archiver Disallow: / User-agent: duggmirror Disallow: / # Bots con control de rastreo (Crawl-delay es mayormente ignorado por Google/Bing) User-agent: noxtrumbot Crawl-delay: 50 User-agent: msnbot # (Considera Bingbot, que es el actual) Crawl-delay: 30 User-agent: Slurp # (Yahoo, ahora usa el índice de Bing) Crawl-delay: 10 # Herramientas de scraping y bots agresivos User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: MSIECrawler Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / Sitemap: https://tanatorio.pro/sitemap-index.xml