Cómo bloquear o eliminar páginas con un archivo robots.txt


Cómo bloquear o eliminar páginas con un archivo robots.txt – Ayuda de Herramientas para webmasters de Google.

 

Cómo bloquear o eliminar páginas con un archivo robots.txt

La herramienta de generación de archivos robots.txt está desapareciendo. Puedes crear un archivo robots.txt manualmente o utilizar una de las muchas herramientas de generación de archivos robots.txt de la Web.

Los archivos robots.txt restringen el acceso a un sitio por parte de los robots de motores de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.

Para consultar las URL que Google no ha podido rastrear, accede a la página URL bloqueadas de la sección de estado de las Herramientas para webmasters de Google.

El archivo robots.txt solo es necesario si tu sitio incluye contenido que no quieres que los motores de búsqueda indexen. Si vas a permitir la indexación de tu sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (www.dmoz.org), podrían aparecer en los resultados de búsqueda de Google.

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta “robots”.

Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta “noindex” o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta “noindex” y no incluirá esa página en el índice de páginas web. La cabecera HTTP “X-Robots-Tag” resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.

Cómo crear un archivo robots.txt

El archivo robots.txt más simple utiliza dos reglas:

  • User-Agent: el robot al que se aplica la siguiente regla
  • Disallow: la URL que quieres bloquear

Estas líneas se consideran una única entrada en el archivo. Puedes incluir todas las entradas que quieras, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:

User-agent: *
Disallow: /carpeta1/

User-Agent: Googlebot
Disallow: /carpeta2/

En este ejemplo, las únicas URL que no puede rastrear Googlebot son las de /carpeta2/.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye numerosos robots comunes. Puedes configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.

Bloquear user-agents

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

  • Para bloquear todo el sitio, utiliza una barra inclinada.
    Disallow: /
  • Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.
    Disallow: /directorio-sintítulo/
  • Para bloquear una página, insértala después de la línea Disallow.
    Disallow: /archivo_privado.html
  • Para eliminar una imagen de Google Imágenes, añade lo siguiente:
    User-agent: Googlebot-Image
    Disallow: /imágenes/perros.jpg
  • Para eliminar todas las imágenes de un sitio de Google Imágenes, añade lo siguiente:
    User-agent: Googlebot-Image
    Disallow: /
  • Para bloquear archivos de un determinado tipo (por ejemplo, .gif), añade lo siguiente:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Para evitar que se rastreen las páginas de tu sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilita el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-Mediapartners no comparte páginas con el resto de user-agents de Google. Por ejemplo:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, Disallow: /archivo_privado.asp bloquearía http://www.example.com/archivo_sintitulo.asp, pero permitiría http://www.example.com/archivo_sintitulo.asp. Googlebot ignora los espacios en blanco (en líneas vacías concretas) y las directivas desconocidas del archivo robots.txt.

Googlebot permite enviar archivos de sitemaps mediante el archivo robots.txt.

Concordancia mediante patrones

Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

  • Puedes utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que empiecen por “privado”:
    User-agent: Googlebot
    Disallow: /privado*/
  • Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de tu dominio, seguido de una cadena, un signo de interrogación y una cadena), añade lo siguiente:
    User-agent: Googlebot
    Disallow: /*?
  • Para especificar la concordancia con el final de la URL, utiliza $. Por ejemplo, para bloquear una URL que termine en .xls:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Puedes utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que quieres incluir. En ese caso, configura tu archivo robots.txt del siguiente modo:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de tu dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

    La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de tu dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Guarda tu archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarda el archivo en el directorio de nivel superior de tu sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse “robots.txt”. Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, http://www.example.com/robots.txt es una ubicación válida, pero http://www.example.com/misitio/robots.txt no lo es.

Cómo probar un archivo robots.txt

La herramienta de prueba de robots.txt te mostrará si el archivo robots.txt está impidiendo de forma accidental que Googlebot rastree un archivo o un directorio de tu sitio o si está permitiendo que Googlebot rastree archivos que no deben aparecer en la Web. Al introducir el texto de un archivo robots.txt propuesto, la herramienta lo lee de la misma forma que Googlebot y muestra los efectos del archivo y los posibles errores que se hayan detectado.

Para probar el archivo robots.txt de un sitio, sigue estos pasos:

  1. En la página principal de las Herramientas para webmasters de Google, haz clic en el sitio que quieras.
  2. En la opción de estado, haz clic en URL bloqueadas.
  3. Si aún no se ha seleccionado, haz clic en la pestaña Probar robots.txt.
  4. Copia el contenido del archivo robots.txt y pégalo en el primer cuadro.
  5. En el cuadro URL, indica el sitio en el que quieras probar el archivo.
  6. En la lista User-agents, selecciona los user-agents que quieras.

No se guardará ninguno de los cambios que realices en esta herramienta. Para guardar un cambio, tendrás que copiar el contenido y pegarlo en el archivo robots.txt.

Esta herramienta proporciona resultados únicamente para los user-agents de Google, como Googlebot. Es posible que otros robots no interpreten el archivo robots.txt del mismo modo. Por ejemplo, Googlebot responde a una definición ampliada del protocolo de robots.txt estándar. Entiende las directivas Allow:, así como algunas concordancias mediante patrones. De esta forma, aunque la herramienta muestre líneas que incluyen estas extensiones como comprendidas, no olvides que esto afecta únicamente a Googlebot, no necesariamente a todos los robots que rastreen tu sitio web.

 

Robots Database

The Robots Database lists robot software implementations and operators.

Robots listed here have been submitted by their owners, or by web site owners who have been visited by the robots. A listing here does not mean that a robot is endorsed in any way.

For a list of User-Agents (including bots) in the wild, see www.botsvsbrowsers.com

This robots database is currently undergoing re-engineering. Due to poular demand we have restored the existing data, but addition/modification are disabled.

If you need this data in raw format, see Robots Database Export page.

  1. ABCdatos BotLink
  2. Acme.Spider
  3. Ahoy! The Homepage Finder
  4. Alkaline
  5. Anthill
  6. Walhello appie
  7. Arachnophilia
  8. Arale
  9. Araneo
  10. AraybOt
  11. ArchitextSpider
  12. Aretha
  13. ARIADNE
  14. arks
  15. AskJeeves
  16. ASpider (Associative Spider)
  17. ATN Worldwide
  18. Atomz.com Search Robot
  19. AURESYS
  20. BackRub
  21. Bay Spider
  22. Big Brother
  23. Bjaaland
  24. BlackWidow
  25. Die Blinde Kuh
  26. Bloodhound
  27. Borg-Bot
  28. BoxSeaBot
  29. bright.net caching robot
  30. BSpider
  31. CACTVS Chemistry Spider
  32. Calif
  33. Cassandra
  34. Digimarc Marcspider/CGI
  35. Checkbot
  36. ChristCrawler.com
  37. churl
  38. cIeNcIaFiCcIoN.nEt
  39. CMC/0.01
  40. Collective
  41. Combine System
  42. Conceptbot
  43. ConfuzzledBot
  44. CoolBot
  45. Web Core / Roots
  46. XYLEME Robot
  47. Internet Cruiser Robot
  48. Cusco
  49. CyberSpyder Link Test
  50. CydralSpider
  51. Desert Realm Spider
  52. DeWeb(c) Katalog/Index
  53. DienstSpider
  54. Digger
  55. Digital Integrity Robot
  56. Direct Hit Grabber
  57. DNAbot
  58. DownLoad Express
  59. DragonBot
  60. DWCP (Dridus’ Web Cataloging Project)
  61. e-collector
  62. EbiNess
  63. EIT Link Verifier Robot
  64. ELFINBOT
  65. Emacs-w3 Search Engine
  66. ananzi
  67. esculapio
  68. Esther
  69. Evliya Celebi
  70. FastCrawler
  71. Fluid Dynamics Search Engine robot
  72. Felix IDE
  73. Wild Ferret Web Hopper #1, #2, #3
  74. FetchRover
  75. fido
  76. Hämähäkki
  77. KIT-Fireball
  78. Fish search
  79. Fouineur
  80. Robot Francoroute
  81. Freecrawl
  82. FunnelWeb
  83. gammaSpider, FocusedCrawler
  84. gazz
  85. GCreep
  86. GetBot
  87. GetURL
  88. Golem
  89. Googlebot
  90. Grapnel/0.01 Experiment
  91. Griffon
  92. Gromit
  93. Northern Light Gulliver
  94. Gulper Bot
  95. HamBot
  96. Harvest
  97. havIndex
  98. HI (HTML Index) Search
  99. Hometown Spider Pro
  100. ht://Dig
  101. HTMLgobble
  102. Hyper-Decontextualizer
  103. iajaBot
  104. IBM_Planetwide
  105. Popular Iconoclast
  106. Ingrid
  107. Imagelock
  108. IncyWincy
  109. Informant
  110. InfoSeek Robot 1.0
  111. Infoseek Sidewinder
  112. InfoSpiders
  113. Inspector Web
  114. IntelliAgent
  115. I, Robot
  116. Iron33
  117. Israeli-search
  118. JavaBee
  119. JBot Java Web Robot
  120. JCrawler
  121. Jeeves
  122. JoBo Java Web Robot
  123. Jobot
  124. JoeBot
  125. The Jubii Indexing Robot
  126. JumpStation
  127. image.kapsi.net
  128. Katipo
  129. KDD-Explorer
  130. Kilroy
  131. KO_Yappo_Robot
  132. LabelGrabber
  133. larbin
  134. legs
  135. Link Validator
  136. LinkScan
  137. LinkWalker
  138. Lockon
  139. logo.gif Crawler
  140. Lycos
  141. Mac WWWWorm
  142. Magpie
  143. marvin/infoseek
  144. Mattie
  145. MediaFox
  146. MerzScope
  147. NEC-MeshExplorer
  148. MindCrawler
  149. mnoGoSearch search engine software
  150. moget
  151. MOMspider
  152. Monster
  153. Motor
  154. MSNBot
  155. Muncher
  156. Muninn
  157. Muscat Ferret
  158. Mwd.Search
  159. Internet Shinchakubin
  160. NDSpider
  161. Nederland.zoek
  162. NetCarta WebMap Engine
  163. NetMechanic
  164. NetScoop
  165. newscan-online
  166. NHSE Web Forager
  167. Nomad
  168. The NorthStar Robot
  169. nzexplorer
  170. ObjectsSearch
  171. Occam
  172. HKU WWW Octopus
  173. OntoSpider
  174. Openfind data gatherer
  175. Orb Search
  176. Pack Rat
  177. PageBoy
  178. ParaSite
  179. Patric
  180. pegasus
  181. The Peregrinator
  182. PerlCrawler 1.0
  183. Phantom
  184. PhpDig
  185. PiltdownMan
  186. Pimptrain.com’s robot
  187. Pioneer
  188. html_analyzer
  189. Portal Juice Spider
  190. PGP Key Agent
  191. PlumtreeWebAccessor
  192. Poppi
  193. PortalB Spider
  194. psbot
  195. GetterroboPlus Puu
  196. The Python Robot
  197. Raven Search
  198. RBSE Spider
  199. Resume Robot
  200. RoadHouse Crawling System
  201. RixBot
  202. Road Runner: The ImageScape Robot
  203. Robbie the Robot
  204. ComputingSite Robi/1.0
  205. RoboCrawl Spider
  206. RoboFox
  207. Robozilla
  208. Roverbot
  209. RuLeS
  210. SafetyNet Robot
  211. Scooter
  212. Sleek
  213. Search.Aus-AU.COM
  214. SearchProcess
  215. Senrigan
  216. SG-Scout
  217. ShagSeeker
  218. Shai’Hulud
  219. Sift
  220. Simmany Robot Ver1.0
  221. Site Valet
  222. Open Text Index Robot
  223. SiteTech-Rover
  224. Skymob.com
  225. SLCrawler
  226. Inktomi Slurp
  227. Smart Spider
  228. Snooper
  229. Solbot
  230. Spanner
  231. Speedy Spider
  232. spider_monkey
  233. SpiderBot
  234. Spiderline Crawler
  235. SpiderMan
  236. SpiderView(tm)
  237. Spry Wizard Robot
  238. Site Searcher
  239. Suke
  240. suntek search engine
  241. Sven
  242. Sygol
  243. TACH Black Widow
  244. Tarantula
  245. tarspider
  246. Tcl W3 Robot
  247. TechBOT
  248. Templeton
  249. TeomaTechnologies
  250. TITAN
  251. TitIn
  252. The TkWWW Robot
  253. TLSpider
  254. UCSD Crawl
  255. UdmSearch
  256. UptimeBot
  257. URL Check
  258. URL Spider Pro
  259. Valkyrie
  260. Verticrawl
  261. Victoria
  262. vision-search
  263. void-bot
  264. Voyager
  265. VWbot
  266. The NWI Robot
  267. W3M2
  268. WallPaper (alias crawlpaper)
  269. the World Wide Web Wanderer
  270. w@pSpider by wap4.com
  271. WebBandit Web Spider
  272. WebCatcher
  273. WebCopy
  274. webfetcher
  275. The Webfoot Robot
  276. Webinator
  277. weblayers
  278. WebLinker
  279. WebMirror
  280. The Web Moose
  281. WebQuest
  282. Digimarc MarcSpider
  283. WebReaper
  284. webs
  285. Websnarf
  286. WebSpider
  287. WebVac
  288. webwalk
  289. WebWalker
  290. WebWatch
  291. Wget
  292. whatUseek Winona
  293. WhoWhere Robot
  294. Wired Digital
  295. Weblog Monitor
  296. w3mir
  297. WebStolperer
  298. The Web Wombat
  299. The World Wide Web Worm
  300. WWWC Ver 0.2.5
  301. WebZinger
  302. XGET
Anuncios

Acerca de UniSoft-AleBo

La tecnología a tu alcance Asesorías Científico - Metodológicas http://plc.site11.com
Esta entrada fue publicada en SEO, Softwares, Web 2.0. Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s