Busquedas en internet
7.6.04
 
Google filetypes: incluir, excluir

Google permite especificar tipos de archivos para los resultados.

También se pueden excluir.

Si queremos resultados en archivos no HTML deberíamos poner:

search terms filetype:doc filetype:pdf

etc, hay más tipos que los que dice el formulario avanzado.

From http://www.google.com/webmasters/facts.html: "At Google, we are able to index most types of pages and files with very few exceptions. File types we are able to index include: pdf, asp, jsp, hdml, shtml, xml, cfm, doc, xls, ppt, rtf, wks, lwp, wri, swf." (1)

12 formats including HTML, RSS, DOC, some XML, PDF, PostScript, Corel WordPerfect, and Lotus 1-2-3.
http://www.google.com/help/faq_filetypes.html (2)

Buscando un atajo para obtener los resultados excluyendo HTML probé:

search terms -filetype:html -filetype:htm --filetype:shtml -filetype:php

pero tiene el inconveniente de que da resultados en HTML porque considera los directorios por defecto, va a mostrar resultados con URL www.example.com/directorio/pages/

agregar -inurl:index.htm -inurl:asp no sirvió mucho.

Más en:

(1) http://www.top25web.com/bbs/viewtopic.php?p=3321
(2) http://www.searchengineworld.com/spiders/google_faq.htm
http://www.google.com/help/faq_filetypes.html


Gigablast.com permite usar metatags para buscar pero no encontré forma de excluir Content-Type: text/html
http://www.gigablast.com/rants.html#metas