Busquedas en internet
30.6.03
 
Google Toolbar Installed
Estoy escribiendo este post desde el nuevo toolbar 2.0 de google. Algunas funcionalidades interesantes, cómo block pop ups... buscar por países, llenar formularios automáticamente, guardar búsquedas anteriores, abrir resultados en ventanas nuevas, y este práctico servicio para escribir en tu weblog rápidamente.

Seguimos con algunos problemas para arreglar el diseño del weblog :(
ya intentaremos arreglarlo...

En nuestra lista de discusión xmailar nos invita a que utilizemos su nuevo buscador: "Multifiaca" de una manera muyy inteligente ha logrado a través de la convinación booleana
site:(sitio web) or site:(sitio web)
La posibilidad de que google brinde resultados únicamente de dos sitios y sobre una temática en especial la fiaca!!(pocas ganas de trabajar en lunfardo argentino) jaja
Maestro xmailar....

26.6.03
 
Estoy probando los nuevos templates de Blogger...
�este no est� mal no?... pero hay un pequeño problema... no me acepta los acentos :S y no he guadado el html del template anterior grr asi que tenganme paciencia....


22.6.03
 
Las búsquedas y los e-mails...

Hace un tiempo no se si recordarán había comentado sobre el ofrecimiento en el diario de un chabón que vendía un CD con 2.000.000 de emails de argentinos... pues... lo compré... me llegó a mi casa finalmente :)
Mi amigo Xmailar no tardó en tomar postura diciéndome: "pero esos tipos son unos ladrones...utilizan softwares que extraen emails automáticamente y muchos de ellos no existen... es dinero tirado..."
Yo como mi amigo estoy en contra del spam... pero quiero dar mis argumentos del porqué de mi interés...
Tiene razón mi amigo Xmailar... pero para criticar o tomar postura prefería comprarlo... el Cd está organizado con archivos txt donde por temática y carpetas están separados los emails... más allá de que han utilizado softwares para la extracción de emails... el trabajo de "búsqueda" es mostruoso y el costo mínimo...10 pesos argentinos... 3,5 euros ...
Sobre el tema de verificar si un e-mail existe...simplemente te bajas Atomic Mail Verifier y te dirá si esa dirección existe... o utilizando Advance email locator el país de donde proviene...

Veamos las herramientas utilizadas por los spameros...para buscar emails y demás...
Advance email extractor, Lencom fast email extractor
estos sólo dos de decenas en el mercado...
Para enviarlos... email bomber y para verificar si un e-mail te ha sido leído por alguien readnotify

Ahora todos se preguntarán que tiene que ver estos con las búsquedas... en realidad todas estas herramientas pueden utilizarse para búsquedas de información específica... no todo lo que se haga con estos programas puede llegar a ser spam...
Para ser más preciso, estoy buscando trabajo ... con este programa puedes ir navegando por sitios y extraer automáticamente emails de recursos humanos... pedirle al software que a través de keywords te seleccione e-mails determinados... O para mí el truco más efectivo... elegir una web X que realmente sepas que allí puedes encontrar varios emails de personalidades para tu contactarte...
Le avisas al software y en pocos minutos tienes todos los emails de "esa" web en particular... algunos de ellos con la posibilidad de extraer datos de fax, telefono como el Web data extractor
Por ejemplo... sigo con el tema de las agencias de turismo :)
Poniendo en el advance email extractor el sitio: http://www.turismo.gov.ar/esp/drst/consag/pcia/rconspcia.asp?pg=1&pcia=BUENOS%20AIRES
Puedes buscar automáticamente en minutos cientos de emails muy específicos...(lo que haces con ellos es otro tema)... puedes mandar luego 20 como 100... vos eligirás)
Pero que buena herramienta para luego yo poder comunicar y satisfacer una necesidad de contacto sobre X tema!!
En segundos los tengo a todos... luego con el programa TxtXtract (este es gratuito los demás debes comprarlo o buscar serial) lo que hace es de un txt o html ordenarte los emails para luego enviar con el bomber...
Recomendación.... si usas el bomber la mayoría de los correos tienen anti spam, entonces no te aparecerá en la bandeja de entrada de las personas que quieras que lo lean... esto aunque envíes sólo 20 emails...
La mejor alternativa es: utilizar tu cuenta de correo común y enviar los e-mails que te permita esa cuenta... por ej. creo que yahoo no más de 20 al mismo tiempo... de esa manera puedes "personalizar" tu promoción de ideas.
Segunda recomendación... cuando escribes tu idea trata de escribir un texto también "personalizado" dirigido en segunda persona.

Todo un proceso!...
Alternativas para quienes queremos buscar, encontrar información y como último proceso... "comunicar" tus ideas (sinónimo de buscar)
¿Algún comentario a favor o en contra?...

20.6.03
 
Buscar información en inglés y en otros idiomas... (aunque no sepas muy bien el idioma... en alltheweb)

Todos sabemos que la mayor cantidad de información disponible en la red está en inglés... En consecuencia si no buscas información en inglés y sólo en castellano, te estás perdiendo más del ... por ciento de información que puede servirte de gran utilidad. Intenta convinar siempre busquedas de info en castellano e inglés...
Por ejemplo alltheweb, no sólamente te corrige errores de ortografía... sino que también te "automatiza" cómo convinar en términos booleanos las palabras de búsqueda... por ejemplo:
Si busco información de empresas de agencias de turismo por destinación, en inglés podría poner: travel agencies by destination directory ...
Pero alltheweb te corrige y dice algo así como... te conviene buscar poniendo("Your query was rewritten into "travel agencies" by destination directory by adding quotes to common phrases") : "travel agencies" by destination directory

Este proceso de "Rewritten"...puedes también customizarlo eligiendo entre:
-rewrite and display info (este es default:Your query was rewritten into "travel agencies" by adding quotes to common phrases)
-repeat without rewrite
-suggest a rewrite
-rewrite and don´t display info
-disable query rewriting

La otra opción para encontrar lo que buscas en inglés es los "clusters" (palabras que han tipeado internautas...para buscar determinada info).
Estos clusters aparecen al final de los resultados... con alrededor de 6 opciones pudiendo convinarlas... por ejemplo si estas buscando: "travel agencies" by destination directory
En clusters te aparece:
travel agencies, directory (11)
travel agency directory, travel agencies (5)
business directory, transportation, information (4)
yahoo, destination guides, directory travel (3)

Ten en cuenta que si no seleccionas opciones en "avanzadas" o "customizable" quizás puedan no salirte estas opciones... ya que allteweb realiza un "Automatic Language Mapping" esto es que determina desde que país tu estás buscando info y entonces te da resultados en inglés y español en el caso que lo hagas de España... Más de 50 lenguajes maneja ya alltheweb...

Sobre búsquedas booleanas el código para buscar por lenguajes pones:
language: heippa language:fi (finlandia)
También te brinda las opciones "avanzadas" por:
-domain filter
-Only find results from
-Ip filters
(Un consejo cada vez que seleccionas un tipo de búsqueda avanzada en alltheweb ten en cuenta que se guardan estos setting... así que si buscas sobre otro tema acuérdate de realizar el proceso de "clear setting")

En consecuencia... estaba buscando agencias de viajes de EEUU con paquetes turísticos a la Argentina... sino utilizo estas alternativas...no hubiese encontrado nada... sinceramente... ni tampoco me hubiera enterado (sin la opción de clusters sinónimos de búsquedas, ni la opción de ip filters, etc...) que poniendo "directory of tours and vacations packages" encontraría lo que necesitaba
La opción de búsqueda de sinónimos es aplicable a buscar información en cualquier idioma... buscar intentando relacionar sinónimos es fundamental...

Truco final: También lo es si poniendo una palabra X en inglés... observar "palabras" de esos resultados y copiarlas para nuevas búsquedas... por ej. de esta búsqueda "travel agencies by destination" cuando te da los 10 resultados... copias sinónimos que encuentras en esa page (esto es aparte de los clusters)... es como hacerte clusters propios... y copias por ejemplo:
Resultado 1: "Travel Destination Iceland" (lo cambio por Argentina)
Resultado 6: travel packages for India (cambio por Argentina)
y así tratando de ir eligiendo la mejor opción hasta encontrar el mejor sinónimo...

Sobre los idiomas ... En inglés todo bien... pero en árabe?? alguien lo intentó :)... sino vean estos resultados y clusters!!! :S


17.6.03
 
La técnica del Yo-Yo en las búsquedas

Cuándo buscas en internet "busquedas en internet" google ha encontrado: "Resultados 1 - 10 de aproximadamente 4,540"

Pero los resultados que muestra "reales" no son 4540 ...sino que google permite visualizar no más que 610 resultados "reales" de 61 páginas disponibles... 4540 eran "posibles"...

La técnica del Yo Yo... consiste en mostrar los resultados reales entre el primero y el último (reales)... pasando por cuatro etapas principales:
primeros 10 resultados
Mitad de resultados
3/4 de resultados reales
y últimos resultados

No existe en los buscadores herramientas automáticas para llegar al resultado 600... pero hay diferentes técnias para lograrlo.
El código url: start=0 indica que muestra del 1 al 10 los resultados
start=10
del 11 al 20...
Pero si queremos usar al google como Yo-Yo... debemos tener en cuenta ciertas numeraciones: por ejemplo start=990 llegas al final
start=500 (al medio de las búsquedas reales)
start=750 (3/4 de las búsquedas reales)

Alltheweb (fast)...
Brinda mejores resultados reales que google... al parecer está indexando más rapidamente y eso beneficia al Yo-Yo
Alltheweb: "busquedas en internet"
29803 resultados
Reales: 4000
Para conocer los resultados reales agregas el número 3990 (esto para cualquier tipo de búsqueda, igual que en los ejemplos de google):
search?q=%22Busquedas+en+internet%22&c=web&cs=utf-8&o=3990
Si quieres ir a la mitad: 1990
3/4: 2990

Mareados?...
Bueno ... la técnica del Yo-Yo nos permitirá verificar la calidad de "todos" los resultados de una búsqueda... en general puedes encontrar información interesante tanto al principio como al final de resultados reales...

Para automatizar este proceso... searchlores creó un búscador php para la técnica Yo-Yo...

Pero quizás la herramienta más útil para jugar al Yo-Yo... el buscador creado por nuestro amigo Xmailar:
"Google Yo-Yo a-Go-Go sudaca v007a"


 
Una búsqueda divertida

Aleatoria y subjetiva... pero que puedes utilizarla como experiencia y técnica para otro tipo de búsquedas:

Maradona.htm
Maradona1.htm
Maradona.jpg (prueba con gif)

Agregar números posibles de imágenes: Maradona5
En google
En fast

Poniendo .jpg en fast no distingue ninguna
"mejor jugador de futbol del mundo" (aquí diego no tiene suerte)
maradona "gol a los ingleses" "fotos"
Maradona (en alltheweb imagenes)
maradona.htm or maradona.html

opción kartoo (no permite hacer link directo)
Maradona
maradona (en video de altavista)
Maradona.mp3 (en plaf.com)
index + of/maradona
el diego gol


13.6.03
 
Sobre el tiempo y velocidad de una búsqueda...

Me ha pedido una empresa que le busque información sobre agencias de viajes de EEUU y España que únicamente ofrezcan paquetes turísticos a la Argentina...
Tiempo de la búsqueda 7 horas aproximadamente... unas 50 agencias de turismo de EEUU con sus respectivos datos previamente analizados, seleccionados, gestionados... digo todas estas acciones porque cuando visitas la web de una empresa... no tienes todo a mano... debes bucear dentro del Website para encontrar lo que realmente se necesitaba que era: dirección, email, teléfono, fax, nombre de representante, destino de Argentina, webs...

7 u 8 horas para encontrar "exactamente" la información que un empresario necesitaba, para solucionar su "problema"... en el tiempo más corto posible y con la mayor calidad de información... sumado a esto a un bajo presupuesto de dinero (costo mano de obra por la "búsqueda") ... en fin... este empresario me dijo "yo se que en internet puedo encontrar información que en otro sitio no puedo encontrar"... yo le dije... "sí...pero internet no es una varita mágica...sino más bien un laberinto... si bien podemos encontrar cualquier tipo de información en internet... no toda la información es tan fácil de conseguir..."

¿Cuánto tiempo crees que un empresario con conocimientos básicos de internet podría tardar en encontrar esta info?...
¿Cuánto tiempo tu pondrías para encontrar esta demanda de información?
¿Qué tipo de herramientas de búsquedas utilizarías?....
¿Demasiado 7 horas no?

En otro momento os haré un resumen de algunas de estas autopreguntas formuladas... me quedo por el momento con la preocupación de si 7 horas de búsqueda es demasiado tiempo o realmente es un tiempo necesario para este tipo de búsqueda de información para empresas...

También agrego... lo que en otros post hemos explicado... no solamente he tenido que encontrar las url sino también "gestionar" esa información... brindarsela de una manera "organizada" ... "seleccionar" la información que realmente necesitaba de una page...

En síntesis para satisfacer demanda de un empresario debemos incluír: trabajo (7 horas de búsquedas) + velocidad (quiere los resultados lo antes posible... y yo tampoco quiero estar semanas buscando esta info) + buscadores robots + trucos de búsqueda + red expertos + gestión conocimiento = satisfacción del empresario?... debo conocer todavía su opinión de mi trabajo ... :)

10.6.03
 
Buscando videos...

Sin dudas que no existe una base de datos tan interesante para buscar videos como la de Archive.org. Su colección es gratis y de libre uso, allí podés encontrar la publicidad de Lucky Strike de 1948...también programas de tv, películas, etc...

Pero cuando busco videos en español, hay que buscar otros recursos ya que en archive.org la mayor base de datos de videos no hay casi nada... Si por ejemplo busco video sobre Argentina solamente 1 resultado (pobre mi país)...
Por supuesto uno de las más fáciles y práctica es la utlización de buscadores P2P en kazaalite o edonkey...Pero mi intención no era específicamente buscar pornografía :) sino más bien fragmentos de videos de la crisis en Argentina en el 2001.
En el buscador por web de edonkey poniendo "argentina" no obtengo resultados positivos...y así en los demás buscadores P2P... menos si pongo "argentina crisis"

Alternativas?
En mi opinión y el de muchos el buscador de yatv.com ... allí encontre lo que buscaba!!!
Con sólo poner "Argentina" aparecieron más de 50 videos sobre argentina y 30 sobre la crisis del 2001
A partir de ahora un recurso imprescindible ;) y del cual los visitantes de este weblog debemos sentirnos orgullosos porque uno de los que han creado este gran archivo de videos en español ha sido Fernando Siles... Felicitaciones ;)


8.6.03
 
Sobre búsquedas de "webs invisibles"...

Turbo 10 es el nuevo buscador de moda para las búsquedas "invisibles" (aquellas webs que no están indexadas en los buscadores tradicionales). Esta función de Turbo 10 no es novedad, si lo es la "manera" de cómo seleccionar tu propio catálogo de buscadores (10) dentro de una gran cantidad de buscadores pequeños de todo el mundo. Sin embargo todavía le queda mucho por mejorar a su versión beta... En español hay muyy pocas bases de datos para consultar... en este sentido por el momento sería más práctico que cuando buscamos webs invisibles, llevar adelante otras técnicas o trucos...

Internetinvisible.com te ofrece casi la mejor alternativa en español, con más de 2500 bases de datos sobre diferentes temáticas...El proceso de búsqueda de internetinvisible quizás es menos práctica que el de Turbo 10, ya que debes abrir web por web y buscar en cada una de ellas... pero es necesario buscar allí ya que como dijimos... turbo 10 por el momento no brinda gran solución para los hispanoparlantes...

Busquemos opciones entonces...
Si estás buscando información sobre "derecho" utilizas internetinvisible.com y eliges 10 bases de datos que te interesen, copiar esas direcciones en favoritos y luego buscar en cada una de ellas. Por ejemplo en "jurisprudencia-derecho" existen 26 bases de datos diferentes para consultar... buscar en estas bases de datos no es tiempo perdido...
Otra alternativa, es poner en google "derecho" opción español...o el país de donde estés buscando la info...allí se trata de ir revisando los resultados uno por uno y entrar en cada una de las bases de datos y buscadores de estas webs sobre derecho, los resultados pueden ser más que interesantes.
Por ejemplo la web derecho.com tiene un buscador muy recomendado para encontrar información "invisible" sobre derecho que no brinda turbo 10...
opciones para encontrar info que no ha indexado ni google, ni alltheweb y sí los miles de buscadores caseros en español que existen en la actualidad... y la mayoría de ellos gratuitos.



6.6.03
 
¿Cuál es el mejor buscador?...

En newsletter de Search Engine Watch... hicieron una inteligente prueba de búsqueda: "What´s the best search engine?" ...

En los buscadores más importantes pusieron los términos: "best search engine"...
los resultados son bastante pobres y nos hace pensar sobre el desarrollo tecnológico de los buscadores robots:

Google
Alltheweb
Altavista
MSN Search
Teoma
Wisenut

Mejor ni hablar si buscamos en español "mejor buscador de internet":

En Alltheweb: el primer resultado es http://www.elbuscadordesexo.com/ (sin desprestigiar la calidad)
y en Google: www.peru-info.com (igual sin intento de desprestigio)

Algo para agregar ? :)

4.6.03
 
Hay distintas formas de fomentar la especialidad de "buscar en internet"... realizando investigaciones como la de Marcelo, escribir en un weblog, quienes en un trabajo contratan surfers o personas que busquen en internet determinada tipo de información... todos estos procesos van generando una especialidad cada vez más necesaria... "después del correo electrónico, la búsqueda de información es la actividad más popular de la Red"...
Pero cómo en toda especialidad, debe haber un espacio educativo para fomentarla y contenerla... David Plá ha creado hace unos años el Proyecto RecerK, con base en las ciudades de Alcoy y Valencia, España.
El proyecto se basa en una idea primaria del desarrollo "Spire project", e intenta fomentar el conocimiento de las búsquedas de información en internet: "RecerK.com se encarga de hacer llegar eventualemente a tu buzón de correo todo lo que ha ocurrido en el mundo de la búsqueda de información a través de Internet. Además intentamos formar poco a poco a nuestros sucriptores en las mejores técnicas para la localización de información específica en la Red".

RecerK ha llegado a concretar convenios con la Universidad Politécnica de Valencia y actualmente ofrece Seminarios en sus cursos. La temática es SEMINARIOS DE LOCALIZACIÓN DE INFORMACIÓN ESPECÍFICA EN INTERNET...("Este curso va dirigido a todos aquellos investigadores, estudiantes y profesionales que necesiten localizar información específica sobre cualquier tema para la realización de sus respectivas tareas profesionales o formativas")

En el mes de julio se cumple la 27 edición de estos seminarios!!!.... a continuación las próximas fechas de realización:
27ª Edición (Primera Parte) 4-5 y 11 de Julio 2003 Valencia
27ª Edición (Segunda Parte) 12 y 18-19 de Julio 2003 Valencia
28ª Edición (Primera Parte) 7-8 y 9 de Julio 2003 Alcoy
28ª Edición (Segunda Parte) 14-15 y 16 de Julio 2003 Alcoy

 
Marcelo Garrido ha terminado su trabajo de investigación sobre "Redes Semánticas y Mapas Conceptuales como Interfaces de búsqueda de información: Estudio del Metabuscador Kartoo."

Desde aquí puedes bajarlo completo

El informe se divide en apartados desarrollados con un rigor científico excelente:
-"Procesos de búsqueda de información en la Web"
-"Modelos clásicos de Buscadores Web: Directorios y Motores de búsqueda"
-"Nuevas propuestas para interfaces de Búsqueda y recuperación"
-"Redes semánticas, mapas conceptuales y mapas mentales como modelos de interfaces"

-"Análisis de Kartoo", y evaluación de los usuarios sobre el buscador Kartoo (muchos de los resultados fueron brindados por la participación de los usuarios de nuestra web)

Es un honor que Marcelo haya decidido que su investigación sea colgada en esta web.
Un material para releer varias veces y básico para el desarrollo de futuros estudios sobre las búsquedas en internet...
Trataremos en siguientes post opinar "humildemente" sobre algunas cuestiones que plantea Marcelo.

2.6.03
 
El proyecto Grub.org comprado por looksmart, es el primer buscador con ingeniería distribuída, al estilo proyecto SETI. De esta manera la computadora de cualquier usuario "voluntario" de internet bajándose un pequeño software, será parte de quizás el mayor "buscador" basado red de computadoras compartidas que rastrearán millones de sitios webs.
Muchos se preguntan para que puede servirnos utilizar este programa como screenserver... o hacerlo funcionar unos minutos para rastrear cientos de webs...
Las ventajas de su utilización pasa porque puedes "personalizar" a través del API de código abierto que ofrece, permitiendo de esta manera un rastreo que da prioridad a webs que existan en tu servidor propio o externo. Por ejemplo, bajándote un archivo.txt (ver local crawling) y subiéndolo luego en el directorio donde tienes el index de una web, te permitirá automatizar el proceso y de esta manera tu web estará permanentemente actualizada en la base de datos de este inmenso buscador...
Piensa de que a diferencia de google que hay que esperar meses quizás para que rastree tu web a pesar de avisar de que existe... con grub tu podrás incorporarla a la gran base de datos en segundos, y dejar de ser una web invisible para quién busque información en la red...
El proyecto en sí tiene una capacidad de búsqueda de 10.000 millones de búsquedas diarias, lo que significa que, de cubrirse en toda su capacidad, el buscador actualizaría los datos de la Web entera todos los días (Google actualiza sus índices cada 30 días). Para tener una idea, Google recolecta datos de 150 millones de páginas por día, mientras que Grub, recién en sus comienzos, ya busca en 130 millones de paginas por día.

En estos momentos el buscador Wisenut y looksmart ya utilizan la tecnología del robot compartido Grub... un proyecto ambicioso donde dependerá de la implicación de quién quiera que su computadora sea parte de un inmenso robot y vea materializada realmente las ventajas del "local crawling".