Nuevas búsquedas de documentos escaneados y un tornillo común hasta
05 de enero 2009 por Michael Alexander · Leave a Comment
Menciono G oogle tan a menudo que mucha gente debe pensar que estoy pagando por la empresa. Sólo para que conste, no me pagan. Simplemente no puedo ayudarme a mí mismo-Google siempre está haciendo cosas muy interesantes.
Recientemente, Google dijo que ahora es capaz de utilizar el reconocimiento óptico de caracteres para indexar documentos escaneados almacenados como archivos PDF de Adobe. Anteriormente, la compañía rara vez escaneados documentos, ya que no podía estar seguro de los resultados de búsqueda. Según el blog de Google:
Si bien hemos indexados los documentos guardados en formato PDF desde hace algún tiempo, los documentos escaneados son mucho más difíciles para un ordenador para leer. Escanear es el reverso de la impresión. Impresión convierte las palabras en texto digital, en papel, durante la exploración que hace una fotografía digital del documento físico (y texto) para que pueda almacenar y visualizar en un ordenador.
Para tomar una prueba de conducción de esta nueva cosa nueva, haga clic en esta búsqueda de consulta constante éxito en un mundo volátil y verás un extracto de la doc PDF en los resultados de búsqueda seguido por el enlace Ver como HTML.
Convertir PDFs escaneados en texto
Si usted tiene archivos PDF escaneados en el disco duro, pero la falta de software de OCR, puede convertirlos en texto reconocible, DI, dice.
Cree una carpeta en su sitio Web (por ejemplo, su sitio es abc.com) y subir todos los archivos PDF en la misma carpeta. A continuación, cree una página web pública que vincula a todos los archivos PDF. Espere a que el searchbots Google para rastrear tus cosas. Después de que se hace, tipo de sitio: abc.com / pdf filetype: pdf para ver los archivos PDF como HTML.
Lifehacker agrega esta vuelta de tuerca a la conversión de archivos PDF a HTML :
Puedes usar Google de las Herramientas para webmasters a reinar en lo que se escanean y se indexan en su sitio, aunque se debe asumir cualquier cosa que pongas en línea se pueden encontrar por aquellos que buscan la misma.
¿Puede contarnos lo que está mal con la sentencia de Lifehacker por encima? Leer "21 palabras que suenan igual pero significan cosas diferentes." ¿Qué mal en esta foto?










