Extraer cadena PDF de determinada ubicación.

Necesito saber cómo puedo en una página html insertar código Javascript o php que me tome un archivo PDF (en este pdf se podrá buscar texto por el interior y estará en el servidor) y en una determinada parte del archivo en el que yo se lo digo manualmente con X1, Y1, X2, Y2, X3, Y3, X4, Y4 (cuatro coordenadas que me determinan una parte específica del archivo) coger el texto y crear otro archivo con ese nombre.
¿Me puedes orientar un poco como puedo hacerlo?. He estado investigando pero no consigo buscar nada que me oriente.
Respuesta
1
La verdad que eso que estas pidiendo es una tarea bien particular, conozco muchas herramientas para crear archivos pdf con php pero ninguna para leer e interpretar un archivo pdf. Tal vez usando otro lenguaje de programación como java( no javascript) se pueda hacer eso que dices. ¿Sería un buen TO-DO para los desarrolladores de PHP no crees?
Gracias por la respuesta. Yo necesito utilizarlo en una página web y java no puedo usarlo en la web ¿no?
Saludos.
java en realidad se puede usar de muchas formas, incluso sin necesidad de la web. Pero en este caso que te lo sugiero, podrías usar dos aplicaciones java comunicadas entre sí: una como cliente y una como servidor. La aplicación cliente que es la que se ejecuta en tu browser se conoce como applet y la aplicación en el servidor podría ser un jsp o un servlet, que sería la aplicación que manipularía los pdfs. Existe mucha documentación al respecto sobre estos temas en Internet, pero como te decía ya se escapa de mis conocimientos.

2 respuestas más de otros expertos

Respuesta
1
Lo mejor es que cheques la página de pdf lib, aquí está la documentación pertinente (en inglés) http://www.pdflib.com/pdflib-cookbook/pdf-import/crop-imported-pages/, esa función te permitiría abrir un archivo pdf existente, y hacerle un crop (recortar) y cuargar la parte recortada.
Muchas gracias por la respuesta, he estado mirando el programa que me indicas pero es un poco caro. ¿Conoces otra solución?
Gracias.
Lamentablemente, es la única librería que conozco, que puede abrir pdf, está es completamente gratuita (y con documentación en español), pero sólo puede crearlos, no puede abrirlos
http://www.fpdf.org/
Respuesta
1
Lo siento pero yo tampoco he encontrado ninguna solución a este problema.
En PHP se pueden crear documentos PDF, pero no leerlos para extraer sus partes. Quizás haciendo ingeniería inversa sobre esas rutinas se podría (con mucho esfuerzo porque la estructura de un PDF es complicada), pero en todo caso obtendrías los contenidos tal y como se han puesto. Pretender extraer algo de unas coordenadas concretas es todavía más complicado si cabe.
Quizás debieras intentar otro sistema. Si sabes las coordenadas exactas y puedes sacar una imagen de esa zona, un OCR podría interpretar lo escrito. Tampoco es fácil pero es una posibilidad.

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas