Píldora: Cómo buscar un texto dentro de documentos múltiples ODT de Libreoffice/Openoffice o docx de Microsoft Word

30 abril, 2018 Author: Gaspar Fernández

Cuántas veces has recordado haber escrito un documento y no recuerdas dónde lo pusiste. Tienes cientos de archivos de documentos en tu disco duro, o en un servidor y no sabes por dónde empezar a buscar. Con ficheros de texto, podemos utilizar find, grep, egrep, sed y algunos comandos más que, combinados podrán darnos los resultados que buscamos. Aunque los archivos de documentos son algo más complejos internamente.

Tabla de contenidos

1 Ficheros de documentos
2 Documentos de LibreOffice/OpenOffice
3 Documentos de Microsoft Word
4 Mejorar la búsqueda
5 Creando el script completo
6 También podría interesarte....

Ficheros de documentos

Tanto los ficheros de OpenOffice/LibreOffice como los documentos de Microsoft Word Open XML (esos archivos docx que se crean a partir de Microsoft Office 2007. En este post no podremos buscar documentos generados con versiones más antiguas del programa) son en realidad archivos ZIP con muchos archivos XML en su interior en los que se definen contenido, estilos y metadatos. Para los archivos odt, de LibreOffice y OpenOffice, el archivos que contiene los contenidos del documento es content.xml y en Microsoft Word, el archivo está situado en word/document.xml, así que, vamos a intentar, buscar todos los archivos de documentos que haya en una ruta del disco y examinar su contenido para buscar las palabras que necesitamos encontrar. Para ello tendremos que descomprimir el documento y extraer el archivo del documento. Todo de forma automática.

Es cierto que actualmente tenemos programas de búsqueda en escritorio, que examinan periódicamente archivos en varios formatos, procesan dicha información y agilizan la muestra de resultados. Aunque en muchos casos, para acelerar el uso normal del ordenador, muchos los solemos tener desactivados. O, por ejemplo, si tienes los contenidos en un ordenador remoto, una Raspberry PI, o un VPS, puede resultar un poco más complicado hacer dichas búsquedas.

Afortunadamente GNU/Linux nos proporciona herramientas muy buenas para realizar nuestras tareas. Primero ejecutaremos find para obtener todos los archivos de documento a partir de la ruta actual. Aunque podríamos utilizar find con otros parámetros o incluso utilizar locate. Para ello, podemos utilizar estos scripts de una línea, también llamados one-liners.

Documentos de LibreOffice/OpenOffice

Empezaremos con los documentos odt de LibreOffice u OpenOffice. Para ello extraeremos el archivo word/document.xml del archivo de documento y a partir de ahí realizaremos una búsqueda.

find -name ‘*.odt’ | while read file; do unzip -p «$file» «content.xml» | grep -li «TEXTO A BUSCAR» > /dev/null; if [ $? -eq 0 ]; then echo $file; fi; done

De esta forma, find, va pasando archivos odt al resto de la línea. Podríamos hacer fácilmente que no sean todos los archivos, si nos acordamos de parte del nombre podríamos hacer ‘*informe*.odt’ para seleccionar todos los docuentos que contentan la palabra informe y tengan extensión odt; o incluso utilizar -iname en lugar de -name para indicar que busque nombres de archivo en mayúsculas y minúsculas indistintamente. También, con find podríamos seleccionar incluso los archivos por tamaño o por fecha.

En lugar de find -name ‘*.odt’ podríamos utilizar locate ‘*.odt’ para buscar en todo el disco, o en un patrón de directorios determinado. La ventaja de locate es su gran velocidad, aunque primero tendremos que crear una base de datos de archivos del disco (con updatedb) y eso puede tardar un poco.

Una vez tenemos los nombres de archivo que cumplen el patrón, cogemos cada nombre de archivo y ejecutamos unzip -p [archivo] content.xml. La opción -p sirve para extraer el contenido de los archivos directamente a la salida estándar de la aplicación. Si ejecutamos este comando individualmente, veríamos todos los contenidos del fichero en pantalla, vamos, extrae todo a pantalla, en lugar de crear un archivo llamado content.xml. La ventaja de esto es que no necesitamos archivos temporales y todo es mucho más rápido.

La salida de unzip, es decir, el contenido del fichero comprimido, se lo pasamos a grep. En este caso, grep -li «TEXTO» > /dev/null. Con -l, hacemos que grep muestre solo los nombres de archivo donde exista coincidencia, así sólo es necesario que el texto se encuentre una vez en el archivo para que grep finalice la ejecución y devuelva un positivo. Lo malo es que si el texto no está en el archivo tendrá que analizarlo completamente. El argumento -i hace que no importen las mayúsculas y minúsculas, por lo que, aunque en el documento encontremos «CaCaHueTe», podremos decir que grep busque «cacahuete» y lo va a encontrar sin problema. Por último, la salida de grep la redirigimos a /dev/null para que realmente no muestre nada en pantalla. ¿Por qué?

Lo que en realidad analizaremos de grep será el estado de salida del programa. Es decir, internamente, si grep acaba y el archivo que ha analizado contiene el texto que buscamos, devolverá un 0 (normalmente, cuando un programa finaliza bien devuelve un 0 y cuando no, devuelve otra cosa). Entonces, sólo si grep devuelve 0 mostraremos el nombre del archivo en pantalla. Para eso if [ $? -eq 0 ]; then echo $file; fi;.

Documentos de Microsoft Word

Para hacer lo mismo con los documentos de Microsoft Word debemos cambiar el archivo que analizamos. En este caso, analizaremos word/document.xml. Y mantendremos todo el comando igual:

find -name ‘*.docx’ | while read file; do unzip -p «$file» «word/document.xml» | grep -li «TEXTO A BUSCAR» > /dev/null; if [ $? -eq 0 ]; then echo $file; fi; done

Mejorar la búsqueda

Los ficheros que estamos analizando, en realidad son XML, por lo que, junto con el contenido encontramos algunos datos que nos indicarán estilos, objetos empotrados, notas, y demás cosas. Todo esto puede hacer que cuando busquemos algún contenido concreto no lo encontremos. Para mejorar la búsqueda, aunque penalizaremos un poco el tiempo que tardará el script, sobre todo en archivos muy grandes. La clave está en eliminar las etiquetas XML que encontramos en el archivo de contenidos. Un claro ejemplo, podemos verlo si analizamos un fichero HTML. Cuando vemos:

Hola Mundo

En realidad, el código utilizado para el texto es este:

1	<strong>Ho</strong>la Mun<strong>do</strong>

Y si realizamos una búsqueda en texto con grep, por ejemplo, buscando la palabra «Hola». Grep no encontrará nada. Así que, pasaremos el texto por un filtro que eliminará estas etiquetas, con sed. Uno de los usos de este comando es reemplazar cadenas a través de expresiones regulares, pero aunque suene complicado, os la voy a dar preparada. Para ver un ejemplo rápido, vamos a hacer lo siguiente:

echo «Hola Mundo» | grep -i hola

Esto no devolverá nada, porque, como hemos dicho antes, no vamos a encontrar nada en la cadena anterior. Pero,

echo «Hola Mundo» | sed -e ‘s/<[^>]*>//g’ | grep -i hola

Hola Mundo

El segundo ejemplo sí que devuelve el contenido. El objetivo es sustituir globalmente (s/búsqueda/reemplazo/g) cualquier texto que esté entre < y > (<[^>]*< por un texto en blanco.

Creando el script completo

En definitiva, para buscar archivos de LibreOffice / OpenOffice, esos con extensión ODT:

find -name ‘*.odt’ | while read file; do unzip -p «$file» «content.xml» | sed -e ‘s/<[^>]*>//g’ | grep -li «TEXTO A BUSCAR» > /dev/null; if [ $? -eq 0 ]; then echo $file; fi; done

Y para buscar archivos Office Open XML de Microsoft Word, esos con extensión DOCX:

find -name ‘*.docx’ | while read file; do unzip -p «$file» «word/document.xml» | sed -e ‘s/<[^>]*>//g’ | grep -li «TEXTO A BUSCAR» > /dev/null; if [ $? -eq 0 ]; then echo $file; fi; done

Foto principal: Dmitry Ratushny

También podría interesarte....

Tags : análisis , busqueda , contenidos , documentos , docx , extensiones , ficheros , find , gnu , grep , libreoffice , Linux , locate , Microsoft , nombres , odt , opendocument , openoffice , openxml , sed , texto , unzip , word , xml

URL for this post : https://poesiabinaria.net/2018/04/pildora-buscar-texto-dentro-documentos-multiples-odt-libreofficeopenoffice-docx-microsoft-word/

There are 40 comments left Ir a comentario

nascii / 30 abril, 2018 at 17:02
Usando Mozilla Firefox 59.0 en Fedora Linux
muy interesante, justo ayer por culpa de un libro que ponia el codigo fuente de los ejercicios en .doc me vi en la necesidad de «buscar soluciones» para pasalos directamente a texto sin abrir monstruosos procesadores de texto
una de las solucienos fue catdoc (de .doc a txt) y otra fue utilizar libreoffice
libreoffice –headless –convert-to «txt:Text (encoded):UTF8» *.doc
que puede convertir a otras cosas, directamente desde CLI
(pd: creo que en los ultimos ejemplos de terminal, el wordpress (supongo) se esta comiendo unos caracteres de la expresion)
Reply
1. Gaspar Fernández / Post Author30 abril, 2018 at 17:36
  Usando Mozilla Firefox 59.0 en Ubuntu Linux
  Gracias por tu comentario!!
  libreoffice -headless también está muy bien para convertir a texto, incluso soporta el argumento –cat [documento.doc] que te permite mostrar el texto directamente en el terminal, y ya puedes analizarlo sin fichero temporal ni nada. Además, el headless mode tiene muchas opciones, puede quedarse en modo escucha y le puedes «pedir cosas» por socket. 🙂
  Estudiaré lo de los ejemplos del terminal. Ahora mismo lo veo bien, pero puede ser cosa del navegador o de la carga del script… lo mismo hace falta una nueva actualización del plugin 🙂
  Un abrazo!
  Reply
2. Wopi / 14 marzo, 2024 at 14:52
  Usando Google Chrome 122.0.0.0 en Windows NT
  Excelente Nasci. Mira todo lo que puedes encontrar acá https://vendors.mikolo.com/forums/discussion/introductions/entrenimiento-asegurado
  Reply
Oscar / 2 mayo, 2018 at 0:32
Usando Mozilla Firefox 59.0 en Fedora Linux
Hola.
No entiendo el significado de la expresión regular «]*>» . En principio, lo que busca esto es el caracter «]» repetido 0 o más veces hasta llegar a un «>». ¿Qué sentido tiene esto para encontrar cosas del tipo «». ¿No sería más conveniente, por ejemplo, algo así como «» o más elaborado?
Gracias
Reply
1. Oscar / 2 mayo, 2018 at 0:33
  Usando Mozilla Firefox 59.0 en Fedora Linux
  Bueno, en el comentario se me han comido los caracteres . Quería decir que si no sería mejor hacer una expresión regular similar a «»
  Reply
  1. Oscar / 2 mayo, 2018 at 0:34
    Usando Mozilla Firefox 59.0 en Fedora Linux
    Y dale, se me ha comido otra vez. Bueno, desisto
    Reply
    1. Gaspar Fernández / Post Author2 mayo, 2018 at 2:56
      Usando Mozilla Firefox 59.0 en Ubuntu Linux
      Hola Oscar. La expresión regular de hecho no ha salido bien. Parece que WordPress se ha comido un trozo. Llevaba razón @nascii en el comentario anterior. Voy a arreglarlo ahora.
      Reply
    2. Gaspar Fernández / Post Author2 mayo, 2018 at 2:59
      Usando Mozilla Firefox 59.0 en Ubuntu Linux
      La expresión es ‘s/<[^>]*>//g el objetivo es que encuentre un < y luego recorra todos los caracteres mientras no sean > y luego encuentre otro > Así puede encerrar la etiqueta XML y nos la podemos cargar a gusto.
      Un saludo!
      Reply
토토사이트 / 14 octubre, 2023 at 5:20
Usando Google Chrome 118.0.0.0 en Windows NT
Excellent works. Continue to write such information on your blog.Your blog left a deep impression on me. I am sure they will benefit from this website.토토사이트
Reply
plaster repair / 20 octubre, 2023 at 4:01
Usando Google Chrome 118.0.0.0 en Windows NT
The program will highlight all instances of that text in the open documents.
Reply
토토사이트 / 30 noviembre, 2023 at 2:32
Usando Google Chrome 119.0.0.0 en Windows NT
Every weekend i used to visit this web page, for the reason that i wish for enjoyment, since this this website conations truly nice funny stuff too.토토사이트
Reply
jsimitseo / 20 diciembre, 2023 at 12:44
Usando Google Chrome 120.0.0.0 en Windows NT
The sheer size and selection of these web slots are mind-blowing. Great job. สล็อตเว็บใหญ่
Reply
WilliamSEO / 25 diciembre, 2023 at 11:15
Usando Google Chrome 120.0.0.0 en Windows NT
A commitment of thankfulness is all together for such a remarkable post and the audit, I am completely moved! Keep stuff like this coming. daftar pasar123
Reply
WilliamSEO / 26 diciembre, 2023 at 11:09
Usando Google Chrome 120.0.0.0 en Windows NT
It has completely risen to crown Singapore’s southern shores and without a doubt set her on the worldwide guide of private historic points. Regardless I scored the a bigger number of focuses than I ever have in a season for GS. I figure you would be unable to discover someone with a similar consistency I have had throughout the years so I am content with that. 먹튀검증
Reply
jsimitseo / 28 diciembre, 2023 at 19:33
Usando Google Chrome 120.0.0.0 en Windows NT
Users should share their experiences with slots breaking easily to raise awareness. เว็บสล็อต
Reply
jsimitseo / 31 diciembre, 2023 at 13:21
Usando Google Chrome 120.0.0.0 en Windows NT
Incredible data! I as of late went over your blog and have been perusing along. I figured I would leave my first remark. I don’t recognize what to state with the exception of that I have. แหล่งรวมสล็อตทุกค่าย
Reply
jsimitseo / 10 enero, 2024 at 8:30
Usando Google Chrome 120.0.0.0 en Windows NT
I utilize just astounding materials – you can see them at: เว็บสล็อตโรม่า
Reply
jsimitseo / 10 enero, 2024 at 14:54
Usando Google Chrome 120.0.0.0 en Windows NT
Exceptionally fascinating data, worth suggesting. Be that as it may, I suggest this: เกมป๊อกเด้งออนไลน์
Reply
jsimitseo / 13 enero, 2024 at 9:15
Usando Google Chrome 120.0.0.0 en Windows NT
I have a comparable intrigue this is my page read everything deliberately and let me comprehend what you think. 블로그
Reply
Angel17 / 19 enero, 2024 at 8:58
Usando Google Chrome 120.0.0.0 en Windows NT
Cool. Thanks for sharing this.
house cleaning services in marietta ga
Reply
curved drywall / 24 enero, 2024 at 2:27
Usando Google Chrome 120.0.0.0 en Windows NT
This provides a practical solution for searching text within multiple LibreOffice/OpenOffice ODT documents or Microsoft Word DOCX files.
Reply
Mark Wright Fool Me Once Premier Coat / 26 enero, 2024 at 9:37
Usando Google Chrome 120.0.0.0 en Windows NT
Thank you for posting such a great article! I found your website perfect for my needs. It contains wonderful and helpful posts. Keep up the good work!. Thank you for this wonderful Article!
Reply
ghori92 / 4 febrero, 2024 at 10:28
Usando Google Chrome 121.0.0.0 en Windows NT
That you’re allowed to place leaders, however is not one way links, except when they’re just authorised together with regarding niche. транспорт на кола от германия цена
Reply
yitzchak kerrigan / 5 febrero, 2024 at 12:44
Usando Google Chrome 121.0.0.0 en Windows NT
it is good as well as meanful. it is awesome weblog. Connecting is extremely helpful point. you’ve truly assisted many individuals that go to weblog and supply all of them usefull info. 상품권 매입
Reply
jsimitseo / 5 febrero, 2024 at 19:10
Usando Google Chrome 121.0.0.0 en Windows NT
Good subject, comparative writings are I don’t know whether they are on a par with your work out. concierge doctor
Reply
Rank Xone / 9 febrero, 2024 at 11:41
Usando Google Chrome 121.0.0.0 en Windows NT
The allure of online casinos is not just about winning money; it’s also about the social aspect. Connecting with players from around the world adds another layer of fun. 프리카지노
Reply
WilliamSEO / 17 febrero, 2024 at 16:00
Usando Google Chrome 121.0.0.0 en Windows NT
The best article I ran over various years, compose something about it on this page. จำนำรถจอด
Reply
Rank Xone / 6 marzo, 2024 at 16:12
Usando Google Chrome 122.0.0.0 en Windows NT
Raising the stakes at the casino – it’s a thrilling experience every time. 로즈카지노 쿠폰
Reply
Rank Xone / 9 marzo, 2024 at 15:27
Usando Google Chrome 122.0.0.0 en Windows NT
Local SEO services help businesses capitalize on «near me» searches, which have become increasingly popular among mobile users. local seo agency
Reply
Rank Xone / 11 marzo, 2024 at 17:29
Usando Google Chrome 122.0.0.0 en Windows NT
Great info! I recently came across your blog and have been reading along. I thought I would leave my first comment. I don’t know what to say except that I have. รับจำนำรถ
Reply
Rank Xone / 21 marzo, 2024 at 17:46
Usando Google Chrome 123.0.0.0 en Windows NT
Hallo guys, selamat datang di situs OKEPLAY777, pernahkah anda mendengar atau sudah bermain disini ?, Mari kita bahas sedikit tentang kelebihan situs slot online ini, sebagai situs slot gacor hari ini yang menggunakan slot server thailand terbaru gampang menang dengan winrate tertinggi di bandingkan situs lain, bermain di OKEPLAY777 memiliki experience yang berbeda pada saat mendapatkan kemenangan sensasional hanya dengan modal deposit slot dana Rp.15,000 dan menang berapapun di bayar tanpa potongan.
Reply
rayed shah / 2 abril, 2024 at 0:36
Usando Google Chrome 123.0.0.0 en Windows NT
Champagne Roses (David Austin) When i understand this post. I’m sure People fit many attempt to build this post. When i get pleasure from your job.
Reply
Rank Xone / 5 abril, 2024 at 12:24
Usando Google Chrome 123.0.0.0 en Windows NT
Our team of experts will provide you with the most considerate and professional services. assignment代写
Reply
Rank Xone / 6 abril, 2024 at 16:40
Usando Google Chrome 123.0.0.0 en Windows NT
Have you ever felt helpless about finding the right writing help? Now, imagine having a team of professional writing professionals across all disciplines who not only understand your unique needs but can provide a tailor-made service. 北美代写
Reply
Rank Xone / 6 abril, 2024 at 17:09
Usando Google Chrome 123.0.0.0 en Windows NT
Dive into the world of online gambling with Woori Casino’s diverse offerings. 입니다
Reply
Rank Xone / 11 abril, 2024 at 20:44
Usando Google Chrome 123.0.0.0 en Windows NT
Benefits of AI in SEO: Highlight the advantages of using AI-powered SEO strategies, such as enhanced targeting, improved analytics, and increased efficiency. https://aiseoconsultancy.com
Reply
Rank Xone / 15 abril, 2024 at 7:00
Usando Google Chrome 123.0.0.0 en Windows NT
Early slot machines were mechanical devices with limited symbols and paylines, but today’s machines are powered by sophisticated computer software. slot machines
Reply
Rank Xone / 15 abril, 2024 at 7:19
Usando Google Chrome 123.0.0.0 en Windows NT
However, it’s essential to use caution when relying on software and analytics tools, as they are only as good as the data and algorithms that power them. sports betting systems
Reply
Ufaauto789x / 18 abril, 2024 at 0:24
Usando Google Chrome 123.0.0.0 en Windows NT
ufa789 เว็บแทงบอลที่ใหญ่ และการเงินมั่นคงที่สุด สล็อตออนไลน์ ไม่มีขั้นต่ำ ใช้ทุนน้อย เล่นได้ทุกเกม
Reply
Ufaauto789x / 18 abril, 2024 at 1:24
Usando Google Chrome 123.0.0.0 en Windows NT
ทางเข้า ufa789 ผู้ให้บริการสปอร์ตออนไลน์ และคาสิโนเต็มรูปแบบ เล่นเพลินเกินห้ามใจ ทำกำไรได้ทุกวัน
Reply