Eliminar tags HTML con SED (Comando Linux)
Otro manual de SED.
Eliminar tags HTML:
sed -e :a -e 's/<[^>]*>//g;/</N;//ba'
Copy&Page http://www.sromero.org/wiki/doku.php/linux:aplicaciones:uso_de_sed
Qué es sed
SED (Stream EDitor) es un editor de flujos y ficheros de forma no interactiva. Permite modificar el contenido de las diferentes líneas de un fichero en base a una serie de comandos o un fichero de comandos (-f fichero_comandos).
Sed recibe por stdin (o vía fichero) una serie de líneas para manipular, y aplica a cada una de ellas los comandos que le especifiquemos a todas ellas, a un rango de las mismas, o a las que cumplan alguna condición.
Por ejemplo:
Sustituir apariciones de cadena1 por cadena2 en todo el fichero: # cat fichero | sed 's/cadena1/cadena2/g' Sustituir apariciones de cadena1 por cadena2 en las líneas 1 a 10: # comando | sed '1,10 s/cadena1/cadena2/g' Eliminar las líneas 2 a 7 del fichero # sed '2,7 d' fichero > fichero2
Formato de uso
El formato básico de uso de sed es:
# sed [-ns] '[direccion] instruccion argumentos'
Donde:
-
[direccion] es opcional, siendo un número de línea (N), rango de números de línea (N,M) o búsqueda de regexp (/cadena/) indicando el ámbito de actuación de las instrucciones. Si no se especifica [direccion], se actúa sobre todas las líneas del flujo.
-
Instruccion puede ser:
-
i = Insertar línea antes de la línea actual.
-
a = Insertar línea después de la línea actual.
-
c = Cambiar línea actual.
-
d = Borrar línea actual.
-
p = Imprimir línea actual en stdout.
-
s = Sustituir cadena en línea actual.
-
r fichero = Añadir contenido de “fichero” a la línea actual.
-
w fichero = Escribir salida a un fichero.
-
! = Aplicar instrucción a las líneas no seleccionadas por la condición.
-
q = Finalizar procesamiento del fichero.
-
-
-n: No mostrar por stdout las líneas que están siendo procesadas.
-
-s: Tratar todos los ficheros entrantes como flujos separados.
Ejemplos de sustitución
Reemplazar cadenas: # sed 's/^Host solaris8/Host solaris9/g' fichero > fichero2 Reemplazar cadenas sólo en las lineas que contentan una cadena: # sed '/cadena_a_buscar/ s/vieja/nueva/g' fichero > fichero2 Reemplazar cadenas sólo en en determinadas líneas: # sed '5,6 s/vieja/nueva/g' fichero > fichero2 Reemplazar multiples cadenas (A o B): # sed 's/cadenasrc1\|cadenasrc2/cadena_nueva/g' Sustituir líneas completas (c) que cumplan o no un patrón: # echo -e "linea 1\nlinea 2" | sed '/1/ cPrueba' Prueba linea 2 # echo -e "linea X 1\nlinea 2" | sed '/1/ !cPrueba' linea 1 Prueba
Ejemplos de Inserción
Insertar 3 espacios en blanco al principio de cada línea: # sed 's/^/ /' fichero Añadir una línea antes o despues del final de un fichero ($=última línea): # sed -e '$i Prueba' fichero > fichero2 # sed -e '$a Prueba' fichero > fichero2 Insertar una linea en blanco detras de cada linea que cumpla una regex: # cat fichero | sed '/cadena/G' Insertar una linea en blanco antes y despuess de cada linea que cumpla una regex: # cat fichero | sed '/cadena/{x;p;x;G;}'
Ejemplos de Selección/Visualización
Ver un rango concreto de líneas de un fichero: # cat -n fich2 | sed -n '2,3 p' 2 linea 2 3 linea 3 (Con cat -n, el comando cat agrega el número de línea). (Con sed -n, no se imprime nada por pantalla, salvo 2,3p). Ver un rango concreto de líneas de varios ficheros: # sed '2,3 p' * linea 2 fichero 1 linea 3 fichero 1 linea 2 fichero 2 linea 3 fichero 2 (-s = no tratar como flujo sino como ficheros separados) Sólo mostrar la primera linea de un fichero: # sed -n '1p' fichero > fichero2.txt No mostrar la primera linea de un fichero: # sed '1d' fichero > fichero2.txt Mostrar la primera/ultima línea de un fichero: # sed -n '1p' fichero # sed -n '$p' fichero Mostrar desde una expresión regular hasta el final de fichero: # sed -n '/regexp/,$p' fichero
Ejemplos de Borrado
Eliminar un rango concreto de líneas de un fichero: # sed '2,4 d' fichero > fichero2.txt Eliminar todas las líneas de un fichero excepto un rango: # sed '2,4 !d' fichero > fichero2.txt Eliminar las líneas que contentan una cadena: # sed '/cadena/ d' fichero > fichero2.txt # sed '/^cadena/ d' fichero > fichero2.txt # sed '/^cadena$/ d' fichero > fichero2.txt Eliminar líneas en blanco (variación del anterior): # comando | sed '/^$/ d' # sed '/^$/ d' fichero > fichero2.txt Eliminar múltiples líneas en blanco consecutivas dejando sólo 1: # sed '/./,/^$/!d' fichero Añadir una línea después de cada línea: # echo -e "linea 1\nlinea 2" | sed 'aPrueba' linea 1 Prueba linea 2 Prueba Eliminar espacios al principio de línea: # sed 's/^ *//g' fichero Eliminar todos los espacios que haya al final de cada línea: # sed 's/ *$//' fichero Eliminar espacios sobrantes a principio y final de línea, o ambos: # sed 's/^[ \t]*//' fichero # sed 's/[ \t]*$//' fichero # sed 's/^[ \t]*//;s/[ \t]*$//' fichero Eliminar tags HTML: sed -e :a -e 's/<[^>]*>//g;/</N;//ba'
Uso de salida selectiva
Salir a nuestra voluntad antes de acabar el fichero: # sed -e '/uno/ s/uno/1/' -e '/salir/ q' fichero > fichero2.txt # sed 10q fichero # sed q fichero Equivalencia de -e con ";": # sed -e '/AAA/b' -e '/BBB/b' -e 'd' == sed '/AAA/b;/BBB/b;d' Usar 'q' apropiadamente reduce tiempo de procesamiento: # sed -n '10,20p' fichero # sed -n '21q;10,20p' fichero -> Más rápido que el anterior.
Related posts:

No comments
Jump to comment form | comments rss [?] | trackback uri [?]