Hi.
Another way to remove html tags in PB 2019 R3 and versions with updated rte control. You can place an rte control to your window. Then you can load your html and save it as txt.
rte_sample.InsertDocument (".\SRI HTML2.html", true, FileTypeHTML!)
rte_sample.savedocument(".\SRI HTML2.txt", FileTypeText!)
That way you have your text. Here is the result of the first one:
Inicio
Desconectado
Inicio home home
Autorizacion de Documentos
Busqueda de Contribuyentes/ Informacion del Contribuyente
Informacion del Contribuyente
Fecha : 07-06-2022
Razon Social:
LARA XXX XXXXX XXXXXO
RUC:
0xxxxxxxxxxx1
Nombre Comercial:
Estado del Contribuyente en el RUC
Activo
Clase de Contribuyente
Otro
Tipo de Contribuyente
Persona Natural
Obligado a llevar Contabilidad
NO
Actividad Economica Principal
REPARACIi?½N Y MANTENIMIENTO DE: COMPUTADORAS DE ESCRITORIO, COMPUTADORAS PORTi?½TILES, SERVIDORES INFORMi?½TICOS, COMPUTADORAS DE MANO (ASISTENTES DIGITALES PERSONALES), UNIDADES DE DISCO MAGNi?½TICO, UNIDADES DE MEMORIA USB Y OTROS DISPOSITIVOS DE ALMACENAMIENTO; UNIDADES DE DISCO i?½PTICO (CD-RW, CD-ROM, D
Fecha de inicio de actividades
08-12-2016
Fecha de cese de actividades
31-10-2017
Fecha reinicio de actividades
24-03-2022
Fecha actualizacion
24-03-2022
Categoria Mi PYMES
No declarado
Establecimientos registrados
Regresar
Now you can study the output to write your custom import procedure to your datawindow. To do that you should use more than one html files as samples. May not work in older pb versions.
Andreas.
FWIW: There are lots of utilities that can do this HTML => TEXT. Just Google around Mario.