Jump to content
Sign in to follow this  
Manhoso

[vb.net2005]HTMLpraTXT

Recommended Posts

Manhoso

boas...

tou a realizar um projecto cujo o objectivo é retirar o texto contido nas várias tags HTML.

deparei-me com um problema...como identifico as tags?ja experimentei vários algoritmos e nada...:wallbash:

alguem me pode dar uma ideia?

Share this post


Link to post
Share on other sites
Manhoso

entao ca vai:

- tenho um ficheiro de texto com todas as tags HTML,k acrescentei ao projecto como resource.

- tencionava pegar em cada linha e ver se continha uma tag atraves do metodo Contains(String) do recurso k acrescentei...e é nessa parte k tou a patinar...é k convenhamos k declarar milhentas variaveis (ou constantes,nao interessa) á unha é um processo um tanto ou kt moroso...

- depois disto feito falta pegar no texto delimitado pelas tags e po-lo num ficheiro de texto.

Nota: os ficheiros a converter estao na extensao html ou htm e estarao disponiveis offline,claro!

Share this post


Link to post
Share on other sites
Manhoso

Em principio nao.investiguei nos requirements dos diferentes metodos e diz k tenho k ter o Windows Server 2003...eu tenho só o xp sp2...

ainda experimentei mas o intellisense nem me vai buscar a classe.para isso preciso do SharePoint instalado.mas tb na me servia de muito se tb é preciso o server 2003....

além do mais, ela descrição dos metodos o k faz é transformar os delimitadores de tags,aspas e plicas nos seus equivalentes e vice-versa:

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/spptsdk/html/tsumSPEncodeHtmlDecode_SV01017206.asp

na mesma valeu a ajuda....

Share this post


Link to post
Share on other sites
Manhoso

bem...pus-me a pensar e afiinal vou fazer assim:

- primeiro descarto tudo o k esta antes da tag <body;

- a linha dessa tag tb é ignorada;

- dump linha-a-linha do fich de origem para um outro temporario;

- ao atingir a tag </body> ignora tudo o k está para além dela incluindo a respectiva linha.

mas depois fico com as outras tags,certo?

daí uma segunda passagem desta feita pelo ficheiro temporario e escrita final no ficheiro de destino em k todas as tags sao ignoradas (esta parte nao vai ser agradavel... 🤔)

k pensam desta? :P

se me estiver a esqucer de alguma coisa (mais precisamente relativa a scripts), nao se acanhem: pm, msn, rpd ao topico ou email.estejam a vontade!!! :)

Share this post


Link to post
Share on other sites
Knitter

Só agora vejo o teu tópico, sou utilizador novo, e por isso acho que já deves ter resolvido o teu problema, mas caso ainda queiras ver outras solucões, podes ver o programa P4Tex que está disponivel para download na minha pagina, em http://www.student.estg.ipleiria.pt/~ei10635. O prog está em java mas deve ajudar, nele efectuo o parsing de ficheiros com tags, explora um pouco e podes verificar como é feito o loading e a leitura das tags.

Share this post


Link to post
Share on other sites
SoulOnFire

Boas!

Não sei se ja resolveste o teu problema... 🤔

Mas eu criei uma simples função que faz exactamente akilo que queres  :cheesygrin:

... ate agora tem funcionado a 100% mas claro k pode ter erros e falhas!! :wallbash:

    'Função para remover tags html, elaborada por Miguel Duarte
    Public Function RemoverTags(ByVal Texto As String)
        Dim re As New System.Text.RegularExpressions.Regex("<[a-zA-Z\/\!][^>]*>", RegexOptions.IgnoreCase + RegexOptions.IgnorePatternWhitespace)
        RemoverTags = re.Replace(Texto, "")
    End Function

Espero que seja util para quem necessitar

Fikem Bem

SoulOnFire


Fikem Bem!!!Miguel Duarte - (SoulOnFire)O meu BLOG - XAML E WPF - http://wpfpt.wordpress.com/

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

×
×
  • Create New...

Important Information

By using this site you accept our Terms of Use and Privacy Policy. We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.