• Revista PROGRAMAR: Já está disponível a edição #53 da revista programar. Faz já o download aqui!

Manhoso

[vb.net2005]HTMLpraTXT

8 mensagens neste tópico

boas...

tou a realizar um projecto cujo o objectivo é retirar o texto contido nas várias tags HTML.

deparei-me com um problema...como identifico as tags?ja experimentei vários algoritmos e nada...:wallbash:

alguem me pode dar uma ideia?

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

tv defenires 1 string tipo "<b>"  e se algo for igual a isto ignora ... nao? nao sei como tas a trabalhar....podias explicar o teu projecto melhor??  :dontgetit:

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

entao ca vai:

- tenho um ficheiro de texto com todas as tags HTML,k acrescentei ao projecto como resource.

- tencionava pegar em cada linha e ver se continha uma tag atraves do metodo Contains(String) do recurso k acrescentei...e é nessa parte k tou a patinar...é k convenhamos k declarar milhentas variaveis (ou constantes,nao interessa) á unha é um processo um tanto ou kt moroso...

- depois disto feito falta pegar no texto delimitado pelas tags e po-lo num ficheiro de texto.

Nota: os ficheiros a converter estao na extensao html ou htm e estarao disponiveis offline,claro!

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Em principio nao.investiguei nos requirements dos diferentes metodos e diz k tenho k ter o Windows Server 2003...eu tenho só o xp sp2...

ainda experimentei mas o intellisense nem me vai buscar a classe.para isso preciso do SharePoint instalado.mas tb na me servia de muito se tb é preciso o server 2003....

além do mais, ela descrição dos metodos o k faz é transformar os delimitadores de tags,aspas e plicas nos seus equivalentes e vice-versa:

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/spptsdk/html/tsumSPEncodeHtmlDecode_SV01017206.asp

na mesma valeu a ajuda....

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

bem...pus-me a pensar e afiinal vou fazer assim:

- primeiro descarto tudo o k esta antes da tag <body;

- a linha dessa tag tb é ignorada;

- dump linha-a-linha do fich de origem para um outro temporario;

- ao atingir a tag </body> ignora tudo o k está para além dela incluindo a respectiva linha.

mas depois fico com as outras tags,certo?

daí uma segunda passagem desta feita pelo ficheiro temporario e escrita final no ficheiro de destino em k todas as tags sao ignoradas (esta parte nao vai ser agradavel... :hmm:)

k pensam desta? :P

se me estiver a esqucer de alguma coisa (mais precisamente relativa a scripts), nao se acanhem: pm, msn, rpd ao topico ou email.estejam a vontade!!! :)

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Só agora vejo o teu tópico, sou utilizador novo, e por isso acho que já deves ter resolvido o teu problema, mas caso ainda queiras ver outras solucões, podes ver o programa P4Tex que está disponivel para download na minha pagina, em http://www.student.estg.ipleiria.pt/~ei10635. O prog está em java mas deve ajudar, nele efectuo o parsing de ficheiros com tags, explora um pouco e podes verificar como é feito o loading e a leitura das tags.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Boas!

Não sei se ja resolveste o teu problema... :hmm:

Mas eu criei uma simples função que faz exactamente akilo que queres  :cheesygrin:

... ate agora tem funcionado a 100% mas claro k pode ter erros e falhas!! :wallbash:

    'Função para remover tags html, elaborada por Miguel Duarte
    Public Function RemoverTags(ByVal Texto As String)
        Dim re As New System.Text.RegularExpressions.Regex("<[a-zA-Z\/\!][^>]*>", RegexOptions.IgnoreCase + RegexOptions.IgnorePatternWhitespace)
        RemoverTags = re.Replace(Texto, "")
    End Function

Espero que seja util para quem necessitar

Fikem Bem

SoulOnFire

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!


Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.


Entrar Agora