Manhoso Posted March 30, 2006 at 07:25 PM Report #20184 Posted March 30, 2006 at 07:25 PM boas... tou a realizar um projecto cujo o objectivo é retirar o texto contido nas várias tags HTML. deparei-me com um problema...como identifico as tags?ja experimentei vários algoritmos e nada... alguem me pode dar uma ideia?
saramgsilva Posted March 30, 2006 at 07:27 PM Report #20185 Posted March 30, 2006 at 07:27 PM tv defenires 1 string tipo "<b>" e se algo for igual a isto ignora ... nao? nao sei como tas a trabalhar....podias explicar o teu projecto melhor?? :dontgetit: www.saramgsilva.com As minhas apps no WP7 Marketplace Youtube : Galinho - Windows Phone 7.5
Manhoso Posted March 30, 2006 at 07:39 PM Author Report #20187 Posted March 30, 2006 at 07:39 PM entao ca vai: - tenho um ficheiro de texto com todas as tags HTML,k acrescentei ao projecto como resource. - tencionava pegar em cada linha e ver se continha uma tag atraves do metodo Contains(String) do recurso k acrescentei...e é nessa parte k tou a patinar...é k convenhamos k declarar milhentas variaveis (ou constantes,nao interessa) á unha é um processo um tanto ou kt moroso... - depois disto feito falta pegar no texto delimitado pelas tags e po-lo num ficheiro de texto. Nota: os ficheiros a converter estao na extensao html ou htm e estarao disponiveis offline,claro!
senito Posted March 31, 2006 at 12:28 PM Report #20260 Posted March 31, 2006 at 12:28 PM Olha vê se isto te ajuda http://msdn.microsoft.com/library/default.asp?url=/library/en-us/spptsdk/html/tsucSPEncode_SV01017198.asp
Manhoso Posted March 31, 2006 at 08:58 PM Author Report #20312 Posted March 31, 2006 at 08:58 PM Olha vê se isto te ajuda http://msdn.microsoft.com/library/default.asp?url=/library/en-us/spptsdk/html/tsucSPEncode_SV01017198.asp Em principio nao.investiguei nos requirements dos diferentes metodos e diz k tenho k ter o Windows Server 2003...eu tenho só o xp sp2... ainda experimentei mas o intellisense nem me vai buscar a classe.para isso preciso do SharePoint instalado.mas tb na me servia de muito se tb é preciso o server 2003.... além do mais, ela descrição dos metodos o k faz é transformar os delimitadores de tags,aspas e plicas nos seus equivalentes e vice-versa: http://msdn.microsoft.com/library/default.asp?url=/library/en-us/spptsdk/html/tsumSPEncodeHtmlDecode_SV01017206.asp na mesma valeu a ajuda....
Manhoso Posted April 3, 2006 at 05:03 PM Author Report #20737 Posted April 3, 2006 at 05:03 PM bem...pus-me a pensar e afiinal vou fazer assim: - primeiro descarto tudo o k esta antes da tag <body; - a linha dessa tag tb é ignorada; - dump linha-a-linha do fich de origem para um outro temporario; - ao atingir a tag </body> ignora tudo o k está para além dela incluindo a respectiva linha. mas depois fico com as outras tags,certo? daí uma segunda passagem desta feita pelo ficheiro temporario e escrita final no ficheiro de destino em k todas as tags sao ignoradas (esta parte nao vai ser agradavel... ?) k pensam desta? 😛 se me estiver a esqucer de alguma coisa (mais precisamente relativa a scripts), nao se acanhem: pm, msn, rpd ao topico ou email.estejam a vontade!!! 🙂
Knitter Posted May 20, 2006 at 08:07 PM Report #28553 Posted May 20, 2006 at 08:07 PM Só agora vejo o teu tópico, sou utilizador novo, e por isso acho que já deves ter resolvido o teu problema, mas caso ainda queiras ver outras solucões, podes ver o programa P4Tex que está disponivel para download na minha pagina, em http://www.student.estg.ipleiria.pt/~ei10635. O prog está em java mas deve ajudar, nele efectuo o parsing de ficheiros com tags, explora um pouco e podes verificar como é feito o loading e a leitura das tags.
SoulOnFire Posted May 24, 2006 at 01:09 PM Report #29299 Posted May 24, 2006 at 01:09 PM Boas! Não sei se ja resolveste o teu problema... ? Mas eu criei uma simples função que faz exactamente akilo que queres 😁 ... ate agora tem funcionado a 100% mas claro k pode ter erros e falhas!! 'Função para remover tags html, elaborada por Miguel Duarte Public Function RemoverTags(ByVal Texto As String) Dim re As New System.Text.RegularExpressions.Regex("<[a-zA-Z\/\!][^>]*>", RegexOptions.IgnoreCase + RegexOptions.IgnorePatternWhitespace) RemoverTags = re.Replace(Texto, "") End Function Espero que seja util para quem necessitar Fikem Bem SoulOnFire Fikem Bem!!!Miguel Duarte - (SoulOnFire)O meu BLOG - XAML E WPF - http://wpfpt.wordpress.com/
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now