Jump to content
PauloPereira17

Retirar tags de um ficheiro HTML

Recommended Posts

PauloPereira17

Boa tarde,

Gostaria que me pudessem orientar aqui num problema...

Imaginem que é carregado um ficheiro HTML e supostamente o ficheiro sera do tipo:

<html>
	   <head>
				 <title>exemplo</title>
	   </head>
	   <body>
				 <p>Ola<br>Estamos no portugal a programar <br><br>Tudo bom?<br></p>

	   </body>
</html>

Alguém faz ideia de como eu consigo obter o ficheiro sem as tags

ou seja, obter o ficheiro como esta no output da pagina html...

Obrigado!!!

Edited by Rui Carlos
GeSHi

Share this post


Link to post
Share on other sites
saca-rolhas

imagina o ficheiro inserido numa Lista de String onde cada elemento dessa lista seja uma linha

   static LinkedList<String> clearTags(LinkedList<String> list) {
    LinkedList<String> cleanList = new LinkedList<String>();
    for (int i = 0; i < list.size(); i++) {
	    boolean tag = false;
	    String cleanLine = "";
	    for (int j = 0; j < list.get(i).length(); j++) {
		    if (list.get(i).charAt(j) == '<') {
			    tag = true;
		    }
		    if (!tag) {
			    cleanLine += list.get(i).charAt(j);
		    } else {
			    if (list.get(i).charAt(j) == '>') {
				    tag = false;
			    }
		    }
	    }
	    cleanList.add(cleanLine);
    }
    return cleanList;
   }

código rudimentar, mas faz o que pretendes

Modo de preparação:

String html = "<html>\n"
		    + "   <head>\n"
		    + "<title>exemplo</title>\n"
		    + "   </head>\n"
		    + "   <body>\n"
		    + "<p>Ola<br>Estamos no portugal a programar <br><br>Tudo bom?<br></p>\n"
		    + "		    \n"
		    + "   </body>\n"
		    + "</html>";

    LinkedList<String> htmlLines = new LinkedList<String>(Arrays.asList(html.split("\n")));

    htmlLines = clearTags(htmlLines);


The worst part of censorship is ****

Share this post


Link to post
Share on other sites
PauloPereira17

Muito obrigado xD

Ès o maior ahaha

Percebi muito bem o teu código, mas vou ter qu e o retocar porque é para fazer um trabalho para a faculdade e nao pode ser um trabalho muito elabrado... (Caloiro :cheesygrin: )

Obrigado mais uma vez

Share this post


Link to post
Share on other sites
HappyHippyHippo

   static LinkedList<String> clearTags(LinkedList<String> list) {
       LinkedList<String> cleanList = new LinkedList<String>();
       for (int i = 0; i < list.size(); i++) {
           boolean tag = false;
           String cleanLine = "";
           for (int j = 0; j < list.get(i).length(); j++) {
               if (list.get(i).charAt(j) == '<') {
                   tag = true;
               }
               if (!tag) {
                   cleanLine += list.get(i).charAt(j);
               } else {
                   if (list.get(i).charAt(j) == '>') {
                       tag = false;
                   }
               }
           }
           cleanList.add(cleanLine);
       }
       return cleanList;
   }

"xiiiii, que granda volta ... "

String html = "...";
String stripped_html = html.replaceAll("<.+?>", "");

prontos ... feito


IRC : sim, é algo que ainda existe >> #p@p

Share this post


Link to post
Share on other sites
saca-rolhas

"xiiiii, que granda volta ... "

String html = "...";
String stripped_html = html.replaceAll("<.+?>", "");

prontos ... feito

Como disse rudimentar... sabia que havia uma alternativa melhor não me lembrava qual

Edited by saca-rolhas

The worst part of censorship is ****

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

×
×
  • Create New...

Important Information

By using this site you accept our Terms of Use and Privacy Policy. We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.