Jump to content

Retirar tags de um ficheiro HTML


PauloPereira17
 Share

Recommended Posts

Boa tarde,

Gostaria que me pudessem orientar aqui num problema...

Imaginem que é carregado um ficheiro HTML e supostamente o ficheiro sera do tipo:

<html>
	   <head>
				 <title>exemplo</title>
	   </head>
	   <body>
				 <p>Ola<br>Estamos no portugal a programar <br><br>Tudo bom?<br></p>

	   </body>
</html>

Alguém faz ideia de como eu consigo obter o ficheiro sem as tags

ou seja, obter o ficheiro como esta no output da pagina html...

Obrigado!!!

Link to comment
Share on other sites

imagina o ficheiro inserido numa Lista de String onde cada elemento dessa lista seja uma linha

   static LinkedList<String> clearTags(LinkedList<String> list) {
    LinkedList<String> cleanList = new LinkedList<String>();
    for (int i = 0; i < list.size(); i++) {
	    boolean tag = false;
	    String cleanLine = "";
	    for (int j = 0; j < list.get(i).length(); j++) {
		    if (list.get(i).charAt(j) == '<') {
			    tag = true;
		    }
		    if (!tag) {
			    cleanLine += list.get(i).charAt(j);
		    } else {
			    if (list.get(i).charAt(j) == '>') {
				    tag = false;
			    }
		    }
	    }
	    cleanList.add(cleanLine);
    }
    return cleanList;
   }

código rudimentar, mas faz o que pretendes

Modo de preparação:

String html = "<html>\n"
		    + "   <head>\n"
		    + "<title>exemplo</title>\n"
		    + "   </head>\n"
		    + "   <body>\n"
		    + "<p>Ola<br>Estamos no portugal a programar <br><br>Tudo bom?<br></p>\n"
		    + "		    \n"
		    + "   </body>\n"
		    + "</html>";

    LinkedList<String> htmlLines = new LinkedList<String>(Arrays.asList(html.split("\n")));

    htmlLines = clearTags(htmlLines);

The worst part of censorship is ****

Link to comment
Share on other sites

   static LinkedList<String> clearTags(LinkedList<String> list) {
       LinkedList<String> cleanList = new LinkedList<String>();
       for (int i = 0; i < list.size(); i++) {
           boolean tag = false;
           String cleanLine = "";
           for (int j = 0; j < list.get(i).length(); j++) {
               if (list.get(i).charAt(j) == '<') {
                   tag = true;
               }
               if (!tag) {
                   cleanLine += list.get(i).charAt(j);
               } else {
                   if (list.get(i).charAt(j) == '>') {
                       tag = false;
                   }
               }
           }
           cleanList.add(cleanLine);
       }
       return cleanList;
   }

"xiiiii, que granda volta ... "

String html = "...";
String stripped_html = html.replaceAll("<.+?>", "");

prontos ... feito

IRC : sim, é algo que ainda existe >> #p@p
Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
 Share

×
×
  • Create New...

Important Information

By using this site you accept our Terms of Use and Privacy Policy. We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.