• Revista PROGRAMAR: Já está disponível a edição #53 da revista programar. Faz já o download aqui!

a13293

html...

7 mensagens neste tópico

pessoal estou a fazer um programa e faz download de um determinado link... mas depois quero ficar so com o texto(corpo principal da site..) , quero eliminar tudo  o resto..

algum me pode ajudar ja vi algumas coisas mas ainda nao consegui o que queria..

obrigado..

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Procura usar Regexp para tirar oq ue tiver entre <body e </body> (o primeiro convem estar aberto).

Ou entao procura manualmente :D

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Manualmente é muito fácil...

corpo = todo[todo.find("<body>"):todo.find("</body>")]

onde corpo é a variável onde vai ficar armazenada a parte que queres e todo o código da pagina.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Manualmente é muito fácil...

corpo = todo[todo.find("<body>"):todo.find("</body>")]

onde corpo é a variável onde vai ficar armazenada a parte que queres e todo o código da pagina.

Aconselho a procurar a por <body e não <body>
0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Manualmente é muito fácil...

corpo = todo[todo.find("<body>"):todo.find("</body>")]

onde corpo é a variável onde vai ficar armazenada a parte que queres e todo o código da pagina.

Aconselho a procurar a por <body e não <body>

Não entendo... Porque que sugeres que se procure por "<body".

Eu esqueci-me de dizer mas esta técnica tem uma grande falha. No caso do termo de procura estar escrito na pagina, pode cortar cedo demais.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Não entendo... Porque que sugeres que se procure por "<body".

Porque pode lá estar <body bgcolor="#FFFFFF"> por exemplo :P
0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!


Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.


Entrar Agora