• Revista PROGRAMAR: Já está disponível a edição #53 da revista programar. Faz já o download aqui!

a13293

Parser html!!!

2 mensagens neste tópico

boas!!!

pessoal tenho que fazer um parser a paginas html..

e ja tenho este codigo que faz isso mas manda  logo o resultado e o que eu quero é escrever o resultado para um ficheiro...sera que alguem me pode ajudar..

import formatter
import htmllib

def parse():
        w = formatter.DumbWriter() # plain text ## vou ter que perceber melhor isto aqui para a apresentacao
        f = formatter.AbstractFormatter(w)
        file = open("/home/a13293/projecto/python/temp/index.html")

        # print html body as plain text

        p = htmllib.HTMLParser(f)
        p.feed(file.read())
    

        p.close()
        file.close()


0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Peesoal ja resolvi o problema !!!! :thumbsup:

aqui fica a solução.....

import formatter
import htmllib
import urllib

def parse(_link):
        _fhtml=open('/home/a13293/projecto/python/temp/filehtml.txt','w')

        w = formatter.DumbWriter(_fhtml) # plain text
        f = formatter.AbstractFormatter(w)
        file = urllib.urlopen(_link)

                        # print html body as plain text
        p = htmllib.HTMLParser(f)
        p.feed(file.read())
        p.close()
        file.close()


0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!


Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.


Entrar Agora