• Revista PROGRAMAR: Já está disponível a edição #53 da revista programar. Faz já o download aqui!

joaoqalves

Parsing de HTML

3 mensagens neste tópico

Boas pessoal, venho eu chatear-vos mais uma vez :) Estive a ver que o python tem uma lib (HTMLParser) que permite fazer o parsing de código HTML, contudo fui ao site da documentação do python e pesquisei na net e não vi nenhuma utilização prática (ou pelo menos que eu visse) disto... Tipo eu já tenho o ficheiro HTML criado, agora como parsar isto é que já não faço ideia :hmm:

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):
        print "Encountered the beginning of a %s tag" % tag

    def handle_endtag(self, tag):
        print "Encountered the end of a %s tag" % tag

Podem-me explicar qual é o funcionamento disto, sabendo que eu já tenho o ficheiro html? Se acharem que esta não é a melhor via, elucidem-me ;)

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Acho que nesse código, pelo que tive a ler, se o html que tás a ler tem esta linha:

<html xmlns="http://www.w3.org/1999/xhtml">

e fizeres

MyHTMLParser.feed(html_para_parsar)
handle_starttag(self,'html',['xmlns','http://www.w3.org/199/xhtml'])

Ele vai retornar:

Encountered the beginning of a html tag

Encountered the end of a html tag

e cenas assim I guess...

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!


Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.


Entrar Agora