• Revista PROGRAMAR: Já está disponível a edição #53 da revista programar. Faz já o download aqui!

JoaoRodrigues

XHTML Parser

10 mensagens neste tópico

Alguem conhece um módulo que seja um Parser de XHTML? Eu estou a tentar "construir" o meu próprio parser mas estou-me a ver à nora e enfim, reinventar a roda não é propriamente útil...

Abraços!

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

O google conhece :P

http://www.google.pt/search?q=python%20html%20parser

Mas seguindo a dica do triton, se o xhtml validar então tambem valida como xml logo um parser de xml funciona. Mas atenção, tem que ser um parser de xml genérico e não um parser de alguns sabores de xml.

Mas o DOM é mesmo a tecnologia mais cool na minha opiniao. Verifica a validação das paginas primeiro e depois espeta-lhe com o DOM que isso funciona que é um mimo.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Vocês vão ter mesmo que me traduzir isso para miudos. Eu já tinha procurado no Global Module Index e no google :) Por onde devo começar a ler para perceber melhor o funcionamento destes parsers?

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Basicamente tu estás à procura de uma peça de software que te peque numa estrutura xhtml e te a transforme numa estrutura de dados que possas usar. Por exemplo um array, um dicionario ( python ) uma árvore, etc.

O DOM é isso mesmo. O DOM é utilizado pelos browsers e é suposto ser compativel com todos, os browsers o que fazem é:

pegam no xhtml, parsam-no para uma estrutura em árvore. e depois começam a transformar cada elemento nos respectivos elementos gráficos e/ou comportamentos de forma a que tu os possas ver.

Para perceberes isto melhor instala o DOM inspector no firefox e vasculha por entre o DOM de uma página.

Depois de o teres instalado, experiemntado e percebido, aconselho a usares antes o firebug que é mais intuitivo que o dom inspector.

Com estas ferramentas vais poder ver uma página da mesma forma que um browser as vê: uma àrvore.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Hmm, ok vou experimentar então :)

Digam-me uma coisa já agora, pode-se arranjar maneira de sacar uma página, com o módulo urllib (ou outro), sem ser em XHTML? Noutros formatos..

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Hmm, ok vou experimentar então :)

Digam-me uma coisa já agora, pode-se arranjar maneira de sacar uma página, com o módulo urllib (ou outro), sem ser em XHTML? Noutros formatos..

Esse módulo permite-te sacar o que quer que seja que esteja disponivel via http.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Sim, eu sei :) Mas vem formatado tal como está na página. A minha pergunta era. Não há maneira de o "sacar" já formatado doutra forma?

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Sim, eu sei :) Mas vem formatado tal como está na página. A minha pergunta era. Não há maneira de o "sacar" já formatado doutra forma?

Só depende do que está a gerar, mas geralmente não.
0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!


Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.


Entrar Agora