JoaoRodrigues Posted October 18, 2007 at 05:57 PM Report Share #141168 Posted October 18, 2007 at 05:57 PM Alguem conhece um módulo que seja um Parser de XHTML? Eu estou a tentar "construir" o meu próprio parser mas estou-me a ver à nora e enfim, reinventar a roda não é propriamente útil... Abraços! Link to comment Share on other sites More sharing options...
Triton Posted October 18, 2007 at 05:58 PM Report Share #141169 Posted October 18, 2007 at 05:58 PM Hint: XML parser 😛 <3 life Link to comment Share on other sites More sharing options...
djthyrax Posted October 18, 2007 at 06:03 PM Report Share #141171 Posted October 18, 2007 at 06:03 PM Se o XHTML tiver as tags todas fechadinhas no sítio próprio, podes usar uma class de DOM. O Python já vem com 2 implementações do DOM. http://docs.python.org/lib/node218.html Não peças ajuda por PM! A tua dúvida vai ter menos atenção do que se for postada na secção correcta do fórum! Link to comment Share on other sites More sharing options...
pedrotuga Posted October 18, 2007 at 07:09 PM Report Share #141208 Posted October 18, 2007 at 07:09 PM O google conhece 😛 http://www.google.pt/search?q=python%20html%20parser Mas seguindo a dica do triton, se o xhtml validar então tambem valida como xml logo um parser de xml funciona. Mas atenção, tem que ser um parser de xml genérico e não um parser de alguns sabores de xml. Mas o DOM é mesmo a tecnologia mais cool na minha opiniao. Verifica a validação das paginas primeiro e depois espeta-lhe com o DOM que isso funciona que é um mimo. Link to comment Share on other sites More sharing options...
JoaoRodrigues Posted October 19, 2007 at 09:35 AM Author Report Share #141319 Posted October 19, 2007 at 09:35 AM Vocês vão ter mesmo que me traduzir isso para miudos. Eu já tinha procurado no Global Module Index e no google 🙂 Por onde devo começar a ler para perceber melhor o funcionamento destes parsers? Link to comment Share on other sites More sharing options...
pedrotuga Posted October 19, 2007 at 11:01 AM Report Share #141339 Posted October 19, 2007 at 11:01 AM Basicamente tu estás à procura de uma peça de software que te peque numa estrutura xhtml e te a transforme numa estrutura de dados que possas usar. Por exemplo um array, um dicionario ( python ) uma árvore, etc. O DOM é isso mesmo. O DOM é utilizado pelos browsers e é suposto ser compativel com todos, os browsers o que fazem é: pegam no xhtml, parsam-no para uma estrutura em árvore. e depois começam a transformar cada elemento nos respectivos elementos gráficos e/ou comportamentos de forma a que tu os possas ver. Para perceberes isto melhor instala o DOM inspector no firefox e vasculha por entre o DOM de uma página. Depois de o teres instalado, experiemntado e percebido, aconselho a usares antes o firebug que é mais intuitivo que o dom inspector. Com estas ferramentas vais poder ver uma página da mesma forma que um browser as vê: uma àrvore. Link to comment Share on other sites More sharing options...
JoaoRodrigues Posted October 19, 2007 at 11:21 AM Author Report Share #141344 Posted October 19, 2007 at 11:21 AM Hmm, ok vou experimentar então 🙂 Digam-me uma coisa já agora, pode-se arranjar maneira de sacar uma página, com o módulo urllib (ou outro), sem ser em XHTML? Noutros formatos.. Link to comment Share on other sites More sharing options...
pedrotuga Posted October 19, 2007 at 11:30 AM Report Share #141347 Posted October 19, 2007 at 11:30 AM Hmm, ok vou experimentar então 🙂 Digam-me uma coisa já agora, pode-se arranjar maneira de sacar uma página, com o módulo urllib (ou outro), sem ser em XHTML? Noutros formatos.. Esse módulo permite-te sacar o que quer que seja que esteja disponivel via http. Link to comment Share on other sites More sharing options...
JoaoRodrigues Posted October 19, 2007 at 12:39 PM Author Report Share #141364 Posted October 19, 2007 at 12:39 PM Sim, eu sei 🙂 Mas vem formatado tal como está na página. A minha pergunta era. Não há maneira de o "sacar" já formatado doutra forma? Link to comment Share on other sites More sharing options...
djthyrax Posted October 19, 2007 at 04:25 PM Report Share #141431 Posted October 19, 2007 at 04:25 PM Sim, eu sei 🙂 Mas vem formatado tal como está na página. A minha pergunta era. Não há maneira de o "sacar" já formatado doutra forma? Só depende do que está a gerar, mas geralmente não. Não peças ajuda por PM! A tua dúvida vai ter menos atenção do que se for postada na secção correcta do fórum! Link to comment Share on other sites More sharing options...
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now