• Revista PROGRAMAR: Já está disponível a edição #53 da revista programar. Faz já o download aqui!

David Pintassilgo

Retirar informações directamente de outros sites.

16 mensagens neste tópico

Boas. Eu pretendia retirar informações que vão estando actualizadas em outros sites de forma a têla num formato mais pratico quer para imprimir, quer para consultar.

Ora por exemplo:

http://www.continente.pt/ProductsIndexMain.aspx?CategoryName=8&SubCategoryName=80907&CategoryPath=8|809

Queria um script ou uma cena assim para retirar todos os preços/produtos da secção "Vegetais" para uma lista.

É possivel de fazer de uma forma relativamente simples? (o relativamente simples entenda-se "Que eu consiga fazer :)")

Que me teem a dizer sobre o assunto?

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Poderias fazer isso se os sites tivessem RSS Feeds. Os que não têm, vais ter de criar um script com funções parecidas ás dos bots do Google. :)

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

A minha ideia inicial seria pegar no codigo da pagina e sacar do sitio certo as informações que pretendo, mas depois nao estou bem a ver como fasso a navegação nas diversas paginas.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

A minha ideia inicial seria pegar no codigo da pagina e sacar do sitio certo as informações que pretendo, mas depois nao estou bem a ver como fasso a navegação nas diversas paginas.

Creio que deves querer um RSS Reader.

Ou isso ou então queres fazer recuperação e prospecção de textos de forma ad hoc...

Isso é relativamente simples de fazer usando o www mechanize do perl ou do python. Outra hipótese é, em windows, embeberes o OCX do IE e usá-lo.

Podes recolher a informação e guardá-la de forma hierárquia, por exemplo tema - titulo - informação, e apresentá-la numa árvore.

Ajudaria se explicasses mais detalhadamente qual é o problema que queres resolver.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Bom,..concretamente o que eu queria era retirar de uma forma automatizada dos os dados da secção "Frutas" e "Legumes" e respectivas subcategorias em que estão divididas. Melhor ainda depois era de uma forma automatica ás x horas todos os dias , enviar essa informação para um endreço de e-mail. Ou seja, receber por mail todos os dias a contação actualizada de forma automatica. Mais tarde poderia por exemplo ir adicionando a uma BD essas informações para ter um histórial para consulta etc. etc,.. mas isso já não é preciso.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Para fazeres o que queres acoselho-te um script em Python ou Perl com o módulo WWW Mechanizer (se os nomes dos módulos não são iguais em Perl e Python são muito parecidos, tipo num tem www e no outro não).

Esse módulo permite-te fazer um robot de navegação de páginas. Depois podes coleccionar os dados para uma base de dados, há também módulos para fazer isso em ambas as linguagens.

Numa segunda fase tens de ter uma interface de consulta aos dados, que pode ser feita com uma qualquer aplicação de desktop que leia a informação da BD e até te construa relatórios como gráficos dos preços por semana, dia do mês, evolução anual, etc.. O Delphi e o C++, pelo menos em algumas das suas versões, incluem de raíz componentes que fazem este tipo de gráficos. Mas por certo não vai ser difícil encontrar componentes freeware para essas ou outras linguagens que façam o mesmo.

Um ponto interessante poderia ser a exportação dos dados para CSV, que te permite depois usar esses dados numa folha de cálculo.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

é pa tenho um ideia... que tenho um programa = mas para um jogo que e o hatrick para procurar jogadores sem andar a mexer no site.. feito em vb.. o vb tem a ferramenta de web browser.. e so meteres isso e editares as tag's da pagina o problema e k men todas as paginas sao = e com codigo da msm maneira... tinhas k fazer varias cenas para os teus varios sites de compras...

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

é pa tenho um ideia... que tenho um programa = mas para um jogo que e o hatrick para procurar jogadores sem andar a mexer no site.. feito em vb.. o vb tem a ferramenta de web browser.. e so meteres isso e editares as tag's da pagina o problema e k men todas as paginas sao = e com codigo da msm maneira... tinhas k fazer varias cenas para os teus varios sites de compras...

Ou não...

Podes pensar num sistema de prospecção de informação que te faça isso! ;)

Da mesma forma que o Google sabe que páginas têm que informação, também é possível fazer um crawler para saber quais os preços dos produtos.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Ui Ui!!!! tou a ver que isto é mais complexo que eu estava a pensar. (complexo no sentido em que envolve muitos/quase todos conhecimentos que eu ainda não tenho) :S

O ideal seria fazer um robot pra navegar pelas paginas. O que eu tinha mesmo em mente seria 'sacar' o codigo html da pagina e por lá ir buscar as informações que quero, penso que estariam sempre no mesmo sitio. Pelo que já disseram até é capaz de não ser má ideia, né?

consigo fazer isso usando php? ou o ideal seria um programa em VB por exemplo a correr na minha maquina? (esta 2ª opcção está-me a parecer interecante)

edit:

Pensando bem no assunto, era mesmo bom construir um programa que fizese isso e a correr no pc, pelo menos axo que é capaz de ser por ai que me sou capaz de safar... Chego lá por ai, o k?  ;)

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Bem, estou a ver que andas um pouco perdido.

Dá um passo de cada vez. Aconselho-te Python com o módulo mechanize, fazes um robot facilmente.

Quando tiveres isso a funcionar, avisa. ;)

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Boas. Eu pretendia retirar informações que vão estando actualizadas em outros sites de forma a têla num formato mais pratico quer para imprimir, quer para consultar.

Ora por exemplo:

http://www.continente.pt/ProductsIndexMain.aspx?CategoryName=8&SubCategoryName=80907&CategoryPath=8|809

Queria um script ou uma cena assim para retirar todos os preços/produtos da secção "Vegetais" para uma lista.

É possivel de fazer de uma forma relativamente simples? (o relativamente simples entenda-se "Que eu consiga fazer :D")

Que me teem a dizer sobre o assunto?

melhor e mais rapido:perl + modulo LWP.

nota: presupoem-se que dominas regexp para depois filtrares o que desejas, mas pode ser feito em VB, C#, Java, Python, etc etc

fica aqui um simples exemplo:

---------------------------

uset strict;

my $url = 'http://url_da_pagina';

use LWP::Simple;

my $content = get $url;

die "Couldn't get $url" unless defined $content;

  if($content =~ m/alho/i) {

    print "encontri a palavra ALHO!\n";

  } else {

    print "nepias sobre alho...\n";

  }

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

LoL eu, javista como sempre ja fiz um programa que fazia exactamente isso que pretendes mas para outro site o google.scholar uma cena simples que usa expressoes regulares para retirar determinados campos do HTML. nao sei se es adepto mas se quiseres posso-te mostrar.

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

LoL eu, javista como sempre ja fiz um programa que fazia exactamente isso que pretendes mas para outro site o google.scholar uma cena simples que usa expressoes regulares para retirar determinados campos do HTML. nao sei se es adepto mas se quiseres posso-te mostrar.

ele pode não crer mas eu quero :P se puderes :P!

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Olá

Será que podiam dar uma ajuda

Queria saber se alguem podia dar uma dica para começar a fazer trabalho para a escola (pap-prova aptidão profissional )

Como se vai buscar isso dos rss feeds, é para fazer uma plataforma de emprego e que vá buscar aos jornais online a informação de empregos disponíveis por Distrito e região

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Vi este topico por acaso ... ja viram este site? Escolhem os vosso interesses favoritos e mostra as noticias dos vosso interesses

http://www.nova.news/

atualmente usa os seguintes jornais:

Correio da Manhã

Público

Record

Sol

A Bola

O Jogo

Jornal de Negocios

Expresso

Observador

0

Partilhar esta mensagem


Link para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!


Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.


Entrar Agora