Ir para o conteúdo
BMHR

Leitura de Ficheiros PDF e Word

Mensagens Recomendadas

BMHR

Boa tarde,

Encontrei este fórum durante uma pesquisa desesperada para encontrar uma maneira de extrair o conteúdo (texto) em pdf's e word (de preferência uma solução comum aos dois para facilitar a implementação)

O meu objectivo é passar todo o conteúdo de ambos os formatos para um variável que irá ser guardada numa base de dados (ID,Caminho,Conteudo) para posteriormente poder fazer contagens de palavras através da mesma.

É um projecto no âmbito académico, e caso alguém me consigo ajudar fico grato. Caso alguém já tenha passado pela mesma batalha e tenha ideias ia pedir que me indicasse a solução de encontrou e o ambiente no qual a implementou linux ou windows.

Cumprimentos malta

Partilhar esta mensagem


Ligação para a mensagem
Partilhar noutros sites
M6

Viva.

Tens, basicamente, duas opções:

  1. usas uma biblioteca para ler os documentos, por exemplo o PHPWord;
  2. convertes os documentos para texto e lês a informação, por exemplo tens o pdftotext e o Silvercoders DocToText;

10 REM Generation 48K!
20 INPUT "URL:", A$
30 IF A$(1 TO 4) = "HTTP" THEN PRINT "400 Bad Request": GOTO 50
40 PRINT "404 Not Found"
50 PRINT "./M6 @ Portugal a Programar."

 

Partilhar esta mensagem


Ligação para a mensagem
Partilhar noutros sites

Crie uma conta ou ligue-se para comentar

Só membros podem comentar

Criar nova conta

Registe para ter uma conta na nossa comunidade. É fácil!

Registar nova conta

Entra

Já tem conta? Inicie sessão aqui.

Entrar Agora

×

Aviso Sobre Cookies

Ao usar este site você aceita os nossos Termos de Uso e Política de Privacidade. Este site usa cookies para disponibilizar funcionalidades personalizadas. Para mais informações visite esta página.