Jump to content
BMHR

Leitura de Ficheiros PDF e Word

Recommended Posts

BMHR

Boa tarde,

Encontrei este fórum durante uma pesquisa desesperada para encontrar uma maneira de extrair o conteúdo (texto) em pdf's e word (de preferência uma solução comum aos dois para facilitar a implementação)

O meu objectivo é passar todo o conteúdo de ambos os formatos para um variável que irá ser guardada numa base de dados (ID,Caminho,Conteudo) para posteriormente poder fazer contagens de palavras através da mesma.

É um projecto no âmbito académico, e caso alguém me consigo ajudar fico grato. Caso alguém já tenha passado pela mesma batalha e tenha ideias ia pedir que me indicasse a solução de encontrou e o ambiente no qual a implementou linux ou windows.

Cumprimentos malta

Share this post


Link to post
Share on other sites
M6

Viva.

Tens, basicamente, duas opções:

  1. usas uma biblioteca para ler os documentos, por exemplo o PHPWord;
  2. convertes os documentos para texto e lês a informação, por exemplo tens o pdftotext e o Silvercoders DocToText;

10 REM Generation 48K!
20 INPUT "URL:", A$
30 IF A$(1 TO 4) = "HTTP" THEN PRINT "400 Bad Request": GOTO 50
40 PRINT "404 Not Found"
50 PRINT "./M6 @ Portugal a Programar."

 

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now

×
×
  • Create New...

Important Information

By using this site you accept our Terms of Use and Privacy Policy. We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.