BMHR Posted March 12, 2018 at 12:45 PM Report #609743 Posted March 12, 2018 at 12:45 PM Boa tarde, Encontrei este fórum durante uma pesquisa desesperada para encontrar uma maneira de extrair o conteúdo (texto) em pdf's e word (de preferência uma solução comum aos dois para facilitar a implementação) O meu objectivo é passar todo o conteúdo de ambos os formatos para um variável que irá ser guardada numa base de dados (ID,Caminho,Conteudo) para posteriormente poder fazer contagens de palavras através da mesma. É um projecto no âmbito académico, e caso alguém me consigo ajudar fico grato. Caso alguém já tenha passado pela mesma batalha e tenha ideias ia pedir que me indicasse a solução de encontrou e o ambiente no qual a implementou linux ou windows. Cumprimentos malta
M6 Posted March 12, 2018 at 03:31 PM Report #609749 Posted March 12, 2018 at 03:31 PM Viva. Tens, basicamente, duas opções: usas uma biblioteca para ler os documentos, por exemplo o PHPWord; convertes os documentos para texto e lês a informação, por exemplo tens o pdftotext e o Silvercoders DocToText; 10 REM Generation 48K! 20 INPUT "URL:", A$ 30 IF A$(1 TO 4) = "HTTP" THEN PRINT "400 Bad Request": GOTO 50 40 PRINT "404 Not Found" 50 PRINT "./M6 @ Portugal a Programar."
_kh Posted March 12, 2018 at 04:02 PM Report #609752 Posted March 12, 2018 at 04:02 PM (edited) PDF: https://github.com/smalot/pdfparser Edited March 12, 2018 at 04:09 PM by _kh
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now