Projeto com exemplo de manipulação de PDF com PHP. Extração de texto de PDF e imagens
- Extrair texto de um PDF
- Extrair imagem de um PDF
- Extrair texto de uma imagem
#Requerimentos
- PHP 5.6
Adicionar o PDFParser no seu arquivo composer.json :
{
"require": {
"smalot/pdfparser": "^0.10.0"
}
}
Ou no terminal executar o comando
$ composer require smalot/pdfparser
O comando vai fazer o download de todas as dependências e ira criar o autoload.php
Agora, crie um novo arquivo com esse conteúdo: Esta amostra irá analisar todo o arquivo pdf e extrair texto de cada página.
/src/exemplos/extracttextpdf.php
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.pdf');
$text = $pdf->getText();
echo $text;
Podemos extrair também documentos por página
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.pdf');
// Retrieve all pages from the pdf file.
$pages = $pdf->getPages();
// Loop over each page to extract text.
foreach ($pages as $page) {
echo $page->getText();
}