Pdf to writer linux

Pdf to writer linux

Библиотека сайта rus-linux.net

Ошибка базы данных: Table ‘a111530_forumnew.rlf1_users’ doesn’t exist

pdftotext из пакета утилит «poppler-utils» . Эта утилита может быть уже установлена в вашей системе. Для проверки ее наличия в системе следует в первую очередь воспользоваться сочетанием клавиш «Ctrl+Alt+T» для открытия окна эмулятора терминала. Далее следует ввести следующую команду после приглашения командной оболочки и нажать клавишу «Enter» .

Примечание: если в статье написано, что нужно ввести какую-либо команду, причем сама команда помещена в кавычки, следует вводить ее без кавычек за исключением тех случаев, когда в статье четко указано обратное.

Проверка наличия в системе пакета poppler-utils

Если утилита pdftotext не установлена, следует ввести следующую команду после приглашения командной оболочки и нажать клавишу «Enter» :

sudo apt-get install poppler-utils

После соответствующего запроса следует ввести свой пароль и нажать клавишу «Enter» :

Установка пакета poppler-utils

В установленном пакете poppler-utils имеется множество других инструментов для преобразования документов формата PDF в различные форматы, осуществления манипуляций с файлами PDF и извлечения информации из этих файлов.

Утилиты из пакета poppler-utils

Следующая команда позволяет преобразовать файл PDF в текстовый файл. Воспользуйтесь сочетанием клавиш «Ctrl+Alt+T» для открытия окна эмулятора терминала, введите следующую команду после приглашения командной оболочки и нажмите клавишу «Enter» .

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Вам придется заменить указанные пути к файлам на пути к оригинальному файлу формата PDF и результирующему текстовому файлу соответственно. Кроме того, вам придется изменить приведенные имена файлов на имена ваших файлов.

Использование утилиты pdftotext

Созданный утилитой текстовый файл может быть открыт таким же образом, как и любой другой текстовый файл в Linux.

Созданный текстовый файл

Результирующий текст будет содержать символы новых строк в тех местах, в которых их не должно быть. Это объясняется тем, что символы новых строк вставляются после каждой строки текста в файле PDF.

Преобразованный текст в текстовом редакторе

Вы можете сохранить оригинальное форматирование вашего документа PDF (заголовки, примечания, разделение на страницы и.т.д.) в результирующем файле с помощью флага «-layout» :

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Преобразование с сохранением форматирования

Если вы хотите осуществить преобразование диапазона страниц файла PDF, вам придется использовать флаги «-f» и «-l» (это «L» в нижнем регистре) для указания номеров первой и последней страниц из диапазона для преобразования:

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Преобразование диапазона страниц

Для преобразования файла PDF, зашифрованного с использованием пароля владельца, следует использовать флаг «-opw» (первым символом является буква «O» в нижнем регистре, а не цифра 0):

pdftotext -opw 'пароль' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

Замените строку «пароль» на пароль, с помощью которого был защищен оригинальный файл PDF. Убедитесь в том, что вы используете одинарные, а не двойные кавычки для выделения пароля.

Преобразование файла PDF, зашифрованного с использованием пароля владельца

Если же файл PDF зашифрован с использованием пароля пользователя, следует использовать флаг «-upw» вместо «-opw» . Остальная часть команды не должна изменяться.

Преобразование файла PDF, зашифрованного с использованием пароля пользователя

Вы также можете указать набор символов новой строки, который будет использоваться в результирующем текстовом файле. Это особенно полезно в том случае, если вы планируете открывать этот файл в другой операционной системе, такой, как Windows или Mac OS, Для этой цели следует использовать флаг «-eol» (вторым символом является буква «O» в нижнем регистре, а не цифра 0), после которого должен следовать символ пробела и идентификатор выбранного набора символов новой строки ( «unix» , «dos» или «mac» ).

Читайте также:  Биос видит только линукс

Преобразование с указанием набора символов новой строки

Примечание: если вы не укажите имя результирующего текстового файла, утилита pdftotext автоматически использует имя файла PDF, заменив его расширение на «.txt» . Например, имя файла «file.pdf» будет преобразовано в «file.txt» . Если вместо имени текстового файла использовать «-» , результирующий текст будет отправлен в стандартный поток вывода утилиты, что означает, что текст будет выводиться в окно эмулятора терминала и не будет сохраняться в текстовом файле.

Для закрытия окна эмулятора терминала следует нажать на кнопку «X» в его левом верхнем углу.

Для получения дополнительной информации об утилите pdftotext следует ввести команду «man page pdftotext» после приглашения командной оболочки в окне эмулятора терминала и нажать клавишу «Enter» .

Источник

How To Convert PDF To Text On Linux (GUI And Command Line)

PDF to text Linux

Calibre is a free and open source e-book software suite. It supports organizing, displaying, editing, and converting e-books, supporting a wide range of formats. The application runs on Linux, macOS, and Microsoft Windows.

Calibre should be available in your Linux distribution’s repositories, and you should be able to install it using whatever software store you have on your system. For example, to install it on Debian, Ubuntu, Linux Mint, Fedora, openSUSE, or Arch Linux, use:

sudo zypper install calibre

Calibre may also be installed on Linux by using the Flathub package (requires setting up Flathub / Flatpak on some Linux distributions).

There’s yet another way to install Calibre on Linux explained on the application’s downloads page, where you’ll also find macOS and Windows binaries.

Now that Calibre is installed on your system, launch it and click Add books to add the PDF (or multiple PDFs — Calibre supports batch converting multiple PDF files to text) you want to convert to text.

From the list of books, select the PDF (or multiple PDFs for batch conversion to .txt) you want to convert to text, and click the Convert books button. In the upper right-hand side of the conversion window, choose TXT as the Output format :

Calibre convert PDF to text

What Calibre lacks in this case is a way to only convert a page or a page range — it can currently only convert entire PDF files to text.

Convert PDF to text with pdftotext (command line)

pdftotext is a command line utility that converts PDF files to plain text. It has many options, including the ability to specify the page range to convert, maintain the original physical layout of the text as best as possible, set line endings (unix, dos or mac), and even work with password-protected PDF files.

pdftotextis part of the poppler / poppler-utils / poppler-tools package (depending on the Linux distribution you’re using). Install this package as follows:

sudo apt install poppler-utils
sudo dnf install poppler-utils
sudo zypper install poppler-tools

In other Linux distributions use your package manager to install the poppler / poppler-utils package.

Читайте также:  Linux samsung unified drivers

Now that the package is installed, you can convert a PDF file to plain text and preserve its layout (I recommend using this -layout option for maintaining the original physical layout, but you can try it without it too) with:

pdftotext -layout input.pdf output.txt

You’ll need to replace input.pdf with the name of the PDF file, and output.txt with the name you want the generated TXT file to be called. Also add the paths before filenames if needed (e.g. ~/Documents/mypdf.pdf ). If no output text file is specified, pdftotext will name the file with the same file name as the original PDF file.

The layout option preserves the PDF layout when converting it to text, even if multi-column PDF cases.

What if you want to only convert a page range of the PDF to text, instead of the whole PDF file? Use -f (first page to convert) and -l (last page to convert) followed by the page number, like this:

pdftotext -layout -f M -l N input.pdf

Replace M and N with the first and last page number to extract, and input.pdf with the PDF filename.

Want to use mac, dos or unix end-of-line characters? You can specify that too, using -eol followed by mac , dos or unix . E.g. for unix line endings:

pdftotext -layout -eol unix input.pdf
pdftotext -layout nopgbrk input.pdf

Want to batch convert all PDF files from a folder to text files? pdftotext doesn’t support batch PDF to text conversion (and pdftotext *.pdf doesn’t work), but you can convert all the PDF files in a folder to text files by using a Bash FOR loop:

for file in *.pdf; do pdftotext -layout "$file"; done

For more options, run man pdftotext and pdftotext —help .

Источник

How to Convert a PDF File to Text Document on Linux

Editing a PDF file requires converting it to a text document first. But how do you do this?

a laptop, tablet, and a cup of coffee

Readers like you help support MUO. When you make a purchase using links on our site, we may earn an affiliate commission. Read More.

Unlike a text file, you can’t edit a PDF directly. There are multiple ways to generate PDF files using text. But what if you want to go the other way round and convert PDFs to text files?

Luckily, Linux allows you to easily modify these files from the terminal. This article will demonstrate how to convert a PDF file to a text document on Linux.

Convert PDF to Text From the Terminal

Poppler is a software library used to render and modify PDF files. It contains a utility, known as pdftotext, that allows users to generate text files from PDFs. Since poppler-utils is not a part of the standard Linux packages, you’ll have to install it manually using a package manager.

sudo apt install poppler-utils 

To install Poppler on Arch Linux:

Installing the poppler-utils package on CentOS, Fedora, and other RHEL-based distributions is easy.

sudo dnf install poppler-utils
sudo yum install poppler-utils

Convert an Entire PDF to Text

The basic syntax of the pdftotext command is:

pdftotext [options] pdffile textfile 

. where pdffile is the absolute or relative path to the PDF file, and textfile is the name of the output file.

Читайте также:  How to check cron on linux

For example, to convert lorem-ipsum.pdf to a text file:

pdftotext lorem-ipsum.pdf text.txt 

convert pdf file to text in linux

If the file you’re converting has watermarks or unaligned text, you can discard them in the output by using the -nodiag flag.

pdftotext -nodiag lorem-ipsum.pdf random.text 

Process Pages Within a Specific Range

Use the -f and -l flag if you want to convert pages that fall within a specific range. For example, to convert pages one to five in lorem-ipsum.pdf to text:

pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt 

To convert only the first page of the PDF file:

pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt 

Convert Password-Protected PDF Files to Text

Pdftotext can even convert password-protected PDFs to text files. The -upw and -opw flags, which stand for user password and owner password respectively, take care of the authentication process while converting the PDF files.

pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

Make sure to replace password with the password of the PDF file.

You can also combine multiple flags to get the desired output. For example, to convert pages one to three of a password-protected PDF to text:

pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt 

Graphically Convert PDF to a Text File

If working with the command line is not your cup of tea, you can convert PDFs to text files using graphical software like Calibre. It is an ebook management application that you can use to view, organize, and modify PDF files on your system.

Calibre is available on the official Linux distro repositories and anyone can download it using a package manager.

To install Calibre on Ubuntu and Debian:

On RHEL-based distributions like CentOS and Fedora, you can download Calibre using either DNF or Yum.

sudo dnf install calibre
sudo yum install calibre

How to Use Calibre to Convert PDF Files

Once installed, launch Calibre on your system using the Applications Menu. Alternatively, you can start Calibre from the terminal by typing:

To generate text files using PDF with Calibre:

    Click on the Add Books option from the menu.

adding books in calibre linux

converting pdf files to text files

calibre in linux

selecting pdf files to convert

Calibre will now start converting the specified PDF file to a text document. You can check the status of the process by clicking on the Jobs option, located at the bottom-right of the window.

checking the status of jobs calibre

Working With PDF Files in Linux

When you want to share a document with someone, converting it into a PDF before sharing is the most efficient way. Before, users had to install a dedicated PDF viewer on their system to display PDF files, but now, almost every browser comes with a built-in PDF viewer.

You can find several applications that allow a user to view and edit PDF files easily. Many Linux installations ship with LibreOffice, an office software suite, that can be used as a PDF editor.

Источник

Оцените статью
Adblock
detector