- Pdf to writer linux
- How To Convert PDF To Text On Linux (GUI And Command Line)
- Convert PDF to text with pdftotext (command line)
- How to Convert a PDF File to Text Document on Linux
- Convert PDF to Text From the Terminal
- Convert an Entire PDF to Text
- Process Pages Within a Specific Range
- Convert Password-Protected PDF Files to Text
- Graphically Convert PDF to a Text File
- How to Use Calibre to Convert PDF Files
- Working With PDF Files in Linux
Pdf to writer linux
Библиотека сайта rus-linux.net
Ошибка базы данных: Table ‘a111530_forumnew.rlf1_users’ doesn’t exist
pdftotext из пакета утилит «poppler-utils» . Эта утилита может быть уже установлена в вашей системе. Для проверки ее наличия в системе следует в первую очередь воспользоваться сочетанием клавиш «Ctrl+Alt+T» для открытия окна эмулятора терминала. Далее следует ввести следующую команду после приглашения командной оболочки и нажать клавишу «Enter» .
Примечание: если в статье написано, что нужно ввести какую-либо команду, причем сама команда помещена в кавычки, следует вводить ее без кавычек за исключением тех случаев, когда в статье четко указано обратное.
Если утилита pdftotext не установлена, следует ввести следующую команду после приглашения командной оболочки и нажать клавишу «Enter» :
sudo apt-get install poppler-utils
После соответствующего запроса следует ввести свой пароль и нажать клавишу «Enter» :
В установленном пакете poppler-utils имеется множество других инструментов для преобразования документов формата PDF в различные форматы, осуществления манипуляций с файлами PDF и извлечения информации из этих файлов.
Следующая команда позволяет преобразовать файл PDF в текстовый файл. Воспользуйтесь сочетанием клавиш «Ctrl+Alt+T» для открытия окна эмулятора терминала, введите следующую команду после приглашения командной оболочки и нажмите клавишу «Enter» .
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Вам придется заменить указанные пути к файлам на пути к оригинальному файлу формата PDF и результирующему текстовому файлу соответственно. Кроме того, вам придется изменить приведенные имена файлов на имена ваших файлов.
Созданный утилитой текстовый файл может быть открыт таким же образом, как и любой другой текстовый файл в Linux.
Результирующий текст будет содержать символы новых строк в тех местах, в которых их не должно быть. Это объясняется тем, что символы новых строк вставляются после каждой строки текста в файле PDF.
Вы можете сохранить оригинальное форматирование вашего документа PDF (заголовки, примечания, разделение на страницы и.т.д.) в результирующем файле с помощью флага «-layout» :
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Если вы хотите осуществить преобразование диапазона страниц файла PDF, вам придется использовать флаги «-f» и «-l» (это «L» в нижнем регистре) для указания номеров первой и последней страниц из диапазона для преобразования:
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Для преобразования файла PDF, зашифрованного с использованием пароля владельца, следует использовать флаг «-opw» (первым символом является буква «O» в нижнем регистре, а не цифра 0):
pdftotext -opw 'пароль' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Замените строку «пароль» на пароль, с помощью которого был защищен оригинальный файл PDF. Убедитесь в том, что вы используете одинарные, а не двойные кавычки для выделения пароля.
Если же файл PDF зашифрован с использованием пароля пользователя, следует использовать флаг «-upw» вместо «-opw» . Остальная часть команды не должна изменяться.
Вы также можете указать набор символов новой строки, который будет использоваться в результирующем текстовом файле. Это особенно полезно в том случае, если вы планируете открывать этот файл в другой операционной системе, такой, как Windows или Mac OS, Для этой цели следует использовать флаг «-eol» (вторым символом является буква «O» в нижнем регистре, а не цифра 0), после которого должен следовать символ пробела и идентификатор выбранного набора символов новой строки ( «unix» , «dos» или «mac» ).
Примечание: если вы не укажите имя результирующего текстового файла, утилита pdftotext автоматически использует имя файла PDF, заменив его расширение на «.txt» . Например, имя файла «file.pdf» будет преобразовано в «file.txt» . Если вместо имени текстового файла использовать «-» , результирующий текст будет отправлен в стандартный поток вывода утилиты, что означает, что текст будет выводиться в окно эмулятора терминала и не будет сохраняться в текстовом файле.
Для закрытия окна эмулятора терминала следует нажать на кнопку «X» в его левом верхнем углу.
Для получения дополнительной информации об утилите pdftotext следует ввести команду «man page pdftotext» после приглашения командной оболочки в окне эмулятора терминала и нажать клавишу «Enter» .
How To Convert PDF To Text On Linux (GUI And Command Line)
Calibre is a free and open source e-book software suite. It supports organizing, displaying, editing, and converting e-books, supporting a wide range of formats. The application runs on Linux, macOS, and Microsoft Windows.
Calibre should be available in your Linux distribution’s repositories, and you should be able to install it using whatever software store you have on your system. For example, to install it on Debian, Ubuntu, Linux Mint, Fedora, openSUSE, or Arch Linux, use:
sudo zypper install calibre
Calibre may also be installed on Linux by using the Flathub package (requires setting up Flathub / Flatpak on some Linux distributions).
There’s yet another way to install Calibre on Linux explained on the application’s downloads page, where you’ll also find macOS and Windows binaries.
Now that Calibre is installed on your system, launch it and click Add books to add the PDF (or multiple PDFs — Calibre supports batch converting multiple PDF files to text) you want to convert to text.
From the list of books, select the PDF (or multiple PDFs for batch conversion to .txt) you want to convert to text, and click the Convert books button. In the upper right-hand side of the conversion window, choose TXT as the Output format :
What Calibre lacks in this case is a way to only convert a page or a page range — it can currently only convert entire PDF files to text.
Convert PDF to text with pdftotext (command line)
pdftotext is a command line utility that converts PDF files to plain text. It has many options, including the ability to specify the page range to convert, maintain the original physical layout of the text as best as possible, set line endings (unix, dos or mac), and even work with password-protected PDF files.
pdftotextis part of the poppler / poppler-utils / poppler-tools package (depending on the Linux distribution you’re using). Install this package as follows:
sudo apt install poppler-utils
sudo dnf install poppler-utils
sudo zypper install poppler-tools
In other Linux distributions use your package manager to install the poppler / poppler-utils package.
Now that the package is installed, you can convert a PDF file to plain text and preserve its layout (I recommend using this -layout option for maintaining the original physical layout, but you can try it without it too) with:
pdftotext -layout input.pdf output.txt
You’ll need to replace input.pdf with the name of the PDF file, and output.txt with the name you want the generated TXT file to be called. Also add the paths before filenames if needed (e.g. ~/Documents/mypdf.pdf ). If no output text file is specified, pdftotext will name the file with the same file name as the original PDF file.
The layout option preserves the PDF layout when converting it to text, even if multi-column PDF cases.
What if you want to only convert a page range of the PDF to text, instead of the whole PDF file? Use -f (first page to convert) and -l (last page to convert) followed by the page number, like this:
pdftotext -layout -f M -l N input.pdf
Replace M and N with the first and last page number to extract, and input.pdf with the PDF filename.
Want to use mac, dos or unix end-of-line characters? You can specify that too, using -eol followed by mac , dos or unix . E.g. for unix line endings:
pdftotext -layout -eol unix input.pdf
pdftotext -layout nopgbrk input.pdf
Want to batch convert all PDF files from a folder to text files? pdftotext doesn’t support batch PDF to text conversion (and pdftotext *.pdf doesn’t work), but you can convert all the PDF files in a folder to text files by using a Bash FOR loop:
for file in *.pdf; do pdftotext -layout "$file"; done
For more options, run man pdftotext and pdftotext —help .
How to Convert a PDF File to Text Document on Linux
Editing a PDF file requires converting it to a text document first. But how do you do this?
Readers like you help support MUO. When you make a purchase using links on our site, we may earn an affiliate commission. Read More.
Unlike a text file, you can’t edit a PDF directly. There are multiple ways to generate PDF files using text. But what if you want to go the other way round and convert PDFs to text files?
Luckily, Linux allows you to easily modify these files from the terminal. This article will demonstrate how to convert a PDF file to a text document on Linux.
Convert PDF to Text From the Terminal
Poppler is a software library used to render and modify PDF files. It contains a utility, known as pdftotext, that allows users to generate text files from PDFs. Since poppler-utils is not a part of the standard Linux packages, you’ll have to install it manually using a package manager.
sudo apt install poppler-utils
To install Poppler on Arch Linux:
Installing the poppler-utils package on CentOS, Fedora, and other RHEL-based distributions is easy.
sudo dnf install poppler-utils
sudo yum install poppler-utils
Convert an Entire PDF to Text
The basic syntax of the pdftotext command is:
pdftotext [options] pdffile textfile
. where pdffile is the absolute or relative path to the PDF file, and textfile is the name of the output file.
For example, to convert lorem-ipsum.pdf to a text file:
pdftotext lorem-ipsum.pdf text.txt
If the file you’re converting has watermarks or unaligned text, you can discard them in the output by using the -nodiag flag.
pdftotext -nodiag lorem-ipsum.pdf random.text
Process Pages Within a Specific Range
Use the -f and -l flag if you want to convert pages that fall within a specific range. For example, to convert pages one to five in lorem-ipsum.pdf to text:
pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt
To convert only the first page of the PDF file:
pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt
Convert Password-Protected PDF Files to Text
Pdftotext can even convert password-protected PDFs to text files. The -upw and -opw flags, which stand for user password and owner password respectively, take care of the authentication process while converting the PDF files.
pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt
Make sure to replace password with the password of the PDF file.
You can also combine multiple flags to get the desired output. For example, to convert pages one to three of a password-protected PDF to text:
pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt
Graphically Convert PDF to a Text File
If working with the command line is not your cup of tea, you can convert PDFs to text files using graphical software like Calibre. It is an ebook management application that you can use to view, organize, and modify PDF files on your system.
Calibre is available on the official Linux distro repositories and anyone can download it using a package manager.
To install Calibre on Ubuntu and Debian:
On RHEL-based distributions like CentOS and Fedora, you can download Calibre using either DNF or Yum.
sudo dnf install calibre
sudo yum install calibre
How to Use Calibre to Convert PDF Files
Once installed, launch Calibre on your system using the Applications Menu. Alternatively, you can start Calibre from the terminal by typing:
To generate text files using PDF with Calibre:
- Click on the Add Books option from the menu.
Calibre will now start converting the specified PDF file to a text document. You can check the status of the process by clicking on the Jobs option, located at the bottom-right of the window.
Working With PDF Files in Linux
When you want to share a document with someone, converting it into a PDF before sharing is the most efficient way. Before, users had to install a dedicated PDF viewer on their system to display PDF files, but now, almost every browser comes with a built-in PDF viewer.
You can find several applications that allow a user to view and edit PDF files easily. Many Linux installations ship with LibreOffice, an office software suite, that can be used as a PDF editor.