Định dạng pdf thường chứa sách điện tử, hướng dẫn và các tài liệu khác. Một số trong số chúng được bảo vệ khỏi sự sao chép, tức là thông tin trong chúng được chứa dưới dạng hình ảnh và văn bản có thể được "rút ra" khỏi nó chỉ bằng cách nhận dạng.
Cần thiết
- - Abbyy FineReader;
- - Abbyy Screenshot Reader.
Hướng dẫn
Bước 1
Tải xuống và cài đặt chương trình Abbyy FineReader trên máy tính của bạn, để thực hiện việc này, hãy truy cập trang web chính thức của ứng dụng https://www.abbyy.ua/download/, chọn sản phẩm mong muốn và nhấp vào liên kết Tải xuống. Chương trình này được thiết kế để quét tài liệu giấy, nhưng bạn có thể sử dụng nó để nhận dạng tệp ở định dạng pdf. Để thực hiện việc này, hãy khởi động chương trình, sau đó chọn menu "File" - "Open". Chọn tệp bạn muốn nhận dạng từ máy tính của mình.
Bước 2
Đặt cài đặt nhận dạng: ngôn ngữ (bạn có thể chọn một số ngôn ngữ, ví dụ: khi văn bản bằng tiếng Nga nhưng lại chứa các từ bằng tiếng Anh); phân chia văn bản thành các khối (khối văn bản, hình ảnh), độ phân giải. Chọn đoạn văn bản cần thiết, nhấp chuột phải và chọn loại khối (văn bản, hình ảnh hoặc bảng).
Bước 3
Sau đó nhấp vào "Nhận biết". Sau đó, bạn có thể lưu văn bản kết quả bằng cách sao chép nó vào tài liệu Word. Nhận dạng tệp pdf có thể được thực hiện cả từng trang và toàn bộ tài liệu cùng một lúc.
Bước 4
Cài đặt Abbyy Screenshot Reader. Sau đó, biểu tượng chương trình sẽ xuất hiện trên khay. Ứng dụng này cho phép bạn nhận dạng văn bản từ tài liệu pdf được mở trên màn hình. Điều này cũng áp dụng cho mọi hình ảnh và mọi thứ thường được hiển thị trên màn hình.
Bước 5
Mở một tài liệu, nhấp vào biểu tượng chương trình, chọn loại nguồn (hình ảnh, văn bản) và loại dữ liệu bạn muốn nhận. Bạn có thể chọn văn bản, bảng hoặc hình ảnh. Ví dụ: nếu bạn cần nhận dạng dữ liệu dạng bảng, hãy chọn hướng "Văn bản" - "Bảng".
Bước 6
Tiếp theo, trên màn hình sẽ xuất hiện con trỏ hình chữ thập, đánh dấu các thông tin cần thiết. Sau khi nhận dạng, một bảng MS Excel sẽ xuất hiện với thông tin được chèn từ tài liệu. Để chia văn bản đã nhận thành các cột trong bảng, hãy sử dụng menu "Công cụ" - "Chia theo cột", chọn dấu phân tách (dấu cách hoặc tab) và nhấp vào "OK".