Giới thiệu chi tiết về phần mềm PDFlib TET
PDFlib TET (Text and Image Extraction Toolkit) là một thư viện lập trình độc lập được phát triển bởi PDFlib GmbH (nay thuộc Apryse), chuyên dùng để trích xuất văn bản, hình ảnh và metadata từ các tài liệu PDF một cách đáng tin cậy và hiệu quả. Phần mềm này được thiết kế dành cho lập trình viên, cho phép tích hợp vào các ứng dụng desktop, server hoặc batch processing để xử lý PDF động, chẳng hạn như xây dựng công cụ tìm kiếm, chuyển đổi định dạng, repurposing nội dung, hoặc phân tích PDF dựa trên nội dung (ví dụ: tách PDF theo tiêu đề hoặc kiểm tra vị trí trống để thêm barcode). TET hoạt động mà không cần phần mềm bên thứ ba, hỗ trợ đa luồng cho môi trường server 24/7, và cung cấp hiệu suất cao lên đến hàng nghìn trang/giây. Nó xử lý tất cả phiên bản PDF lên đến Acrobat DC (ISO 32000-1 và -2, PDF 2.0), bao gồm PDF bảo vệ (nếu có password) và PDF hỏng (với khả năng sửa chữa). TET xuất văn bản dưới dạng Unicode strings với thông tin chi tiết về glyph (vị trí, kích thước, font, màu sắc), trích xuất hình ảnh dưới định dạng TIFF, JPEG, JBIG2 hoặc JPEG 2000 mà không downsampling hoặc chuyển đổi màu để giữ chất lượng gốc, và hỗ trợ xuất ra định dạng TETML (XML-based) để xử lý dễ dàng với công cụ XML như XSLT.
Lịch sử của PDFlib TET gắn liền với PDFlib GmbH, công ty tiên phong trong lĩnh vực PDF từ những năm 1990. Phiên bản mới nhất là TET 5.6 (cập nhật năm 2025), với các cải tiến về hỗ trợ ngôn ngữ và hiệu suất. TET thuộc gia đình sản phẩm TET Family, bao gồm core TET (thư viện chính), TET PDF IFilter (cho tìm kiếm Windows), và plugin miễn phí cho Adobe Acrobat để đánh giá tương tác. Mục đích chính của TET là giải quyết các thách thức trong trích xuất PDF, như xử lý dehyphenation (kết hợp từ bị ngắt dòng), loại bỏ text duplicate (shadow/artificial bold), phân tích layout (columns, tables, lists), và hỗ trợ tất cả hệ chữ viết toàn cầu với Unicode normalization. Lợi ích nổi bật bao gồm: độ tin cậy cao cho PDF vấn đề (từ InDesign, TeX, mainframe), tích hợp dễ dàng với các ngôn ngữ lập trình (C/C++, Java, .NET, PHP, Python, Perl, Ruby, RPG), hỗ trợ nền tảng rộng (Windows, macOS, Linux, Unix, IBM AIX/System i/Z, iOS/Android), và các connectors cho tích hợp với Lucene, Solr, TIKA, Oracle Text, MediaWiki. TET đặc biệt hữu ích cho các ứng dụng doanh nghiệp như index PDF cho search engine, chuyển PDF sang HTML, hoặc xử lý nội dung cho accessibility (PDF/UA).
Các tính năng chính của PDFlib TET
Dựa trên phiên bản 5.6, TET cung cấp các tính năng cốt lõi tập trung vào trích xuất chính xác và phân tích nội dung, với sự kết hợp giữa thuật toán patented và giao diện dễ sử dụng. Dưới đây là danh sách chi tiết, phân loại theo nhóm:
Trích xuất Văn bản và Phân tích Nội dung (Text Extraction & Content Analysis)
- Hỗ trợ PDF Input: Xử lý tất cả phiên bản PDF lên đến 2.0, PDF bảo vệ (với password), và sửa chữa PDF hỏng.
- Hệ chữ viết Toàn cầu: Hỗ trợ Latin, Greek, Cyrillic; Arabic/Hebrew (reordering bidirectional, normalization); CJK (horizontal/vertical, bất kể encoding); Indic (không reordering glyph); tất cả ngôn ngữ Unicode khác.
- Unicode Normalization: Chuyển đổi text sang Unicode, phân tích ligatures/multi-glyph thành sequences, map glyph không Unicode sang ký tự thay thế, workaround cho PDF từ InDesign/TeX/mainframe.
- Phân tích Nội dung: Xác định word boundaries, dehyphenation (kết hợp từ ngắt), loại bỏ duplicate (shadow/bold artificial), recombine paragraphs theo reading order, sắp xếp text scattered.
- Phát hiện Layout: Phân tích columns, tables (spanning cells), lists (bulleted/numbered) để cải thiện ordering.
- Geometry và Vị trí: Cung cấp metrics chính xác (position, glyph widths, direction); exclude/include areas cụ thể (headers/footers/margins).
- Màu sắc Văn bản: Trích xuất color per glyph; simplify color spaces (Separation/DeviceN sang alternate).
Trích xuất Hình ảnh (Image Extraction)
- Định dạng Output: TIFF, JPEG, JBIG2, JPEG 2000; báo cáo geometry (position, size, angles).
- Xử lý Fragmented Images: Kết hợp fragments thành images lớn hơn, không downsampling/chuyển đổi màu để giữ chất lượng gốc.
- Ignore Artifacts: Bỏ qua content Artifact-tagged trong Tagged PDF/PDF/UA (headers/footers).
Phân tích PDF và Metadata (PDF Analysis & Metadata)
- pCOS Interface: Query document info, XMP metadata, fonts, page sizes, conformance (PDF/A/X/UA).
- Document Domains: Trích xuất từ page content, document info, XMP (document/image), bookmarks, attachments/portfolios (recursive), form fields, comments/annotations, general properties (page count).
- XMP Metadata Handling: Trích xuất qua pCOS, include trong TETML, embed vào extracted images (TIFF/JPEG).
Postprocessing và Output (Postprocessing & Output)
- Unicode Postprocessing: Foldings (preserve/remove/replace characters), decompositions (normalize Japanese variants/superscripts), conversion sang normalization forms (NFC).
- TETML Output: XML representation với text, fonts/positions, resources (fonts/images/colorspaces), metadata, interactive elements (form fields/annotations/bookmarks/JavaScript), tables/lists/images, color spaces/ICC profiles/output intents; xử lý với XSLT (samples included).
Tích hợp và Connectors (Integration & Connectors)
- Connectors: Lucene, Solr, TIKA, Oracle Text, MediaWiki.
- TET PDF IFilter: Riêng cho Microsoft (Windows Search, SharePoint, SQL Server) để index text/metadata.
- Cookbook: Samples lập trình cho text/image extraction, kết hợp với PDFlib+PDI (thêm bookmarks/links dựa trên text).
- Deployment: Library cho C/C++/Java/.NET/PHP/Python/Perl/Ruby/RPG/Objective-C; command-line cho batch; TETML cho XML workflows.
Các tính năng khác
- Hiệu suất và Deployment: Optimized C/C++ core, multi-threaded, server-ready; hỗ trợ mobile (iOS/Android), embedded Linux.
- Plugin Miễn phí: TET Plugin cho Adobe Acrobat để đánh giá tương tác.
Bảng so sánh tính năng giữa các gói bản quyền phần mềm PDFlib TET
PDFlib TET là sản phẩm riêng biệt trong TET Family, với core TET (thư viện chính) và TET PDF IFilter (riêng cho Windows search, sản phẩm độc lập). Không có gói tích lũy như PDFlib Family (basic/+PDI/PPS), mà chủ yếu phân biệt theo editions (Desktop/Server), platforms, và options (with/without support). Giấy phép perpetual (vĩnh viễn), với support contract tùy chọn (20% giá/năm cho updates/support).
| Tính năng / Gói | Desktop (Windows/macOS) | Server (Windows/Linux) | Server (IBM AIX/System i) |
|---|---|---|---|
| Giá mẫu (USD, perpetual không support) | 1650 | 3300 | 630 |
| Đối tượng mục tiêu | Desktop apps, single computer | Server deployment, multi-threaded/batch | Enterprise IBM systems |
| Tất cả tính năng core (text/image extraction, Unicode, geometry, TETML, pCOS) | ✓ | ✓ | ✓ |
| Hỗ trợ platforms cụ thể | Windows 10/11, macOS x64/ARM64 | Windows Server, Linux x64/ARM64 | IBM AIX, System i |
| License packs (20/50/100/200 licenses, single key) | ✓ (chỉ Windows/macOS desktop) | ✗ | ✗ |
| Free development/testing licenses (same OS) | ✓ | ✓ | ✓ |
| Redundant backup machines (non-concurrent) | ✓ | ✓ | ✓ (trừ IBM Z) |
| VM/Cloud licensing (usage instance) | ✓ (covers all VMs same OS/physical) | ✓ | ✓ |
| Support contract (20% giá/năm, updates/support) | ✓ | ✓ | ✓ |
| Major update (60% giá target) | ✓ | ✓ | ✓ |
| Minor update (20% giá target) | ✓ | ✓ | ✓ |
| Volume discounts (10-15% cho 5-10+) | ✓ | ✓ | ✓ |
| Premium/OEM licenses (royalty-free integration) | ✓ (liên hệ) | ✓ (liên hệ) | ✓ (liên hệ) |
| TET PDF IFilter integration (Microsoft search) | ✗ (sản phẩm riêng) | ✗ (sản phẩm riêng) | ✗ (sản phẩm riêng) |
| Free TET Plugin cho Acrobat | ✓ | ✓ | ✓ |
|
Soft365 được chứng nhận là đối tác cung cấp phần mềm PDFlib bản quyền. Trải qua 15 năm hình thành phát triển và giữ vững vị thế trên thị trường, chúng tôi tự hào mang đến cho quý khách hàng giải pháp phần mềm bản quyền chính hãng với mức giá ưu đãi, dịch vụ tư vấn và hỗ trợ hoàn hảo.
|
| 该公司 | PDFlib |
|---|---|
| 许可表格 | 执照 |
| 客户细分 | Doanh nghiệp SMB, Doanh nghiệp Enterprise |
| 注册类型 | 永远 |
| Bộ giải pháp | Phần mềm PDF |
| 该公司 | PDFlib |
|---|---|
| 许可表格 | 执照 |
| 客户细分 | Doanh nghiệp SMB, Doanh nghiệp Enterprise |
| 注册类型 | 永远 |
| Bộ giải pháp | Phần mềm PDF |



