{"id":41,"date":"2025-01-27T05:34:15","date_gmt":"2025-01-27T05:34:15","guid":{"rendered":"https:\/\/wp.mueller-online-dienst.de\/?page_id=41"},"modified":"2025-01-27T05:40:47","modified_gmt":"2025-01-27T05:40:47","slug":"pdf-translator-container","status":"publish","type":"page","link":"https:\/\/wp.mueller-online-dienst.de\/?page_id=41","title":{"rendered":"PDF Translator Container"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Das PDF-\u00dcbersetzungsprogramm, das wir hier verwenden, basiert auf mehreren Komponenten, die in verschiedenen Stufen des Prozesses zusammenarbeiten. Hier ist eine \u00dcbersicht \u00fcber die Hauptbestandteile:<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>1. Frameworks und Bibliotheken<\/strong><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>a) PyPDF2<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Aufgabe<\/strong>: Extrahiert den Text aus PDF-Dokumenten.<\/li>\n\n\n\n<li><strong>Funktion<\/strong>: Es liest die Seiten eines PDF-Dokuments und wandelt den Inhalt in String-Form um, der dann f\u00fcr die \u00dcbersetzung verwendet wird.<\/li>\n\n\n\n<li><strong>Alternative<\/strong>: <code>pdfplumber<\/code> oder <code>PyMuPDF<\/code> k\u00f6nnten ebenfalls verwendet werden, insbesondere f\u00fcr PDFs mit komplexeren Layouts.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>b) Hugging Face Transformers<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Aufgabe<\/strong>: Stellt die \u00dcbersetzungsmodelle bereit.<\/li>\n\n\n\n<li><strong>Funktion<\/strong>: Die <code>transformers<\/code>-Bibliothek wird verwendet, um auf vortrainierte Modelle zuzugreifen, wie z. B. <code>Helsinki-NLP\/opus-mt-en-de<\/code>, die speziell f\u00fcr maschinelle \u00dcbersetzung trainiert wurden.<\/li>\n\n\n\n<li><strong>Alternativen<\/strong>: OpenNMT oder MarianMT-Modelle k\u00f6nnten ebenfalls verwendet werden.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>c) Gradio<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Aufgabe<\/strong>: Bietet die Weboberfl\u00e4che.<\/li>\n\n\n\n<li><strong>Funktion<\/strong>: Die Bibliothek <code>gradio<\/code> wird verwendet, um eine benutzerfreundliche Schnittstelle f\u00fcr den Upload von PDF-Dateien und die Anzeige der \u00fcbersetzten Inhalte bereitzustellen.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>2. Modelle und Algorithmen<\/strong><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>a) Helsinki-NLP\/Opus-MT<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Aufgabe<\/strong>: F\u00fchrt die eigentliche \u00dcbersetzung durch.<\/li>\n\n\n\n<li><strong>Funktion<\/strong>: Dieses vortrainierte Modell ist f\u00fcr die maschinelle \u00dcbersetzung von Englisch nach Deutsch optimiert.<\/li>\n\n\n\n<li><strong>Vorgehen<\/strong>: Das Modell teilt den Eingabetext in S\u00e4tze, tokenisiert sie und erzeugt eine \u00dcbersetzung basierend auf Wahrscheinlichkeiten.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>b) SentencePiece<\/strong><\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Aufgabe<\/strong>: Tokenisierung von Text.<\/li>\n\n\n\n<li><strong>Funktion<\/strong>: SentencePiece ist ein unsupervisiertes Tokenisierungstool, das W\u00f6rter in kleinere Segmente zerlegt, um sie f\u00fcr maschinelle \u00dcbersetzungen verst\u00e4ndlich zu machen.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>3. Ablauf<\/strong><\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Datei-Upload<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Die PDF-Datei wird \u00fcber die Gradio-Oberfl\u00e4che hochgeladen.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Textextraktion<\/strong>:\n<ul class=\"wp-block-list\">\n<li>PyPDF2 extrahiert den Text aus dem PDF.<\/li>\n\n\n\n<li>Der extrahierte Text wird in einen String umgewandelt.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Vorverarbeitung<\/strong>:\n<ul class=\"wp-block-list\">\n<li>\u00dcberfl\u00fcssige Leerzeichen und Sonderzeichen werden entfernt.<\/li>\n\n\n\n<li>Der Text wird in kleinere Abschnitte aufgeteilt.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>\u00dcbersetzung<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Der Text wird an das <code>transformers<\/code>-Modell \u00fcbergeben.<\/li>\n\n\n\n<li>Die \u00dcbersetzung erfolgt f\u00fcr jeden Abschnitt.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Ausgabe<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Der \u00fcbersetzte Text wird in der Gradio-Oberfl\u00e4che angezeigt.<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>4. Infrastruktur<\/strong><\/h3>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>Docker<\/strong>:<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Aufgabe<\/strong>: Erm\u00f6glicht die Bereitstellung aller ben\u00f6tigten Komponenten in einem isolierten Container.<\/li>\n\n\n\n<li><strong>Vorteil<\/strong>: Unabh\u00e4ngigkeit von der Systemumgebung und einfache Installation.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\"><strong>Python-Umgebung<\/strong>:<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Bibliotheken wie PyTorch werden verwendet, um das \u00dcbersetzungsmodell auszuf\u00fchren.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>Erweiterungsm\u00f6glichkeiten<\/strong><\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>OCR-Unterst\u00fctzung<\/strong>:\n<ul class=\"wp-block-list\">\n<li>F\u00fcr PDFs mit Bildern kann eine OCR-Bibliothek wie <code>Tesseract<\/code> verwendet werden, um den Text zu extrahieren.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Andere Sprachen<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Durch Wechsel des Modells k\u00f6nnten \u00dcbersetzungen in andere Sprachrichtungen hinzugef\u00fcgt werden.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Ausgabe in PDF<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Nach der \u00dcbersetzung k\u00f6nnte der Text wieder in ein neues PDF-Dokument umgewandelt werden.<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p class=\"wp-block-paragraph\">\ud83d\ude0a<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Das PDF-\u00dcbersetzungsprogramm, das wir hier verwenden, basiert auf mehreren Komponenten, die in verschiedenen Stufen des Prozesses zusammenarbeiten. Hier ist eine \u00dcbersicht \u00fcber die Hauptbestandteile: 1. Frameworks und Bibliotheken a) PyPDF2 b) Hugging Face Transformers c) Gradio 2. Modelle und Algorithmen a) Helsinki-NLP\/Opus-MT b) SentencePiece 3. Ablauf 4. Infrastruktur Docker: Python-Umgebung: Erweiterungsm\u00f6glichkeiten \ud83d\ude0a<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-41","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=\/wp\/v2\/pages\/41","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=41"}],"version-history":[{"count":3,"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=\/wp\/v2\/pages\/41\/revisions"}],"predecessor-version":[{"id":44,"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=\/wp\/v2\/pages\/41\/revisions\/44"}],"wp:attachment":[{"href":"https:\/\/wp.mueller-online-dienst.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=41"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}