Hauptmenü
Home
Bauen
Essen & Trinken
Finanzen
Flora & Fauna
Gesundheit
Informationstechnologie
Kunst & Kultur
Politik / Geschichte
Sport & Freizeit
Technik
Transport und Verkehr
Wissenschaft
Google-Werbung
 
   
Home
Portable Document Format (PDF) Drucken E-Mail
Das Portable Document Format (PDF; deutsch: (trans)portables Dokumentenformat) ist ein plattformübergreifendes Dateiformat für Dokumente, das von der Firma Adobe Systems entwickelt und 1993 veröffentlicht wurde.

Ziel war es, ein Dateiformat zu schaffen, mit dem Autoren elektronische Dokumente unabhängig vom ursprünglichen Anwendungsprogramm, Betriebssystem oder der Hardware-Plattform originalgetreu weitergeben können. Ein Leser einer PDF-Datei soll das Dokument immer in der Form betrachten und ausdrucken können, die der Autor festgelegt hat. Die typischen Konvertierungsprobleme (wie zum Beispiel veränderter Seitenumbruch oder falsche Schriftarten) eines Dokuments zwischen den verschiedenen auf dem Markt befindlichen Anwendungsprogrammen entfallen.

Neben Text, Bildern und Grafik kann eine PDF-Datei auch Hilfen enthalten, die die Navigation innerhalb des Dokumentes erleichtern. Hierzu gehören zum Beispiel anklickbare Inhaltsverzeichnisse und miniaturisierte Seitenvorschauen.

Das PDF ist mittlerweile weit verbreitet und wird z. B. von vielen elektronischen Zeitschriften (E-Journals) genutzt. Mittlerweile gibt es auf dem Markt zahlreiche Software-Produkte, die Dateien als PDF erzeugen können. Diese Software erreichen meist den Funktionsumfang von Adobe Acrobat nicht, aber nicht alle Funktionen von Adobe Acrobat sind für den Alltagsgebrauch notwendig.

Übersicht

Grundlagen und Software

Aus Texten, Bildern und Grafiken – gemischte oder einzeln – lassen sich mit entsprechenden Programmen PDF-Dokumente/-Dateien erzeugen (z. B. mit kostenlosen Programmen wie dem PDFCreator und OpenOffice.org oder kostenpflichtigen wie Adobe Acrobat) und mit entsprechenden Leseprogrammen darstellen (z. B. Adobe Reader, Ghostscript, Foxit, Vorschau). Der Ersteller einer PDF-Datei kann diese in vielfältiger Weise vor Missbrauch schützen, indem er die Sicherungsmechanismen des PDF aktiviert. Dadurch sollen u. a. das Copyright besser gewahrt oder durch Verschlüsselung der Zugriff Unbefugter verhindert werden. Je nach Bedarf kann bereits das Öffnen des PDF ein Passwort erfordern, oder das Kopieren von Inhalten aus dem PDF oder das Ausdrucken des PDF wird nicht zugelassen. Die hierfür im PDF implementierten Schutzmechanismen sind jedoch niemals hundertprozentig zuverlässig und insbesondere einfachere Formen der Verschlüsselung sind leicht zu überwinden.

PDF war lange Zeit ein kommerzielles (proprietäres), aber offengelegtes Dateiformat, das im PDF Reference Manual von Adobe dokumentiert ist. Anfang 2007 hatte Adobe PDF in den Standardisierungsprozess der ISO eingebracht und mit der Veröffentlichung am 1. Juli 2008 ist PDF in Version 1.7 als ISO 32000-1:2008 ein Offener Standard.

Bestimmte Methoden beim Umgang mit PDF wurden zur Erleichterung des Datenaustausches in der Druckvorstufe (als PDF/X) schon vorher und zur Langzeitarchivierung von PDF-Dateien (als PDF/A-1 in ISO 19005-1:2005) von der ISO genormt.

In der Startphase war der Adobe Reader kostenpflichtig. Erst die kostenfreie Weitergabe der Software ermöglichte die Verbreitung im heutigen Ausmaß. Im Oktober 2006 wurde die derzeit aktuelle Version des PDF-Dateiformats 1.7 veröffentlicht, die in der neuen Version eingeführten Merkmale erfordern Acrobat ab Version 8 oder höher.

Erzeugung und Umwandlung

PDF ist eine vektorbasierte Seitenbeschreibungssprache, die die freie Skalierbarkeit der Darstellung erlaubt. PDF-Dateien beschreiben das mit dem Erstellungsprogramm erzeugte Layout in einer vom Drucker und von Voreinstellungen unabhängigen Form weitgehend originalgetreu. Das ist einer der wesentlichen Unterschiede zwischen PDF und fortgeschrittenen Beschreibungs- und Auszeichnungssprachen wie SGML oder HTML, wenn es um die Forderung nach unbedingter Layout-Treue geht.

Um eine Darstellung auch auf Ausgabegeräten mit kleiner Anzeigefläche – wie beispielsweise PDAs oder Mobiltelefonen – zu optimieren, können in einem PDF Auszeichnungen (ähnlich HTML-Tags) eingelagert werden, die ein Umbrechen der Seiteninhalte – dann zwangsläufig unter Einschränkung der Layouttreue – ermöglichen. Solche Auszeichnungen ermöglichen es zudem einem Vorleseprogramm, sehbehinderten Nutzern den PDF-Inhalt vorzulesen und erleichtern das Konvertieren des PDF-Inhalts in andere Formate.

Ein häufig verwendetes Programm zur Erzeugung von PDF-Dateien ist Adobe Acrobat Distiller, der aus PostScript-Dateien PDFs erstellt. Acrobat Distiller ist als Desktopprodukt verfügbar für Windows und Mac OS; Serverversionen sowie der kostenlose Adobe Reader existieren auch für andere Plattformen. Mit Hilfe der kostenlosen Software Wine läuft Acrobat Distiller auch unter Linux. Diverse Office- und DTP-Programme von Drittherstellern bieten einen direkten PDF-Export an und sind auf einer Reihe von Plattformen verfügbar. Des Weiteren ist es mit pdfTeX möglich, aus LaTeX direkt eine PDF-Datei zu erzeugen. Mit inzwischen zahlreichen Werkzeugen und Programmierbibliotheken lassen sich auf unterschiedlichste Weise mit unterschiedlicher Spezialisierung PDF-Dateien erstellen, die Erzeugung von PDF-Dateien ist nahezu auf jeder Plattform möglich.

Adobe räumt Entwicklern teilweise das Recht ein, eigene Anwendungen zur Generierung und Bearbeitung von PDF-Dokumenten zu entwickeln, behält sich aber das Copyright über die Spezifikationen vor. PDF als Seitenbeschreibungssprache kann als Weiterentwicklung des Grafikmodells von PostScript angesehen werden, das ebenfalls offengelegt ist. Ende Februar 2007 hat Adobe angekündigt, die PDF-Spezifikation in der Version 1.7 in die ISO-Normierung einzubringen, und arbeitet hierfür mit dem amerikanischen Branchenverband AIIM zusammen, der das Sekretariat des ISO-Komitee TC 171 innehat. Adobe drohte Microsoft bei Integration des offenen Standards PDF mit kartellrechtlichen Klagen.

Verwendung und Eigenschaften

Eine PDF-Datei kann Dokumente eines Ursprungsprogramms einschließlich aller Farben, Raster- und Vektorgrafiken sehr präzise wiedergeben. Dies gilt grundsätzlich ebenfalls für Schriften.

Dokumente im PDF können einen Umfang von einer bis zu hunderttausenden Seiten haben. Dabei ist die Seitengröße durch das Format selbst nicht begrenzt. In Adobe Acrobat gibt es jedoch durch die Implementierung bedingt Grenzen (bis Version 3 auf 45 mal 45 Zoll [ca. 1,14 m], bis Version 6 auf 200 mal 200 Zoll [5,08 m], und seit Version 7 auf das 75000-fache, das sind 15.000.000 mal 15.000.000 Zoll [381 km]).

In PDF-Dateien werden alle Informationen als nummerierte Objekte abgespeichert. Objekte sind z. B. Schriftinformationen, Zeichenbreiten, verwendete Zeichen-Encodings (Mac/PC ...), Seitenbeschreibung, Parameter für Decoder, Crop-Boxes, einzelne Lesezeichen, Farbdefinitionen, Seitenreihenfolgen, Bitmaps, Formulare, Sprungmarken und alles andere, was in PDF-Dateien gespeichert werden kann. Eine 100-Seiten-PDF-Datei kann ohne weiteres 10.000 Objekte enthalten.

PDF basiert auf dem gleichen Grafikmodell wie die Seitenbeschreibungssprache PostScript. PDF erlaubt gegenüber PostScript einige zusätzliche Funktionen – insbesondere interaktive Elemente wie Lesezeichen, Kommentare, Formularfelder und deren Programmierung mit JavaScript sind möglich. Auch das Grafikmodell für die Seiteninhalte wurde gegenüber PostScript erweitert; um Funktionen wie Transparenz oder optionalen oder schaltbaren Inhalt (in der Acrobat-Bedienungsoberfläche als Ebenen bezeichnet) oder die Unterstützung von ICC-Profilen und OpenType-Schriften.

Schriften (mit Ausnahme von Pixelschriften) und Vektorgrafiken können beliebig ohne Qualitätsverlust vergrößert werden. Große Netzwerkpläne und Datenmodelle lassen sich unter diesen Voraussetzungen verlustfrei auf einer PDF-Seite unterbringen.

Aus PDF-Dokumenten lassen sich Textpassagen, Tabellen und Grafiken (auch Ausschnitte davon) leicht in anderen Anwendungsprogrammen durch Kopieren und Einfügen der jeweiligen Elemente weiterverarbeiten, falls der Ersteller des Dokumentes dies zugelassen hat. Text kann nicht nur zur Weiterverarbeitung in anderen Anwendungen, sondern auch zum Durchsuchen oder zur Verwendung mit anderen Ausgabemedien, wie beispielsweise Screenreadern, extrahiert werden. Durch die Textsuche im einzelnen Dokument oder die Volltextrecherche innerhalb einer PDF-Dokumentensammlung lassen sich sehr einfach Detailinhalte auffinden. Dies funktioniert selbst dann, wenn der Text grafisch verzerrt, z. B. in Kreis- oder Kurvenform dargestellt ist.

Eine Besonderheit von PDF ist der optionale Dokumentenschutz mit 40- oder 128-Bit-Verschlüsselung. Durch Vergabe eines Benutzerpasswortes ist es so möglich, das Dokument nur einem beschränkten Personenkreis zugänglich zu machen. Weiterhin kann der Autor mit einem separatem Besitzerpasswort gezielt die Rechtevergabe des betreffenden Dokuments festlegen. So kann verhindert werden, dass Benutzer das Dokument abändern, ausdrucken oder Teilinhalte kopieren können. Auch ohne Kenntnis des Benutzerpasswortes lassen sich diese Rechteeinschränkungen jedoch mithilfe diverser Werkzeuge insbesondere dann leicht entfernen, wenn zwar ein Besitzerpasswort verwendet wird, das Öffnen des Dokuments jedoch kein Passwort erfordert. Die mit der Verschlüsselung verbundenen Nutzungseinschränkungen lassen sich durch Speichern von Screenshots als Bitmaps und darauf folgende optische Texterkennung leicht umgehen.

Durch entsprechende Werkzeuge lassen sich auch Rechte vergeben, die es ermöglichen PDF-Dokumente mit Notizen, Kommentaren und Dateianhängen zu versehen oder Formulareinträge abzuspeichern. Ursprünglich konnten diese Merkmale nur mit Adobe Acrobat genutzt werden, seit Version 7 ist es jedoch auch mit dem kostenlosen Adobe Reader möglich, Notizen und Kommentare hinzuzufügen und interaktive Formularfelder auszufüllen, sofern das entsprechende Dokument vom Verfasser mit den notwendigen Berechtigungen versehen wurde.

PDF wurde als ein Austauschformat für fertiggestellte Dokumente konzipiert. Inzwischen gibt es eine Reihe von Programmen bzw. Erweiterungen für Adobe Acrobat, mit denen sich PDF-Dateien bearbeiten lassen. Das Format ist jedoch nicht mit Dateiformaten von Textverarbeitungsprogrammen oder Grafikprogrammen vergleichbar und eignet sich, abgesehen von der Notiz- und Kommentarfunktion, nur begrenzt zur Weiterverarbeitung von Dokumenten. Es ist allerdings innerhalb gewisser Grenzen möglich, beispielsweise Tippfehler zu entfernen. Vorteile im Desktop Publishing sind für Grafiker und Designer die Einbindung aller Elemente für die Druckerstellung.

PDF-Dokumente können abhängig vom Einzelfall sowohl größer als auch kleiner als die Dateien der Ursprungsanwendung sein. Die Größe eines Dokuments hängt von der Art der enthaltenen Daten, von der Effizienz des Erstellungsprogramms und davon ab, ob Schriften eingebettet wurden. Schriften können entweder vollständig, als Untermenge der tatsächlich im Dokument verwendeten Zeichen oder aber überhaupt nicht eingebettet werden. Soll ein Dokument zuverlässig darstellbar sein, unabhängig davon, ob auf der Zielplattform die verwendeten Schriften installiert sind, müssen mindestens die tatsächlich verwendeten Zeichen eingebettet werden.

PDF wurde im Laufe seiner Entwicklung mehrfach auf spezielle Anforderungen für die Verwendung im Internet angepasst. So musste ein Dokument ursprünglich vollständig verfügbar sein, um dargestellt werden zu können. Inzwischen ist es möglich, PDF-Dokumente zu linearisieren, so dass Teile eines Dokuments bereits während des Ladevorgangs dargestellt werden können. Seit der Version 1.5 der PDF-Spezifikation können mehrere Objekte in einem PDF zusammengefasst und dann komprimiert werden, was insbesondere bei den für Dokumentstruktur erforderlichen, zahlreichen, kleinen Objekten zu einer deutlich besseren Kompression führt (Bilddaten oder die eigentliche Beschreibung einer Seite konnten schon immer komprimiert werden).

Bei der Archivierung gedruckter Dokumente als PDF-Dateien wird ein gemischter Ansatz bevorzugt, um sowohl das Originaldokument weitestgehend zu erhalten als auch Durchsuchbarkeit zu gewährleisten. Durch geschickte Kombination der von PDF prinzipiell unterstützten Bildkompressionsverfahren wird sehr starke Kompression erreicht (typischerweise 1:200), indem Hintergrund (typischerweise flächige Strukturen und Farbverläufe) und Text (scharfe Ränder, dafür nur wenige Farben) mit verschiedenen, dafür speziell geeigneten Verfahren komprimiert und anschließend übereinandergelegt werden. Der eigentliche Text wird per OCR-Verfahren extrahiert und unsichtbar eingebettet.

Die Eigenschaften von PDF-Dateien

Eine der Stärken des PDF ist es, dass es für alle gängigen Plattformen Betrachter-Programme gibt, so dass eine plattformunabhängige Darstellung des Inhaltes möglich ist. Das bedeutet, dass auf jeder Hard- und Softwareplattform mit einem entsprechenden Betrachter-Programm der Inhalt einer PDF-Datei ohne grafischen Unterschied dargestellt wird.

Sicherheitslücken durch menschliches Versagen

PDF-Dateien können mitunter unbeabsichtigt vertrauliche Informationen beinhalten, die zwar nicht unmittelbar sichtbar sind, aber durch Textsuche gefunden werden können. Einerseits können sehr wohl vorhandene Informationen durch Objekte verdeckt sein oder sich außerhalb des Seitenanzeigebereichs befinden, andererseits kann ein PDF Metadaten enthalten, die nur beim Aufruf entsprechender Dialoge angezeigt werden und gelegentlich unbemerkt bleiben. Insbesondere beim „Schwärzen“ von Textpassagen ist es nicht ausreichend, die jeweilige Textpassage abzudecken, sondern sie muss vollständig aus dem PDF entfernt werden.

Prominente Fallbeispiele

    * Eine Datei, welche den Tod eines italienischen Agenten behandelte, der im März 2005 die Journalistin Giuliana Sgrena aus irakischer Geiselhaft befreite. US-Soldaten erschossen ihn dabei kurz nach dieser Aktion. Der veröffentlichte Bericht war zensiert. Doch fanden sich in der veröffentlichten Datei die redaktionellen Überarbeitungen durch Kopieren des Textes und Abspeichern in eine neue Datei.
    * Das Weiße Haus in Washington veröffentlichte George W. Bushs Rede zum „Plan für den Sieg im Irak“. Die Dateiangaben legten den Ghostwriter offen, nämlich Peter Feaver, Professor für Politikwissenschaften von der Duke-Universität in North Carolina, welcher seit Juni 2005 das National Security Council berät.
    * Nach der Ermordung des libanesischen Politikers Rafiq Hariri fanden sich in einer öffentlich publizierten PDF der UNO die vorher gelöschten Verweise auf Namen syrischer Funktionsträger, welche im Verdacht standen, für das Attentat verantwortlich zu sein.
    * 2007 gelangten im Rahmen der Formel-1-Spionageaffäre sensible Daten über den Boliden der Scuderia Ferrari an die Öffentlichkeit, nachdem zentrale technische Werte des Wagens in einem PDF-Dokument, das als Beweismittel diente, lediglich mit einem schwarzen Balken versehen wurden, der Text jedoch weiterhin vorhanden und extrahierbar war.

Vermeidung

Es ist nicht immer einfach, ungewollte Informationen in einem PDF zu vermeiden, insbesondere dann nicht, wenn man nicht ausschließlich selbst das PDF (sowie das Dokument, aus dem es generiert wurde) erstellt und bearbeitet hat. Es ist wichtig, dass beim Schwärzen von Textpassagen ein Werkzeug eingesetzt wird, das die betreffenden Inhalte vollständig entfernt. Genauso wichtig ist das Prüfen der Metadaten (in Acrobat zu finden über Datei/Eigenschaften). Acrobat Professional 8 bietet hierfür weitgehende Unterstützung, insbesondere durch eine spezielle Funktion zum Entfernen versteckter Informationen.

PDF in Betriebssystemen

Das Einsatzgebiet von PDF ist vielfältig. So ist es nicht verwunderlich, dass mit dem Betriebssystem Mac OS X von Apple erstmals PDF als Standardformat für die Bildschirmausgabe wie auch die Druckausgabe verwendet wurde. Die Vorteile liegen auf der Hand: Mit Hilfe von PDF ist erstmals echtes WYSIWYG möglich. Die PDF-Erzeugung kann aus jedem Programm heraus erfolgen, das einen Druckdialog besitzt. Da PDF auch zur Erzeugung der Druckdaten verwendet wird, ist es möglich, PostScript auch auf Nicht-Postscript-Druckern auszugeben.

Unter Windows, Mac OS Classic und Mac OS X, GNU/Linux und den Unix-Betriebssystemen Solaris, HP/UX und AIX gibt es den kostenlosen Adobe Reader / Acrobat Reader.

Unter Mac OS X ist die PDF-Anzeige Bestandteil des Betriebssystems. Für unixbasierte Systeme gibt es zusätzlich das Programm Xpdf, das auf die grundlegendsten Funktionen (Anzeige auf Bildschirm, Durchsuchen des Dokuments, Ausdrucken) reduziert ist, sowie einige weitere Programme (Okular und Evince), die an ihre Desktop-Umgebung angepasst sind. Die Open-Source-Programme eignen sich auch, vermeintliche „Sicherheitsmerkmale“ von PDF-Dokumenten zu umgehen – so ist es teilweise möglich, Dokumente auszudrucken, obwohl der Autor dem Betrachter des Dokuments diese Möglichkeit eigentlich verwehren wollte.

Dieser Artikel basiert auf dem Artikel Pdf aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.

< zurück   weiter >
Aktuelle IT News