透明テキスト付きPDFからテキストデータを作成する

PDF資料には透明テキスト付きPDFといった見えないテキストがページ内に埋め込まれているものがあります。透明テキスト付きPDFであれば、点字ディスプレイやスクリーンリーダーを用いて読む、あるいは聞くことができます。しかし、体裁上の改行や段組みの影響で読み上げる順序が間違っているなど不十分な場合があります。
今回は、透明テキスト付きPDFを使って効率良くプレーンなテキストデータを作成する方法をについてご紹介します。

Index

テキストの抽出

透明テキスト付きPDFはページ内にテキストが埋め込まれているため、テキストをクリップボードにコピーすることができます。カーソルを文字のところに合わせ、ドラックすることでテキストを選択し、「Ctrl+C」、あるいは選択部分を右クリックし「コピー」からコピーができます。コピーしたテキストはメモ帳やWord等の編集しやすいテキストエディターに貼り付けます。
PDFからテキストをコピーする際に「Ctrl+A」で全選択してページ全体のテキストをコピーするのも良いですが、先述したようにPDFによって埋め込まれているテキストの順番がバラバラになっている場合やコピーしたくないテキスト(ページ番号等)までコピーされるので、ドラックで選択したあとコピーしていくことをおすすめします。

2段組のPDFをコピーした際に順番がばらばらになる模式図2段組のPDFで一度に広範囲の文章を選択すると部分的に選択されないことや順序通りにならない場合がある

ページ番号まで選択されている図「Ctrl+A」で全選択すると章のタイトルやページ番号等の不要なものまで選択される

テキストをコピー出来ない場合は、以下のことが考えられます。

  • 透明テキスト付きPDFではなく、画像データのPDFである。
    →テキストを抽出できないためOCRを使ってテキストデータを作成する必要がある。
  • カーソルが手のひらツールになっている。
    →ページを右クリックし「手のひらツール」から「選択ツール」に変更する(Acrobatの場合)。
  • PDFに保護がかけられており、コピーが制限されている。
    →PDF作成者(教員等)に問い合わせ、保護を解除してもらう。

※PDFから書き出し形式をテキスト(txt)に指定してテキストを抽出する方法もありますが、PDFによっては部分的にテキストが欠落するなど、うまくテキストが抽出されないことがあります。かえって確認作業に時間が取られる可能性もあるため、PDFからtxtへの変換は今回割愛します。

校正

透明テキスト付きPDFからテキストを抽出した際は、OCRで認識したテキストと違い「誤認識」の修正は不要になります。しかし、抽出したテキストには誤認識は無いものの、いくつか確認し校正しておく点があります。

  • 文字化けの確認(旧字体はコピーされず、文字化けする場合がある)
  • ページ番号の挿入
  • 不要な改行の削除(体裁上の改行が入っている場合がある)

校正する際は文字列の「置換」「検索」機能に加えて自動保存の機能のあるWordを使用すると便利です。
また校正の方法については国立国会図書館の「学術文献の視覚障害者用テキストデータ制作仕様書」を参考にすると良いでしょう。

書き出し

Wordを使用して校正を行っていた場合は、「名前をつけて保存」から「書式なし(*.txt)」の形式で保存します。最後に作成したtxtファイルがメモ帳で開けることを念のため確認しておくと良いでしょう。

Wordをテキストで保存する際のフォーマット


公開日:2023年3月15日

以下のGoogleフォームからあなたの感想や要望をお聞かせください。
https://forms.gle/4DkKF5ns13sxzRRk8