旧式:WordでPDFを開いてExcelに取り込む方法
― PDF Reflow機能を使った手順・整形テクニック・限界まで ―
この記事の内容
💡 この方法の概要と前提条件
Word 2013で追加された「PDF Reflow」機能を利用し、PDFファイルをWordで開いて編集可能な文書に変換します。表データが含まれていれば Word の表として再構成されるため、それをコピーして Excel に貼り付けることでデータを取得します。
この方法を使うには以下の環境が必要です:Word 2013以降(Word 2016、2019、Microsoft 365 いずれも可)、テキストベースのPDF(スキャンした画像PDFは不可)、PDFにパスワード保護がかかっていないこと(または解除済みであること)の3つです。
【2】全体フロー
ファイル
(PDF Reflow)
修正
コピペ
完成
【3】手順① PDFをWordで開く
STEP 1 — Wordを起動し、「ファイル」→「開く」→「参照」をクリックします。
STEP 2 — ファイルの種類を「すべてのファイル」または「PDF ファイル (*.pdf)」に変更します。デフォルトではWordファイルしか表示されないため、この切り替えが必須です。
STEP 3 — 取り込みたいPDFファイルを選択して「開く」をクリックします。
STEP 4 — 「PDFから編集可能なWord文書に変換します。この処理には時間がかかることがあります。作成されたWord文書は、元のPDFとまったく同じ表示にはならない場合があります。」という警告ダイアログが表示されます。「OK」をクリックします。
STEP 5 — 変換処理が実行され、PDFの内容がWord文書として表示されます。ページ数の多いPDF(50ページ以上)は変換に数分かかることがあります。
変換後のWordファイルはタイトルバーに「互換モード」と表示されることがあります。これは正常な動作です。そのまま操作を続けてください。
【4】手順② Word上で表を確認・修正する
Wordに変換された表は、元のPDFの見た目を再現しようとした結果、余計な列や結合セルが発生していることがあります。Excelに貼り付ける前にWord上で確認と修正を行うと、後の作業が楽になります。
STEP 1 — Word上の表をクリックして選択状態にします。表の左上に「+」マーク(表移動ハンドル)が表示されることを確認します。
STEP 2 — 表のセル数が元のPDFと一致しているか確認します。1つのセルが複数セルに分割されている場合は、Word上で「セルの結合」を使って修正します。
STEP 3 — 表の前後に余計なテキストボックスや画像が入っていることがあります。これらはExcelに貼り付けるときにノイズになるため、表だけを正確に選択できるよう整理します。
STEP 4 — PDFが複数ページにまたがる表を含む場合、Wordでは各ページの表が個別の表オブジェクトとして変換されることがあります。この場合は後述の「ページまたぎの結合」で対処します。
【5】手順③ Excelにコピー&ペーストする
STEP 1 — Word上の表の左上にある「+」マーク(表移動ハンドル)をクリックして表全体を選択し、Ctrl+C でコピーします。
STEP 2 — Excelを開き、貼り付け先のセル(通常はA1)を選択します。
STEP 3 — Ctrl+V で貼り付けます。Wordの表がExcelのセルに展開されます。
STEP 4 — 貼り付けオプション(右下に表示される小さなアイコン)で「貼り付け先の書式に合わせる」を選ぶと、Wordの装飾(フォント・色・罫線)が除去されてクリーンなデータになります。書式情報も必要な場合は「元の書式を保持」のままにします。
表の構造が大きく崩れている場合は、Ctrl+Shift+V(形式を選択して貼り付け)→「テキスト」を選ぶと、タブ区切りの平文として貼り付けられます。その後「データ」→「区切り位置」で列を分割する方法もあります。
【6】手順④ Excel上での整形テクニック
Word経由で貼り付けたデータは、そのままでは使えないことが多いです。以下の整形テクニックを使ってクリーンなデータにします。
6-1. 余計な空白行の削除
表の途中に空白行が挿入されていることがあります。A列で =LEN(TRIM(A1))=0 のようなフィルター条件を使い、空白行だけを抽出して一括削除します。
6-2. セル内改行の除去
セル内に改行(Char(10))が残っていると、後の集計でエラーの原因になります。
セル内改行を除去する数式
全セルに一括適用するには、空列に上記の数式を入れてコピーし、「値のみ貼り付け」で元のセルに上書きします。
6-3. 先頭・末尾のスペース除去
TRIM+CLEANで制御文字とスペースを除去
CLEAN関数は印刷不可能な制御文字を除去し、TRIMは余分なスペースを取り除きます。PDF変換では見えない制御文字が混入することがあるため、CLEAN と TRIM の併用がお勧めです。
6-4. 数値の文字列化を修正
数値データがテキストとして貼り付けられ、セルの左上に緑色の三角マークが表示されることがあります。該当セルを選択 →「エラーチェックオプション」→「数値に変換」で修正するか、以下の数式でまとめて変換します。
文字列→数値に変換する数式
6-5. ページまたぎの表を結合する
元のPDFで3ページにまたがる表が、Word変換で3つの別々の表になった場合、Excel上では3回の貼り付けが必要です。2回目以降はデータ部分だけ(ヘッダー行を除いて)コピーし、1回目のデータの末尾に追記します。列の並び順がすべて同じであることを必ず確認してください。
【7】よくある問題と対処法
| 問題 | 原因と対処法 |
|---|---|
| 1つのセルに複数列のデータが入ってしまう | PDFの表で列の区切りが罫線ではなくスペースで表現されていた場合に起きます。Excel上で「データ」→「区切り位置」→「スペース」で分割します。固定長のレポート(官公庁の統計表など)では「固定幅」を選んで手動で区切り線を入れる方が正確です。 |
| 表がテキストボックスの集合として変換される | PDFの作り方によっては、表がテキストボックス(図形)の集合としてWord上に配置されることがあります。この場合はWord上で表を修正するのが難しいため、PDFからテキストだけをコピー(Adobe ReaderでCtrl+A → Ctrl+C)してExcelにテキスト貼り付けし、「区切り位置」で整形する方が早いです。 |
| 日本語が文字化けする | PDFにフォント情報が正しく埋め込まれていない場合に発生します。この場合はWord変換では対処が困難です。Adobe Acrobat ProやサードパーティツールでExcel/CSV直接エクスポートを試みてください。 |
| 変換に非常に時間がかかる | 100ページを超えるPDFや、複雑なレイアウト(グラフ・画像が多い)PDFは変換に長時間かかります。必要なページだけを事前にAdobe Readerで抽出(「印刷」→「PDF」→ページ範囲指定)してからWordで開くと効率的です。 |
【8】実践例:請求書PDFからデータを取得する
シナリオ:取引先から届いた請求書PDF(3ページ、明細行50行)をExcelに取り込む
| 品名 | 数量 | 単価 | 金額 |
|---|---|---|---|
| A4コピー用紙 | 10 | ¥350 | ¥3,500 |
| ボールペン黒 | 50 | ¥80 | ¥4,000 |
| …(計50行、3ページにまたがる) | |||
| A | B | C | D | |
|---|---|---|---|---|
| 1 | 品名 | 数量 | 単価 | 金額 |
| 2 | A4コピー用紙 | 10 | 350 | 3500 |
| 3 | ボールペン黒 | 50 | 80 | 4000 |
| … | (50行すべて取り込み完了) | |||
STEP 1 — Wordで請求書.pdfを開く。変換ダイアログで「OK」。3ページ分の表が3つの独立した表としてWord上に表示される。
STEP 2 — 1つ目の表(1ページ目)を全選択してコピーし、ExcelのA1に貼り付け。ヘッダー行+データ行が取得される。
STEP 3 — 2つ目の表(2ページ目)はヘッダー行が重複しているので、データ行だけを選択してコピーし、Excelの末尾に追記。3つ目も同様。
STEP 4 — 「単価」「金額」列が文字列(¥記号付き)になっているため、以下の数式で数値に変換。
STEP 5 — TRIM(CLEAN()) で制御文字・余分なスペースを除去して完成。
【9】この方法の限界
Word変換はPDFデータ取得の最初の手段として長く使われてきましたが、以下の明確な限界があります。
| 限界 | 詳細 |
|---|---|
| 再現性が低い | 同じPDFでもWord変換のたびに微妙に異なる結果になることがある。再現性のある処理パイプラインを構築できない。 |
| 自動化できない | 毎回手作業(Word→コピー→Excel→整形)が必要。VBAで自動化することは技術的に可能だが複雑。 |
| 複数テーブルの扱いが困難 | 1つのPDFに複数の異なる表がある場合、どの表がどのデータかを目視で判断して個別にコピーする必要がある。 |
| ページまたぎが手作業 | ページをまたぐ表はページ単位で分割されるため、手動で結合しなければならない。 |
| 大量ファイルの処理に不向き | 10個のPDFを処理するなら10回同じ作業を繰り返す必要がある。 |
パワークエリのPDFコネクタを使えば、これらの限界の多くが解消されます。パワークエリ基本編をご覧ください。
📝 まとめ
Word経由のPDF変換は、Excel 2013〜2016の時代に主流だった方法であり、Word 2013以降があれば追加のソフトなしに使えるという手軽さがあります。テキストベースのPDFであれば、表構造が比較的シンプルな場合(列数が少ない、罫線がはっきりしている)には今でも十分実用的です。
ただし、セル結合のズレ、ページまたぎの手動結合、繰り返し作業の自動化不可といった限界があるため、Excel 2019以降の環境ではパワークエリへの移行を強くお勧めします。Word変換は「古い環境での緊急手段」または「パワークエリで上手くいかないときの補助手段」として位置づけるのが適切です。
パワークエリの基本操作は → GUIマスターシリーズ①〜⑥
応用操作は → 応用編⑦〜⑪