AI時代の文化遺産デジタルドキュメンテーション
AI時代の文化遺産デジタルドキュメンテーション
Reimagining Cultural Heritage Documentation in the Age of AI
高田 祐一 Yuichi TAKATA
1.はじめに
文化遺産の記録・保存において、その媒体と方法論は社会の外部環境の技術変化によって変わっていくだろう。印刷物のみが情報伝達の基本単位であった時代には、調査報告書や実測図面を紙として刊行し、調査機関や図書館に物理的に保管することのみが選択肢であった。印刷物は適切な環境に保管すれば、ある程度の耐久性に優れ、特殊な機器を必要とせず真正性(オーセンティシティ)を担保する媒体とされた。活用としての閲覧と保管を同時に実現できた。
しかし、デジタル技術を当たり前の前提にした社会においては、文化遺産に関する情報の生成・流通・保存のあり方を根本から変えつつある。日本において全国文化財総覧に登録された発掘調査報告書の文字数は40億字(2026年2月時点)に達し、電子化されていない報告書も含めると120億字を超えると推計される。いわば「制御できないほどの情報を、日本考古学は抱えてしまった」[1] 状況であり、デジタル化による機械可読と検索性の向上が不可避の課題となっている。
さらに近年、人工知能(AI)技術の急速な発展は、デジタルドキュメンテーションの概念そのものを拡張しつつある。単に文化遺産の形状を正確に計測し忠実に記録するという従来の枠組みを超え、AIは自動解析・意味理解・損傷予測・仮想復元・知識統合・再構築といった高次の機能を担いうる存在となった。本稿では、紙の時代からデジタル時代、そしてAI時代へと移行する文化遺産ドキュメンテーションのパラダイムシフトを論じ、それに伴うデータ保管のあり方やオーセンティシティへの対応について考察する。
2.紙の時代からデジタル時代へ
文化遺産の記録保存において、印刷物は長らく適切な媒体とみなされてきた。文化庁による整理においても、保存性・精度・利活用・真正性のいずれの観点においても印刷物がバランスがよいと再確認されている [2]。紙は劣化が比較的遅く、閲覧するための機器を必要とせず、改ざんの痕跡も残りやすいという特性をもつ。
一方、紙の限界もまた明白である。物理的な劣化リスク、保管空間の問題、検索性の低さ、そして国境を越えた共有・流通の困難さがある。重要な文化財報告書ほど閲覧で活用され、ボロボロとなり附図は紛失する。行政機関においては全所的にペーパレスが推進され、文化財分野のみ印刷が認められるということは難しい。文化財情報の重要性を主張するために紙を主張するにしても、住民情報、金融、医療、軍事など情報はデジタルである。前近代からの古文書類が残っていることから、和紙の長期保管の優越性が言われることがあるが、当時の文書類のごく一部が伝来しているにすぎないし、1文書は数十字程度だろう。未来に継承する情報量はその程度でよいのだろうか。
デジタル化は1990年代から始まり、フロッピーディスクやCD-ROMの報告書添付の試行 [3]、さらにPDFによるインターネット公開へと進化した。2001年の埋蔵文化財行政研究会シンポジウムでは、研究報告書とデータファイルを組み合わせたデジタル報告書が理想と期待され、成果報告をデジタルとできれば記録保存の概念規定の再構築にもつながるとされた [4]。しかし、2000年代においては検討が進まなかった。2010年代から浸透したPDFは、テキストと画像が癒着した非構造化データであり、機械可読性が著しく低い。検索エンジンからのアクセス向上や、国際的なFAIR原則(Findable・Accessible・Interoperable・Reusable)への対応という観点から、PDFを主体とする情報公開には本質的な限界がある。
こうした状況を踏まえ、デジタル時代に即した成果公開のあり方として、オンラインジャーナル形式とデータリポジトリの組み合わせが有効である。奈良文化財研究所が2024年に公開した「文化財データリポジトリ」と「文化財オンラインライブラリー」はその具体的実践である [5]。データリポジトリには画像・図面・3Dデータ・動画といったデジタルデータを登録・公開でき、各データにはIDが付与されて再利用が可能となる。ライセンス情報も付与する。オンラインライブラリーは論文や報告書の本文をWebページとして公開し、DTPスキルを不要にしながら組版コストをゼロにした。この仕組みによって、海外からの多言語アクセスも容易になり、真の意味での情報のオープン化が実現する。
3.AI時代へのパラダイムシフト
(1)従来のデジタルドキュメンテーションの特性
デジタル技術が文化遺産の記録に導入された当初、その主たる目的は「正確に計測し、忠実に保存する」ことであったろう。そしてデータの長期保管が重視されガイドラインも作成された [6]。3Dスキャナ・LiDAR・フォトグラメトリといった技術の普及により、文化財の形状を手描きに比べ高精度に記録することが可能となった。発掘遺構・遺物・建築物等の三次元モデルが作成され、かつて実測図面に落とし込む際に失われていた情報を保全できるようになった。
しかしこの段階では、デジタルデータはあくまでも「忠実な記録媒体」として機能しているにすぎない。3Dモデルは計測した事実を忠実に再現するが、そこに意味の解釈は介在しない。膨大なデータが蓄積されながらも、研究者が個別に確認し判断するというワークフローは変わらず、情報爆発の課題は解消されなかった。1980年代に田中琢が「発掘調査のもたらす多量の情報に対処しうる情報処理システムの確立」[7]を課題として提起してから半世紀近くが経つ今日においても、日本における発掘調査報告書を例に取れば、1日7時間読み続けても132年かかるとされる推定120億文字の蓄積を活かしているとは言い難い。
(2)AI時代の新たな可能性
AI時代のデジタルドキュメンテーションは、従来の「正確に計測し忠実に保存する」機能に加え、新たな可能性が創出された。自動解析・意味理解・損傷予測・仮想復元・知識統合・再構築という方向性がある。
自動解析と意味理解においては、大規模言語モデルを用いた発掘調査報告書からの考古学情報抽出が実証されている [8]。膨大な報告書から出土遺物・遺構の名称や数量・時代といった情報を自動的に構造化するこの試みは、2025年2月時点での精度17%から、同年4月には90%にまで改善するという急速な進歩を遂げた。AIにテキストを読んでもらう時代が、すでに現実のものとなっている。
損傷予測については、3Dモデルの経年変化モニタリングや石垣BIM(Building Information Modeling)の開発が進んでいる [9]。城郭石垣の3Dスキャンデータから個々の石材を自動認識し、IDを付与して面積・角度を算出するこの技術は、従来の手作業に比べて777倍の速度で図面化を実現する。継続的な計測データの蓄積によって、劣化の傾向を予測し、修復計画に活かすことが可能となる。
知識統合においては、文化財総覧WebGISが文化財位置情報68万件を統合し、誰でも無償で利用できるプラットフォームとして機能している [10]。さらに、機械学習による遺跡存在予測では、高密度地形データと既知の遺跡情報を組み合わせることで、山間部で踏査困難な場所に新規古墳や遺跡を発見する実証成果が得られている [11]。現地形に顕現しない不可視の地下の遺跡についても存在予測が可能となるだろう。AIは大量データから可能性の高いものを提示することで人間を支援し、無意識の思い込みを突破するきっかけともなりうる。
4.再構築(Reconstruction)という新たな展開
AI時代のデジタルドキュメンテーションは、「再構築(Reconstruction)」という新たな可能性を切り開く。再構築の本質的な意義は、単なる「保存」から「継承」への転換にある。文化遺産には、現物そのものに加え、膨大な記録資料が付随している。それらの評価や意味付けは本来、専門職によって担われてきた。しかし、その情報量はすでに人間が十分に処理できる範囲を超えている。そこで、質・量ともに適切に整備されたデジタルデータを基盤とし、AI等を活用することで、制御困難な情報の集積を、単なる保存の状態から、意味を付加した「継承」へと転換する再構築が可能となる。この実現のためには、既存の文化遺産デジタルデータを、単なる事実の記録から、意味を伴うデータへと高度化する必要がある。膨大なデータを扱う以上、自動解析の導入は不可欠となるだろう。ただし、そこで得られる成果はあくまで一義的なものである。インプットデータとして、どういう記録があって何がないのか等を整理しておく必要がある。
5.オーセンティシティへの対応
データの真正性(オーセンティシティ)は、紙の時代から問われてきた問題であるが、AI時代においてその複雑度は飛躍的に増している。AIが生成・加工・補完したデータと、現地で計測した生データとをいかに区別するかは、文化遺産ドキュメンテーションの根幹に関わる課題である。
データリポジトリのアーキテクチャは、この課題への一つの回答を示している。データセットごとにIDを付与し、作成者・作成日時・使用機器・処理プロセスを記録し、ライセンスを明示するという仕組みは、データのプロビナンス(来歴)管理として機能する [12]。一度登録されたデータは変更されず、引用被引用の関係が可視化される。
また著作権の問題もオーセンティシティと密接に絡む。データの発注者・制作者・権利保有者を調査段階で明確化し、アーカイブ収録時にライセンス条件をメタデータとして記録することが不可欠となる。
6.おわりに
文化遺産のデジタルドキュメンテーションは、紙の時代の「正確な記録・忠実な保存」から、デジタル時代の「機械可読なデータの流通・再利用」を経て、AI時代の「自動解析・意味理解・損傷予測・仮想復元・知識統合・再構築」へとその役割を拡張し続けている。この変化はただの技術革新ではなく、文化遺産継承の可能性を拡張するパラダイムシフトである。
紙の報告書を基本単位とする従来の体制から、データリポジトリとオンラインジャーナルを組み合わせたFAIR原則準拠の公開体制への転換は、今や不可避である。科学研究費助成事業における即時オープンアクセス義務化がそれを後押しし、韓国や英国でもデータ中心のアプローチの方向性が確認されている [12]。デジタルデータはデジタルとして流通させ、3Dは3Dのまま扱い、AIに読ませ、AIに解析させる時代が到来している。
同時に、AIが生成・補完したデータと現地計測データを峻別するオーセンティシティ管理、プロビナンスの透明な記録、著作権への適切な対処といった制度的・倫理的課題への対応も急務である。技術が人間の想像を超えるスピードで進化する今、文化遺産の専門家には文化財の知識に加えてデータを扱うリテラシーが求められ、機関には長期的なデータ管理体制の整備が求められる。先人たちが遺した文化遺産を未来へ確実に継承するために、AI時代のドキュメンテーションの姿を今まさに問い直す必要がある。
引用文献
[1] 広瀬和雄 2015「解説」『考古学で現代を見る』岩波書店
[2] 文化庁 2017『埋蔵文化財保護行政におけるデジタル技術の導入について(報告)2』 http://doi.org/10.24484/sitereports.71613 (2026年2月15日最終確認)
[3] 大工原豊1999「発掘調査報告書の電子情報化について―フロッピーディスクからCD-ROM へ―」『考古学研究』183 号、考古学研究会
[4] 埋蔵文化財行政研究会 2002『調査資料の取扱いと発掘調査報告のあり方―シンポジウム記録集―』研究発表論集第4集
[5] 高田祐一 2024「文化財データリポジトリと文化財オンラインライブラリーの公開:データ再利用性および論文アクセス向上のためのプラットフォーム」『デジタル技術による文化財情報の記録と利活用』6号、奈良文化財研究所 https://sitereports.nabunken.go.jp/online-library/report/45 2026年2月15日最終確認)
[6] 奈良文化財研究所企画調整部文化財情報研究室 2022『考古学・文化財デジタルデータのGuides to Good Practice』奈良文化財研究所研究報告31
[7] 田中琢 1982「考古学、みかけだけのはなやかさ」『同朋』同朋舎出版
[8] 山本湧大・武内樹治・大内啓樹・高田祐一 2025「大規模言語モデルを用いた発掘調査報告書からの考古学情報抽出」言語処理学会第31回年次大会発表論文集
[9] 高田祐一・大村陸・林瑞樹 2025「城郭石垣の記録・管理における技術革新:石垣BIMの開発と実践的応用」『名古屋城調査研究センター研究紀要』第6号 http://doi.org/10.24484/sitereports.142416-126580(2026年2月15日最終確認)
[10] 高田祐一 2022「文化財総覧WebGISによる遺跡情報の統合と活用」『デジタル技術による文化財情報の記録と利活用』4、奈良文化財研究所研究報告33
[11] 高田祐一 2024「AIによる埋蔵文化財の把握の試み」科学研究費助成事業「新しい遺跡を発見する:機械学習による自動地形判読手法の開発」(課題番号21K18408)
[12] 高田祐一2026「英国考古学情報報告オンラインシステムと韓国のデジタル報告書転換への動向」日本文化財保護協会シンポジウム『文化財DXと発掘調査のイノベーション』