news

【研究ニュース】マルチモーダル大規模言語モデルを活用したOCRシステム「Humanitext OCR」を公開

　当センターの岩田直也准教授、桜美林大学の田中一孝准教授、東京大学の小川潤助教らによる「Humanitextプロジェクト」は、最新の大規模言語モデル（LLM）が備える画像・文字認識機能を活用し、複雑な文書のOCR（Optical Character Recognition）を容易に行えるシステム「Humanitext OCR」を公開しました。本システムは、専門的なプログラミングの知識がなくても高精度で柔軟なOCR処理を実現できるように設計されています。

　従来のOCRでは、複雑なレイアウトや多数の脚注・注釈を含む文献から必要なデータのみ取得することが難しいという課題がありました。Humanitext OCRでは、大規模言語モデルの高度な画像理解機能を活かし、自然言語による「プロンプト」（追加や削除の要望）を入力するだけで、不要な領域の削除や複数ページのテキスト連結など、多様な処理を容易に行うことができます。また、OCR結果に対する「校正」ステップを組み込むことで、誤字や余計な要素の検出・修正を自動化できる点も特徴です。

　このシステムは、主に学術研究の現場で必要とされる柔軟性を重視して開発されました。論文や古典文献など多言語・専門用語が混在する資料に対しても、高い認識精度が期待できます。今後は、エージェント的な機能拡張やプロンプトの高度化などの工夫を通じてOCR精度のさらなる改善を目指すとともに、研究データベースとの連携を強化し、デジタル人文学の研究基盤としての活用を推進していく予定です。

▼ システムへのアクセスはこちら
https://ocr.humanitext.ai/

本取り組みに関するお問い合わせは、以下の連絡先までお願いいたします。
連絡先：iwata.naoya.y7[あっと]f.mail.nagoya-u.ac.jp
※[あっと]を@へ変更

最新情報

【研究ニュース】マルチモーダル大規模言語モデルを活用したOCRシステム「Humanitext OCR」を公開

最新記事

年別アーカイブ