maveriq/DocBank

DocBank is a new large‑scale dataset constructed using weak supervision, designed to provide integrated text and layout information for downstream tasks. Currently, the DocBank dataset contains 500,000 pages of documents, with 400,000 for training, 50,000 for validation, and 50,000 for testing. Annotations are machine‑generated, the language is English, and the dataset is monolingual. Fields include image, token, bounding box, color, font, and label.

Updated 1/5/2023

hugging_face

Dataset Overview

Dataset Name

Name: DocBank

Dataset Summary

Summary: DocBank is a large‑scale dataset built with weak supervision to provide integrated text and layout information for downstream tasks. It contains 500,000 document pages, with 400,000 for training, 50,000 for validation, and 50,000 for testing.

Supported Tasks

Task: Document AI (text and layout)

Language

Language: English

Dataset Structure

Data Instances: Information to be added.
Data Fields:
- image
- token
- bounding_box
- color
- font
- label

Data Splits

Training Set: 400,000 instances
Validation Set: 50,000 instances
Test Set: 50,000 instances

Dataset Creation

License: Apache 2.0
Contributors: @doc-analysis

Citation

title={DocBank: A Benchmark Dataset for Document Layout Analysis},
author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou},
year={2020},
eprint={2006.01038},
archivePrefix={arXiv},
primaryClass={cs.CL}

maveriq/DocBank

Description

Dataset Overview

Dataset Name

Dataset Summary

Supported Tasks

Language

Dataset Structure

Data Splits

Dataset Creation

Citation

AI studio

Access Dataset

Topics

Source