Dataset assetOpen Source CommunityMachine LearningSign Language Recognition

PHOENIX-2014, PHOENIX-2014-T

PHOENIX-2014和PHOENIX-2014-T是德国RWTH Aachen大学人类语言技术与模式识别小组开发的大型德语手语数据集。这些数据集广泛用于研究，本仓库提供了这两个数据集的PyTorch数据集包装器，以便于在PyTorch模型中使用这些数据集。

Source

github

Created

Oct 26, 2020

Updated

May 2, 2024

Signals

305 views

Availability

Linked source ready

Overview

Dataset description and usage context

PHOENIX Datasets 概述

数据集介绍

PHOENIX-2014 和 PHOENIX-2014-T 是由德国亚琛工业大学的人类语言技术与模式识别组开发的大型德语手语数据集。本包为这两个数据集提供了一个 PyTorch 数据集包装器，以便于在 PyTorch 模型上使用这些数据集。

数据集功能

加载 PHOENIX-2014 的自动对齐
随机/均匀帧丢弃增强
PHOENIX-2014 的评估
语言模型支持

数据集使用示例

数据集加载

python from phoenix_datasets import PhoenixVideoTextDataset from torch.utils.data import DataLoader

dtrain = PhoenixVideoTextDataset( root="data/phoenix-2014-multisigner", split="train", p_drop=0.5, random_drop=True, random_crop=True, base_size=[256, 256], crop_size=[224, 224], )

vocab = dtrain.vocab

dl = DataLoader(dtrain, collate_fn=dtrain.collate_fn)

for batch in dl: video = batch["video"] label = batch["label"] signer = batch["signer"]

print(len(video))
print(video[0].shape)
print(label[0].shape)
print(signer)

break

数据集评估

python from phoenix_datasets.evaluators import PhoenixEvaluator

evaluator = PhoenixEvaluator("data/phoenix-2014-multisigner") hyp = evaluator.corpus.load_data_frame("dev")["annotation"].apply(" ".join).tolist() hyp[0] = "THIS SENTENCE IS WRONG" results = evaluator.evaluate("dev", hyp) print(results["parsed_dtl"]) print(results["sum"])

待办事项

实现 PHOENIX-2014-T 的语料库和评估

Need downstream help?

Pair the dataset with AI analysis and content workflows.

Once the source passes your review, move straight into summarization, transformation, report drafting, or presentation generation with the JuheAI toolchain.

Explore AI studio