PHOENIX-2014, PHOENIX-2014-T
PHOENIX-2014和PHOENIX-2014-T是德国RWTH Aachen大学人类语言技术与模式识别小组开发的大型德语手语数据集。这些数据集广泛用于研究,本仓库提供了这两个数据集的PyTorch数据集包装器,以便于在PyTorch模型中使用这些数据集。
Dataset description and usage context
PHOENIX Datasets 概述
数据集介绍
PHOENIX-2014 和 PHOENIX-2014-T 是由德国亚琛工业大学的人类语言技术与模式识别组开发的大型德语手语数据集。本包为这两个数据集提供了一个 PyTorch 数据集包装器,以便于在 PyTorch 模型上使用这些数据集。
数据集功能
- 加载 PHOENIX-2014 的自动对齐
- 随机/均匀帧丢弃增强
- PHOENIX-2014 的评估
- 语言模型支持
数据集使用示例
数据集加载
python from phoenix_datasets import PhoenixVideoTextDataset from torch.utils.data import DataLoader
dtrain = PhoenixVideoTextDataset( root="data/phoenix-2014-multisigner", split="train", p_drop=0.5, random_drop=True, random_crop=True, base_size=[256, 256], crop_size=[224, 224], )
vocab = dtrain.vocab
dl = DataLoader(dtrain, collate_fn=dtrain.collate_fn)
for batch in dl: video = batch["video"] label = batch["label"] signer = batch["signer"]
print(len(video))
print(video[0].shape)
print(label[0].shape)
print(signer)
break
数据集评估
python from phoenix_datasets.evaluators import PhoenixEvaluator
evaluator = PhoenixEvaluator("data/phoenix-2014-multisigner") hyp = evaluator.corpus.load_data_frame("dev")["annotation"].apply(" ".join).tolist() hyp[0] = "THIS SENTENCE IS WRONG" results = evaluator.evaluate("dev", hyp) print(results["parsed_dtl"]) print(results["sum"])
待办事项
- 实现 PHOENIX-2014-T 的语料库和评估
Pair the dataset with AI analysis and content workflows.
Once the source passes your review, move straight into summarization, transformation, report drafting, or presentation generation with the JuheAI toolchain.