PHOENIX-2014, PHOENIX-2014-T
PHOENIX-2014和PHOENIX-2014-T是德国RWTH Aachen大学人类语言技术与模式识别小组开发的大型德语手语数据集。这些数据集广泛用于研究,本仓库提供了这两个数据集的PyTorch数据集包装器,以便于在PyTorch模型中使用这些数据集。
Description
PHOENIX Datasets 概述
数据集介绍
PHOENIX-2014 和 PHOENIX-2014-T 是由德国亚琛工业大学的人类语言技术与模式识别组开发的大型德语手语数据集。本包为这两个数据集提供了一个 PyTorch 数据集包装器,以便于在 PyTorch 模型上使用这些数据集。
数据集功能
- 加载 PHOENIX-2014 的自动对齐
- 随机/均匀帧丢弃增强
- PHOENIX-2014 的评估
- 语言模型支持
数据集使用示例
数据集加载
python from phoenix_datasets import PhoenixVideoTextDataset from torch.utils.data import DataLoader
dtrain = PhoenixVideoTextDataset( root="data/phoenix-2014-multisigner", split="train", p_drop=0.5, random_drop=True, random_crop=True, base_size=[256, 256], crop_size=[224, 224], )
vocab = dtrain.vocab
dl = DataLoader(dtrain, collate_fn=dtrain.collate_fn)
for batch in dl: video = batch["video"] label = batch["label"] signer = batch["signer"]
print(len(video))
print(video[0].shape)
print(label[0].shape)
print(signer)
break
数据集评估
python from phoenix_datasets.evaluators import PhoenixEvaluator
evaluator = PhoenixEvaluator("data/phoenix-2014-multisigner") hyp = evaluator.corpus.load_data_frame("dev")["annotation"].apply(" ".join).tolist() hyp[0] = "THIS SENTENCE IS WRONG" results = evaluator.evaluate("dev", hyp) print(results["parsed_dtl"]) print(results["sum"])
待办事项
- 实现 PHOENIX-2014-T 的语料库和评估
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Please login to view download links and access full dataset details.
Topics
Source
Organization: github
Created: 10/26/2020
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.