JUHE API Marketplace
DATASET
Open Source Community

PHOENIX-2014, PHOENIX-2014-T

PHOENIX-2014和PHOENIX-2014-T是德国RWTH Aachen大学人类语言技术与模式识别小组开发的大型德语手语数据集。这些数据集广泛用于研究,本仓库提供了这两个数据集的PyTorch数据集包装器,以便于在PyTorch模型中使用这些数据集。

Updated 5/2/2024
github

Description

PHOENIX Datasets 概述

数据集介绍

PHOENIX-2014 和 PHOENIX-2014-T 是由德国亚琛工业大学的人类语言技术与模式识别组开发的大型德语手语数据集。本包为这两个数据集提供了一个 PyTorch 数据集包装器,以便于在 PyTorch 模型上使用这些数据集。

数据集功能

  • 加载 PHOENIX-2014 的自动对齐
  • 随机/均匀帧丢弃增强
  • PHOENIX-2014 的评估
  • 语言模型支持

数据集使用示例

数据集加载

python from phoenix_datasets import PhoenixVideoTextDataset from torch.utils.data import DataLoader

dtrain = PhoenixVideoTextDataset( root="data/phoenix-2014-multisigner", split="train", p_drop=0.5, random_drop=True, random_crop=True, base_size=[256, 256], crop_size=[224, 224], )

vocab = dtrain.vocab

dl = DataLoader(dtrain, collate_fn=dtrain.collate_fn)

for batch in dl: video = batch["video"] label = batch["label"] signer = batch["signer"]

print(len(video))
print(video[0].shape)
print(label[0].shape)
print(signer)

break

数据集评估

python from phoenix_datasets.evaluators import PhoenixEvaluator

evaluator = PhoenixEvaluator("data/phoenix-2014-multisigner") hyp = evaluator.corpus.load_data_frame("dev")["annotation"].apply(" ".join).tolist() hyp[0] = "THIS SENTENCE IS WRONG" results = evaluator.evaluate("dev", hyp) print(results["parsed_dtl"]) print(results["sum"])

待办事项

  • 实现 PHOENIX-2014-T 的语料库和评估

AI studio

Generate PPTs instantly with Nano Banana Pro.

Generate PPT Now

Access Dataset

Login to Access

Please login to view download links and access full dataset details.

Topics

Sign Language Recognition
Machine Learning

Source

Organization: github

Created: 10/26/2020

Power Your Data Analysis with Premium AI Models

Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.

Enjoy a free trial and save 20%+ compared to official pricing.