JUHE API Marketplace
DATASET
Open Source Community

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

Updated 10/6/2024
huggingface

Description

中医数据集-预训练/指令微调

数据介绍

该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容,涵盖全面,配比均衡。数据集主要由非网络来源的内部数据构成,99%为简体中文内容,内容质量优异,信息密度可观。

数据用途

  • 仅适用于预训练或继续预训练用途。
  • 未来将继续发布针对SFT/IFT的多轮对话和问答数据集。

数据关联

  • 该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain中的内容高度关联,但不完全重叠。
  • 建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。

数据补充

  • 建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
  • 建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。

数据文件

文件名数据细节备注是否有曾公开过
SFT_medicalKnowledge_source1_548404包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息,涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对,质量极高。由"Qwen2.5-14B"进行本地处理QA切分,基于下文【附录四】内的提示词工程。未进行minHash,且认为没有进行minHash的必要。网络来源数据,内部处理校对。
SFT_medicalKnowledge_source2_99334包含来自,不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释,同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建,质量极高。由"deepseek-chat"API进行本地处理QA化,基于"附录四"内的提示词工程。已进行一次minHash(threshold=0.91596, num_perm=128),且认为没有进行二次minHash的必要。内部数据,未曾面世。
SFT_medicalKnowledge_source3_556540包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化,基于"附录四"内的提示词工程。未进行minHash,且认为没有进行minHash的必要。网络来源数据,内部处理校对。
SFT_nlpDiseaseDiagnosed_61486包含61,486条来自高水平执业中医医生的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的疾病诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病,具体清单详见【附录表二】}未进行minHash,且认为没有进行minHash的必要。内部数据,未曾面世。
SFT_nlpSyndromeDiagnosed_48665包含48,665条来自某知名教授的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型,具体清单详见【附录表一】}未进行minHash,且认为没有进行minHash的必要。内部数据,未曾面世。
SFT_structGeneral_310860包含从某互联网医院数据库中获取的部分结构化医案(1,592,410条医案),去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断,具体构成详见【附录表三】}已进行一次minHash(threshold=0.618, num_perm=128),可酌情进行二次minHash。内部数据,未曾面世。
SFT_structPrescription_92896包含92,896条从某中医院EMR系统中获得的部分归档医案,内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方}未进行minHash,且认为没有进行minHash的必要。内部数据,未曾面世。
外部数据集 _SFT_external_shuffledCOIGCQIA_44694m-a-p/COIG-CQIAhttps://arxiv.org/html/2403.18058v1网络来源数据,未经处理。
外部数据集 _SFT_external_shuffledCOIG_275985BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条;11轮-13635条;9轮-12条;7轮-2条,结构格式与其他数据集不同,详见 dataset_info.json】https://arxiv.org/abs/2304.07987网络来源数据,未经处理。
外部数据集 _SFT_external_traditionalTrans_7304古文/文言文<->现代文翻译数据。映射关系为:{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文}https://github.com/NiuTrans/Classical-Modern网络来源数据,内部处理校对。

附录表一:SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况

证型样本数量
气虚血瘀证8303
湿热下注证7843
气滞血瘀证4791
风痰瘀阻证3358
肝胃郁热证2009
正虚瘀结证1993
痰湿蕴肺证1875
肝肾亏虚证1457
热毒蕴结证1292
脾肾两虚证1022
气阴两虚证860
湿热瘀阻证622
肾虚证593
肝胃不和证546
风寒袭肺证526
脾胃虚寒证522
湿热蕴结证520
阳虚水泛证504
痰瘀痹阻证477
心脉痹阻证446
风痰上扰证414
风寒外袭证396
风痰入络证344
瘀血阻络证315
痰瘀互结证309
阴虚阳亢证299
痰浊蒙窍证282
气血亏虚证218
肝阳上亢证209
痰湿蒙窍证208
肝肾阴虚证194
痰湿中阻证185
阴虚火旺证180
血瘀痰凝证175
脾胃虚弱证174
肝经湿热证169
正虚毒瘀证160
血热证156
脾胃不和证144
痰热壅肺证138
阴虚血瘀证130
湿热阻络证125
肝郁气滞证123
湿热内蕴证112
心血虚证110
寒凝血瘀证99
脾肾阳虚证94
阳虚血瘀证93
风寒湿痹证92
瘀阻心脉证91
肝郁血瘀证90
肝阴不足证89
痰瘀滞络证88
气虚不摄证80
正虚毒结证78
气滞证75
肝气犯胃证73
心肾不交证72
瘀血阻滞证71
饮食积滞证70
气血不足证69
脾虚湿盛证68
脾胃积热证68
风热犯肺证66
肾虚水泛证66
心肺气虚证65
肺肾气虚证63
痰浊内蕴证62
气虚痰结证60
风寒阻络证60
气血两虚证54
痰湿内阻证54
痰火扰心证54
津亏热结证53
风寒袭表证52
肺卫不固证48
寒湿阻络证46
肝郁脾虚证45
血虚风燥证43
肾气虚证40
阴虚津亏证37
大肠湿热证37
肝胆湿热证36
脾虚湿蕴证36
热毒炽盛证36
气血瘀滞证34
阴虚血热证33
肾虚肝亢证33
脾气虚证33
阴虚风动证33
痰浊中阻证32
风寒湿阻证30
中气下陷证29
风热毒蕴证28
肾虚寒凝证28
风热袭表证28
湿热蕴毒证27
脾胃气虚证27
风湿蕴肤证27
风寒痹阻证27
气虚证27
阳虚寒凝证26
痰湿证26
中气不足证26
气滞痰凝证25
心虚胆怯证25
气郁痰阻证24
痰蒙清窍证24
风热伤络证23
痰蒙神窍证22
风热血热证22
肝胃气滞证22
血虚证22
痰浊上蒙证21
髓海不足证20
脾胃阳虚证20
风湿热证20
热毒蕴肤证18
痰湿阻滞证18
肝肾亏损证18
外伤损络证18
痰热内扰证18
气不摄血证18
瘀滞胞宫证17
肝肾两虚证17
心阳不振证17
肠燥津伤证16
脾肾气虚证16
风热外袭证16
气虚血溢证14
肾不纳气证14
气阴亏虚证13
肺阴虚证13
心脾两虚证13
湿毒蕴结证12
风痰闭窍证12
湿热瘀滞证12
阴虚湿热证11
寒痰阻肺证11
热毒壅结证11
痰气交阻证11
毒邪流窜证10
风痰闭阻证10
脾胃湿热证10
肾阳虚证9
瘀血内阻证9
阳虚痰凝证9
气血失调证9

附录表二:SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况

疾病样本数量
咳嗽14468
便秘5395
失眠4036
胃炎3477
痛经3252
高血压2085
肝炎1688
冠心病1418
糖尿病1143
肾炎1072
紫癜886
不孕症814
痤疮704
湿疹612
胆囊炎579
肝硬化561
口腔溃疡555
溃疡性结肠炎535
呼吸道感染492
心律失常488
荨麻疹465
鼻炎450
前列腺炎405
类风湿关节炎398
盆腔炎388
银屑病385
子宫肌瘤379
颈椎病379
贫血

AI studio

Generate PPTs instantly with Nano Banana Pro.

Generate PPT Now

Access Dataset

Login to Access

Please login to view download links and access full dataset details.

Topics

Traditional Chinese Medicine
Natural Language Processing

Source

Organization: huggingface

Created: 10/2/2024

Power Your Data Analysis with Premium AI Models

Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.

Enjoy a free trial and save 20%+ compared to official pricing.