DATASET
Open Source Community
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
Updated 10/6/2024
huggingface
Description
中医数据集-预训练/指令微调
数据介绍
该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容,涵盖全面,配比均衡。数据集主要由非网络来源的内部数据构成,99%为简体中文内容,内容质量优异,信息密度可观。
数据用途
- 仅适用于预训练或继续预训练用途。
- 未来将继续发布针对SFT/IFT的多轮对话和问答数据集。
数据关联
- 该数据集与
SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain中的内容高度关联,但不完全重叠。 - 建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。
数据补充
- 建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
- 建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。
数据文件
| 文件名 | 数据细节 | 备注 | 是否有曾公开过 |
|---|---|---|---|
| SFT_medicalKnowledge_source1_548404 | 包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息,涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对,质量极高。由"Qwen2.5-14B"进行本地处理QA切分,基于下文【附录四】内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
| SFT_medicalKnowledge_source2_99334 | 包含来自,不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释,同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建,质量极高。由"deepseek-chat"API进行本地处理QA化,基于"附录四"内的提示词工程。 | 已进行一次minHash(threshold=0.91596, num_perm=128),且认为没有进行二次minHash的必要。 | 内部数据,未曾面世。 |
| SFT_medicalKnowledge_source3_556540 | 包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化,基于"附录四"内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
| SFT_nlpDiseaseDiagnosed_61486 | 包含61,486条来自高水平执业中医医生的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的疾病诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病,具体清单详见【附录表二】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
| SFT_nlpSyndromeDiagnosed_48665 | 包含48,665条来自某知名教授的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型,具体清单详见【附录表一】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
| SFT_structGeneral_310860 | 包含从某互联网医院数据库中获取的部分结构化医案(1,592,410条医案),去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断,具体构成详见【附录表三】} | 已进行一次minHash(threshold=0.618, num_perm=128),可酌情进行二次minHash。 | 内部数据,未曾面世。 |
| SFT_structPrescription_92896 | 包含92,896条从某中医院EMR系统中获得的部分归档医案,内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
| 外部数据集 _SFT_external_shuffledCOIGCQIA_44694 | m-a-p/COIG-CQIA | https://arxiv.org/html/2403.18058v1 | 网络来源数据,未经处理。 |
| 外部数据集 _SFT_external_shuffledCOIG_275985 | BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条;11轮-13635条;9轮-12条;7轮-2条,结构格式与其他数据集不同,详见 dataset_info.json】 | https://arxiv.org/abs/2304.07987 | 网络来源数据,未经处理。 |
| 外部数据集 _SFT_external_traditionalTrans_7304 | 古文/文言文<->现代文翻译数据。映射关系为:{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文} | https://github.com/NiuTrans/Classical-Modern | 网络来源数据,内部处理校对。 |
附录表一:SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况
| 证型 | 样本数量 |
|---|---|
| 气虚血瘀证 | 8303 |
| 湿热下注证 | 7843 |
| 气滞血瘀证 | 4791 |
| 风痰瘀阻证 | 3358 |
| 肝胃郁热证 | 2009 |
| 正虚瘀结证 | 1993 |
| 痰湿蕴肺证 | 1875 |
| 肝肾亏虚证 | 1457 |
| 热毒蕴结证 | 1292 |
| 脾肾两虚证 | 1022 |
| 气阴两虚证 | 860 |
| 湿热瘀阻证 | 622 |
| 肾虚证 | 593 |
| 肝胃不和证 | 546 |
| 风寒袭肺证 | 526 |
| 脾胃虚寒证 | 522 |
| 湿热蕴结证 | 520 |
| 阳虚水泛证 | 504 |
| 痰瘀痹阻证 | 477 |
| 心脉痹阻证 | 446 |
| 风痰上扰证 | 414 |
| 风寒外袭证 | 396 |
| 风痰入络证 | 344 |
| 瘀血阻络证 | 315 |
| 痰瘀互结证 | 309 |
| 阴虚阳亢证 | 299 |
| 痰浊蒙窍证 | 282 |
| 气血亏虚证 | 218 |
| 肝阳上亢证 | 209 |
| 痰湿蒙窍证 | 208 |
| 肝肾阴虚证 | 194 |
| 痰湿中阻证 | 185 |
| 阴虚火旺证 | 180 |
| 血瘀痰凝证 | 175 |
| 脾胃虚弱证 | 174 |
| 肝经湿热证 | 169 |
| 正虚毒瘀证 | 160 |
| 血热证 | 156 |
| 脾胃不和证 | 144 |
| 痰热壅肺证 | 138 |
| 阴虚血瘀证 | 130 |
| 湿热阻络证 | 125 |
| 肝郁气滞证 | 123 |
| 湿热内蕴证 | 112 |
| 心血虚证 | 110 |
| 寒凝血瘀证 | 99 |
| 脾肾阳虚证 | 94 |
| 阳虚血瘀证 | 93 |
| 风寒湿痹证 | 92 |
| 瘀阻心脉证 | 91 |
| 肝郁血瘀证 | 90 |
| 肝阴不足证 | 89 |
| 痰瘀滞络证 | 88 |
| 气虚不摄证 | 80 |
| 正虚毒结证 | 78 |
| 气滞证 | 75 |
| 肝气犯胃证 | 73 |
| 心肾不交证 | 72 |
| 瘀血阻滞证 | 71 |
| 饮食积滞证 | 70 |
| 气血不足证 | 69 |
| 脾虚湿盛证 | 68 |
| 脾胃积热证 | 68 |
| 风热犯肺证 | 66 |
| 肾虚水泛证 | 66 |
| 心肺气虚证 | 65 |
| 肺肾气虚证 | 63 |
| 痰浊内蕴证 | 62 |
| 气虚痰结证 | 60 |
| 风寒阻络证 | 60 |
| 气血两虚证 | 54 |
| 痰湿内阻证 | 54 |
| 痰火扰心证 | 54 |
| 津亏热结证 | 53 |
| 风寒袭表证 | 52 |
| 肺卫不固证 | 48 |
| 寒湿阻络证 | 46 |
| 肝郁脾虚证 | 45 |
| 血虚风燥证 | 43 |
| 肾气虚证 | 40 |
| 阴虚津亏证 | 37 |
| 大肠湿热证 | 37 |
| 肝胆湿热证 | 36 |
| 脾虚湿蕴证 | 36 |
| 热毒炽盛证 | 36 |
| 气血瘀滞证 | 34 |
| 阴虚血热证 | 33 |
| 肾虚肝亢证 | 33 |
| 脾气虚证 | 33 |
| 阴虚风动证 | 33 |
| 痰浊中阻证 | 32 |
| 风寒湿阻证 | 30 |
| 中气下陷证 | 29 |
| 风热毒蕴证 | 28 |
| 肾虚寒凝证 | 28 |
| 风热袭表证 | 28 |
| 湿热蕴毒证 | 27 |
| 脾胃气虚证 | 27 |
| 风湿蕴肤证 | 27 |
| 风寒痹阻证 | 27 |
| 气虚证 | 27 |
| 阳虚寒凝证 | 26 |
| 痰湿证 | 26 |
| 中气不足证 | 26 |
| 气滞痰凝证 | 25 |
| 心虚胆怯证 | 25 |
| 气郁痰阻证 | 24 |
| 痰蒙清窍证 | 24 |
| 风热伤络证 | 23 |
| 痰蒙神窍证 | 22 |
| 风热血热证 | 22 |
| 肝胃气滞证 | 22 |
| 血虚证 | 22 |
| 痰浊上蒙证 | 21 |
| 髓海不足证 | 20 |
| 脾胃阳虚证 | 20 |
| 风湿热证 | 20 |
| 热毒蕴肤证 | 18 |
| 痰湿阻滞证 | 18 |
| 肝肾亏损证 | 18 |
| 外伤损络证 | 18 |
| 痰热内扰证 | 18 |
| 气不摄血证 | 18 |
| 瘀滞胞宫证 | 17 |
| 肝肾两虚证 | 17 |
| 心阳不振证 | 17 |
| 肠燥津伤证 | 16 |
| 脾肾气虚证 | 16 |
| 风热外袭证 | 16 |
| 气虚血溢证 | 14 |
| 肾不纳气证 | 14 |
| 气阴亏虚证 | 13 |
| 肺阴虚证 | 13 |
| 心脾两虚证 | 13 |
| 湿毒蕴结证 | 12 |
| 风痰闭窍证 | 12 |
| 湿热瘀滞证 | 12 |
| 阴虚湿热证 | 11 |
| 寒痰阻肺证 | 11 |
| 热毒壅结证 | 11 |
| 痰气交阻证 | 11 |
| 毒邪流窜证 | 10 |
| 风痰闭阻证 | 10 |
| 脾胃湿热证 | 10 |
| 肾阳虚证 | 9 |
| 瘀血内阻证 | 9 |
| 阳虚痰凝证 | 9 |
| 气血失调证 | 9 |
附录表二:SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况
| 疾病 | 样本数量 |
|---|---|
| 咳嗽 | 14468 |
| 便秘 | 5395 |
| 失眠 | 4036 |
| 胃炎 | 3477 |
| 痛经 | 3252 |
| 高血压 | 2085 |
| 肝炎 | 1688 |
| 冠心病 | 1418 |
| 糖尿病 | 1143 |
| 肾炎 | 1072 |
| 紫癜 | 886 |
| 不孕症 | 814 |
| 痤疮 | 704 |
| 湿疹 | 612 |
| 胆囊炎 | 579 |
| 肝硬化 | 561 |
| 口腔溃疡 | 555 |
| 溃疡性结肠炎 | 535 |
| 呼吸道感染 | 492 |
| 心律失常 | 488 |
| 荨麻疹 | 465 |
| 鼻炎 | 450 |
| 前列腺炎 | 405 |
| 类风湿关节炎 | 398 |
| 盆腔炎 | 388 |
| 银屑病 | 385 |
| 子宫肌瘤 | 379 |
| 颈椎病 | 379 |
| 贫血 |
AI studio
Generate PPTs instantly with Nano Banana Pro.
Generate PPT NowAccess Dataset
Login to Access
Please login to view download links and access full dataset details.
Topics
Traditional Chinese Medicine
Natural Language Processing
Source
Organization: huggingface
Created: 10/2/2024
Power Your Data Analysis with Premium AI Models
Supporting GPT-5, Claude-4, DeepSeek v3, Gemini and more.
Enjoy a free trial and save 20%+ compared to official pricing.