技术分享——借助大语言模型实现变量分类

66次阅读
没有评论

共计 893 个字符,预计需要花费 3 分钟才能阅读完成。

在从公共数据库中提取数据时,如果未指定具体的变量,而是像我一样一股脑将所有实验室检查和生命体征检查等等全都提取出来,可能会遇到比较难分清变量类型的问题。这个问题在MIMIC数据库中更为显著,MIMIC中包含了许多像Difficulty swallowing、Self ADL、Activity / Mobility (JH-HLM)、ST Segment Monitoring On这种状态描述变量。如果手动筛选那将是一个巨大的工程。

因此我们可以借助大语言模型,构建一个合适的prompt像这样:

f"""
你是一名医学与数据科学专家。
我会给你一个变量及其单位、出现次数与唯一值数量,请判断该变量是【分类变量】还是【连续变量】。

---
变量名: {item_label}
单位: {valueuom}
出现次数: {count}
唯一值数量: {unique_count}

请回答:
1. 类型(只写“分类变量”或“连续变量”)
2. 简短理由
---
请严格以 JSON 格式输出:
{{"type": "连续变量", "reason": "理由"}}
"""

调用API实现批量化自动分类变量,之后就可以根据变量类型进行下一步的合适的处理了。

这里推荐一下我们国产AI大模型引领者之一的“智谱”,其研发的GLM-4.6 是智谱最新的旗舰模型,总参数量 355B,激活参数 32B。GLM-4.6 所有核心能力上均完成了对 GLM-4.5 的超越!在 8 大权威基准:AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA 模型通用能力的评估中,GLM-4.6 在大部分权威榜单表现对齐 Claude Sonnet 4

技术分享——借助大语言模型实现变量分类

从我的邀请码注册并实名认证后可获得4000万tokens、3个月超长有效期免费资源包,并且可额外获得我本人提供的不限次技术支持(能力范围内)!心动不如行动,赶快来试试吧!

链接:https://www.bigmodel.cn/invite?icode=EzC%2FOrnv90VU4ahhDUy8Vunfet45IvM%2BqDogImfeLyI%3D

技术分享——借助大语言模型实现变量分类
正文完
 0
thy
版权声明:本站原创文章,由 thy 于2025-11-09发表,共计893字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)

代你看看

站内搜索