Automated Medical Coding

Automated Medical Coding

🚀 项目概述

本项目聚焦于特定的研究实验,不过在训练过程中存在一些不稳定因素,同时对运行环境有一定要求。下面将详细介绍项目的结构、注意事项以及运行配置等内容。

⚠️ 重要提示

  • LAAT 和 PLM - ICD 的训练可能不稳定,损失函数在训练过程中有时会发散,此问题似乎源于标签级注意力中 softmax 函数的溢出。在 softmax 函数之前添加批归一化或层归一化可能会解决该问题,但由于不想在 reproducibility 研究中更改原始方法,因此未尝试修复。
  • 代码仅在配置为 128 GB 内存的服务器上测试过,有用户报告使用 32 GB 内存时无法将 MIMIC - IV 数据集加载到内存中。
  • Huggingface 数据集中存在 collate 函数错误,注意力掩码用 1 进行填充而不是 0。为了让人们能够再现论文中的结果,尚未修复此问题。

📚 详细文档

项目结构

configs

我们借助 Hydra 进行配置管理。每个实验的配置存于 configs/experiments 目录下,同时在 configs/sweeps 中可找到用于超参数搜索的配置文件。我们主要运用 Weights and Biases Sweeps 开展实验。

files

该目录用于存储图像和数据。

notebooks

此目录仅包含一个用于代码分析的笔记本,虽并非为他人设计,但已包含可供他人验证数据分析结果的内容。

prepare_data

该目录涵盖了所有用于准备数据集和生成分割的数据处理代码。

reports

这里存放着用于生成论文中标表和图表的代码,该代码通过 Weights and Biases API 获取实验结果。虽无法直接供其他用户使用,但已包含以便他人验证我们的图形和表格。

src

此目录存放运行实验的代码。

tests

该目录包含单元测试文件。

我的配置

我在一台配置为 128 GB 内存、RTX 2080 Ti(每张 GPU 卡 11GB)的机器上运行了这些实验。

  • 0 关注
  • 0 收藏,26 浏览
  • system 提出于 2025-10-03 20:21

相似服务问题

相关AI产品