Automated Medical Coding

管理官方认证 Python

🚀 项目概述

本项目聚焦于特定的研究实验，不过在训练过程中存在一些不稳定因素，同时对运行环境有一定要求。下面将详细介绍项目的结构、注意事项以及运行配置等内容。

⚠️ 重要提示

LAAT 和 PLM - ICD 的训练可能不稳定，损失函数在训练过程中有时会发散，此问题似乎源于标签级注意力中 softmax 函数的溢出。在 softmax 函数之前添加批归一化或层归一化可能会解决该问题，但由于不想在 reproducibility 研究中更改原始方法，因此未尝试修复。

代码仅在配置为 128 GB 内存的服务器上测试过，有用户报告使用 32 GB 内存时无法将 MIMIC - IV 数据集加载到内存中。

Huggingface 数据集中存在 collate 函数错误，注意力掩码用 1 进行填充而不是 0。为了让人们能够再现论文中的结果，尚未修复此问题。

📚 详细文档

项目结构

configs

我们借助 Hydra 进行配置管理。每个实验的配置存于 configs/experiments 目录下，同时在 configs/sweeps 中可找到用于超参数搜索的配置文件。我们主要运用 Weights and Biases Sweeps 开展实验。

files

该目录用于存储图像和数据。

notebooks

此目录仅包含一个用于代码分析的笔记本，虽并非为他人设计，但已包含可供他人验证数据分析结果的内容。

prepare_data

该目录涵盖了所有用于准备数据集和生成分割的数据处理代码。

reports

这里存放着用于生成论文中标表和图表的代码，该代码通过 Weights and Biases API 获取实验结果。虽无法直接供其他用户使用，但已包含以便他人验证我们的图形和表格。

src

此目录存放运行实验的代码。

tests

该目录包含单元测试文件。

我的配置

我在一台配置为 128 GB 内存、RTX 2080 Ti（每张 GPU 卡 11GB）的机器上运行了这些实验。

0 条评论
分类：管理