HDformer: A Higher-Dimensional Transformer for Detecting Diabetes Utilizing Long-Range Vascular Signals


초록
당뇨병은 전 세계적으로 우려되는 질병이며, 조기 발견은 심각한 합병증을 예방할 수 있습니다. 당뇨병 환자의 50%는 진단되지 않은 채 살고 있으며, 이는 저소득층에게 더 많은 영향을 미칩니다. 적시에 탐지하기 위한 비침습적 방법이 등장했으나, 그 제한된 정확도 때문에 임상 사용에 제약이 있습니다.

본 연구에서는 장거리 광용적맥파(PPG)를 이용하여 당뇨병을 탐지하는 최초의 트랜스포머 기반 구조인 새로운 고차원 트랜스포머(HDformer)를 제시합니다. 장거리 PPG는 기존 연구에서 흔히 사용되는 30초 미만의 신호와 비교했을 때 신호의 문맥 정보를 극대화합니다. HDformer의 장거리 처리의 계산 효율을 증가시키기 위해, Time Square Attention(TSA)이라는 새로운 주의 모듈이 개발되어 토큰의 양을 10배 이상 줄이면서도 지역/전역 의존성을 유지합니다. TSA는 1차원 입력을 2차원 표현으로 변환하며, 인접한 점들을 하나의 2D 토큰으로 그룹화합니다. 그런 다음 동적 패치를 생성하고 이를 게이트 혼합 전문가(MoE) 네트워크에 공급하여 다양한 주의 영역에 대한 학습을 최적화합니다.
HDformer는 표준 MIMIC-III 데이터셋에서 최신 결과(민감도 98.4, 정확도 97.3, 특이도 92.8, AUC 0.929)를 달성하여 기존 연구를 능가합니다.
더욱이, 저비용 웨어러블을 프로토타입으로 하여 HDformer를 클라우드와 모바일 앱을 통해 연결하는 종단간 솔루션을 개발했습니다. 이러한 확장성이 뛰어나고 편리하며 저렴한 접근 방식은 개인에게 즉각적인 탐지와 지속적인 모니터링을 제공합니다. 이는 의사가 당뇨병을 쉽게 선별하고 소외된 커뮤니티를 보호하는 데 도움이 됩니다. 이는 치료 지연을 최소화하고 생명을 구합니다. HDformer의 향상된 다양성은 일반적으로 모든 생물 의학 파형에 대해 장거리 신호의 효율적인 처리와 학습을 가능하게 합니다.
당뇨병은 몸에서 인슐린 부족으로 인해 혈중 포도당 수치가 높아지는 임상 상태로, 이를 인슐린 저항성이라고도 합니다. 당뇨병은 거의 모든 장기 시스템에서 합병증의 위험을 증가시켜 관상 동맥 질환, 신부전, 실명, 그리고 뇌졸중과 같은 상태를 초래합니다. 세계 보건 기구에 따르면 전 세계적으로 약 5억 3700만 명이 당뇨병으로 진단되었으며, 이러한 통계는 저소득 커뮤니티에 특히 불균형적인 영향을 미칩니다. 당뇨병은 “조용한 살인자”로, 종종 그것이 중대한 단계로 진행될 때까지 간과됩니다. 발병 시 명백한 증상이 없어 당뇨병 환자가 혈당이 통제 불능이고 급격하게 표준 이상으로 올라갈 때까지 치료받지 못합니다. 국제 당뇨병 연맹의 데이터에 따르면, 당뇨병 환자의 거의 50%가 자신의 진단과 건강에 대한 위험을 모르고 있어, 따라서 질병을 치료받지 못합니다. 따라서, 장기적인 합병증을 예방하고 사망률을 줄이기 위해 조기 발견이 중요합니다. 당뇨병을 진단하기 위해, 클리닉은 침습적 또는 반침습적 방법을 사용합니다. 그러나, 이러한 치료법은 비용이 많이 들고 시간이 오래 걸리며 환자에게 불편합니다. 이러한 제한을 극복하기 위해 비침습적 방법에 대한 연구가 등장했습니다. 지속적이고 비침습적이며, 고통이 없고, 쉬우며, 저렴한 해결책은 환자의 정기적인 혈당 모니터링 준수를 향상시켜 조기에 당뇨병을 감지할 수 있습니다.


1. 서론

광용적 혈류량 측정법(PPG)은 조직의 미세혈관 침대에서 혈액 부피 변화를 감지하는 데 사용될 수 있는 광학적으로 얻어진 신호입니다.

PPG는 다양한 심혈관 관련 정보를 추출할 수 있습니다. 클리닉은 당뇨병이 혈관 변화와 연관되어 있다고 지적합니다. 특히, 당뇨병 그룹은 종종 심박 변이성이 감소하고 안정 시 심박수가 증가하는 증상을 보입니다. 당뇨병의 많은 핵심 지표가 PPG 파형에 반영됩니다.

이러한 이유로, PPG는 종종 혈당 추정 및 당뇨병 감지를 측정할 때 고려됩니다. 그러나, 동시에 PPG는 종종 민감하고 잡음이 많아 운동, 빛, 피부 유형 등에 쉽게 영향을 받으며, 이는 실제 세계에서의 적용 가능성을 제한합니다. 클리닉에서 PPG의 사용성은 깊은 학습을 통해 파형 간 및 파형 내의 맥락적 관계의 자동화된, 복잡한 분석을 통해 더욱 향상될 수 있습니다.

이러한 기술의 개발은 당뇨병의 발병을 감지할 수 있어 대규모 예방으로 이어질 수 있습니다. 그러나, 이러한 비침습적 접근법의 정확도와 일반적인 적용 가능성은 현재의 침습적 방법과 경쟁할 수 있을 만큼 입증되지 않았습니다.

정확도 격차를 해소하기 위해, 본 연구는 기존 연구와 달리 30초 미만의 신호를 분석하는 대신 10분 이상의 장거리 PPG 파형을 입력으로 제안합니다. 장거리 혈관 신호는 당뇨병을 정확하게 분류할 수 있는 풍부한 특징을 가지고 있습니다. 이 연구에서는 주의 모듈을 통해 PPG 파형 간의 전역 표현과 장거리 특징 의존성을 포착하는 Higher-Dimensional Transformer (HDformer)를 제안합니다.

새로운 Time-Square Attention (TSA)은 1차원(1D) 의존성을 2차원(2D) 표현에서 집계하기 위해 만들어졌습니다. 제안된 ML 모델은 표준 MIMIC-III 데이터셋에서 SOTA 결과를 달성했습니다. 이 논문의 기여도는 다음과 같습니다:

  • 장거리 혈관 신호(PPG)를 사용하여 당뇨병을 감지하는 새로운, 확장 가능한, 비침습적, 종단간 해결책을 제시하며, SOTA 결과를 달성했습니다. 하드웨어 구성 요소로는 AI 기반 PPG 웨어러블도 만들었습니다.
  • 장거리 생체 의료 파형 처리를 수행하는 Transformer 기반 딥러닝 아키텍처 HDformer.
  • 1D 의존성을 2D 표현에서 포착하기 위해 제안된 주의 모듈 TSA는 기존의 2D Transformer 모델에 대한 입력으로 적용 가능하며, 각 2D 형태의 동적 패치 크기에 대한 전문가 혼합의 게이트 네트워크를 적용합니다.
  • PPG에서 측정된 혈액 부피 변화에 대한 깊은 학습 기반의 심층적인 장거리 데이터 분석을 통한 당뇨병 감지 및 PPG에서 ECG를 재구성하여 필요한 데이터 입력 길이를 10분에서 5분으로 줄이는 다중 모달 확장 소개.
  • 특히 모든 생체 의료 파형에 대해 1D 장거리 시퀀스의 시계열 학습 및 예측을 수행할 수 있는 일반적인 Transformer 기반 프레임워크.

2. 관련 연구

2.1. 광용적 혈류량 측정법(PPG)

PPG는 심혈관 질환(CVD) 분석에서 일반적으로 사용되는 디지털 바이오마커입니다. PPG는 비침습적 방법으로 측정되므로 최근에는 기계 학습 접근법을 통해 혈당 추정 및 당뇨병 감지와 같은 작업에 도입되었습니다.

이 분야에서의 첫 번째 연구 중 하나는 [15]가 역 푸리에 변환을 사용하여 여러 기계 학습 모델에 입력할 특징을 추출한 것이었습니다. 또한, [8]은 PPG에서 당뇨병과 관련된 특징을 식별하고 선형 판별 분석(LDA)을 통해 예측의 실현 가능성을 확립했으며, [18]은 PPG를 사용하여 당뇨병을 분류하기 위한 로지스틱 회귀 모델링을 개발했습니다. 그러나, 신뢰할 수 있는 결과를 얻기 위해 이러한 방법들은 특징 추출을 위한 데이터 처리에 상당한 주의가 필요했습니다. 추가적으로, 각 연구는 자체 데이터셋을 수집하여 결과 간에 결과 표준화의 부족을 초래했습니다.

이러한 한계는 전통적인 기계 학습 방법이 더 넓은 사용으로 확장되기 어렵게 만듭니다. 최근 딥러닝의 부상은 PPG를 사용하여 당뇨병을 예측하는 데 컨볼루션 신경망(CNN)의 적용으로 이어졌습니다. [1]은 스마트폰 기반 PPG 신호와 CNN을 사용했습니다. [17]은 CNN과 PPG 특징 추출의 내재된 능력을 결합한 재구성 가능한 딥러닝 프레임워크를 제시했습니다. [25]와 [22]는 나이, 성별, 고혈압의 존재와 같은 다른 정보와 함께 ECG와 PPG를 취하는 3D CNN 모델을 결합하도록 제안했습니다. 그러나, 그들의 훈련은 자체적으로 생성해야 하는 더 큰 데이터셋을 필요로 했습니다. 추가적으로, CNN은 지역성에 민감하기 때문에, 이 모델들의 정확도는 특징 추출 기반 기계 학습 모델보다 낮은 70%-80%로 제한됩니다. 우리의 연구에서는 연속 모니터링을 가능하게 하기 때문에 ECG 대신 PPG를 선택했으며, 당뇨병을 분류하기 위해 전역 맥락 정보와 장거리 의존성을 포착하기 위해 CNN 대신 Transformer를 선택했습니다.

2.2. 장거리 Transformer

Transformer는 ChatGPT와 PALM-2와 같은 대규모 언어 모델(LLMs)의 훈련을 포함하여 다양한 최첨단 자연어 처리 작업의 기본 구성 요소가 되었습니다. Transformer [24]가 자연어 처리(NLP)의 세계에서 시작되었지만, 이미지 분류 및 분할과 같은 작업을 수행하는 데 있어 많은 CNN 기반 모델을 능가하며 컴퓨터 비전 분야에서도 널리 사용되고 있습니다. Transformer의 성공은 대부분 자기 주의 메커니즘에서 비롯되며, 이는 복잡성을 단순화하고 모델이 토큰 간의 복잡한 관계를 해석하며 단거리 및 장거리 관계 모두에 대한 전역 맥락 정보를 포착할 수 있도록 합니다.

최근 연구는 Transformer와 같은 아키텍처를 개선하여 장거리 데이터 분석에 더 적합하게 만들 수 있음을 제안합니다. 이러한 개선은 자기 주의 메커니즘과 메모리 사용 효율성을 최적화하는 구성 요소를 개선함으로써 달성됩니다. 이러한 제안에는 기본 Transformer 위에 구축된 메모리 최적화 기반의 LongFormer [2], 낮은 차원 표현 기반의 LinFormer [26], 순환 기반의 Transformer XL [5], 다운샘플링 기반의 Informer [27], 학습 가능한 패턴 기반의 Reformer [10] 등이 포함됩니다. 그러나, 이 모델들은 여전히 데이터 처리에 한계가 있습니다. 예를 들어, 토큰 한계는 GPT-3.5의 경우 4k, GPT-4의 경우 8k+입니다.

본 연구에서는 새로운 Transformer 아키텍처, HDformer를 제안합니다. 이는 1D PPG 파형을 새로운 주의 모델 TSA와 효율적인 토큰화 메커니즘을 통해 2D 표현으로 처리하여 모델 효율성을 최적화하면서 신호의 핵심 정보를 유지합니다.


3. Methods

3.1. 장거리 혈관 신호
CNN의 복잡성으로 인해, 일반적으로 최대 30초 지속되는 PPG 신호가 사용됩니다. 그러나 이러한 제한된 지속 시간은 모델 성능을 제한합니다. 장거리 PPG는 더 풍부한 특징을 포함하고, 모델이 분석할 장기 변화와 관계를 추가하며, 일회성 노이즈와 안정적인 파형 변동을 분리하는 데 도움이 됩니다. 또한, PPG로 측정되는 심박 변이성과 같은 지표는 혈당 수준과 연관되어 있으며, 적어도 5분 이상 분석되어야 합니다. 장거리 PPG는 심박 변이성의 완전한 그림을 제공하며, 장거리 데이터 수집은 단거리 PPG에서 놓친 더 많은 장거리 특징을 포함할 수 있습니다. 장거리 특징을 포착하기 위해, 우리는 당뇨병 분류를 위해 장거리 PPG 파형을 처리하는 새로운 Transformer, Higher-Dimensional Transformer (HDformer)를 제안합니다. 우리의 Transformer 기반 방법은 10분 이상의 PPG 신호를 입력으로 사용하여 더 복잡한 관계를 모델링하고 더 풍부한 맥락 정보를 포착할 수 있습니다.

3.2. Design
HDformer는 인코더/디코더 기반 아키텍처를 사용합니다.
인코더 단계에서, 원시 PPG 신호는 사전 처리 모듈에서 노이즈 제거 및 정규화됩니다. 표준 세분화 후, 각 시퀀스는 10분짜리 PPG 파형을 나타냅니다. 그 후 계층적 설계는 다음과 같이 구조화됩니다: PPG 파형의 패치를 생성하기 위해 패치 분할 작업이 수행되며, 이러한 패치는 다양한 형태의 2D 파형 표현으로 구성됩니다. 이 설계는 다양한 패치 형태에 대해 더 많은 레이어를 포함하도록 확장 가능합니다.
각 인코더는 2D 표현을 처리하는 TSA를 포함하며, 기존 2D Transformer(e.g., ViT [6] 또는 Swin [13])에 쉽게 삽입될 수 있습니다. 디코더 단계에서는 각 모델에 대해 MLP 기반 분류가 수행됩니다.
이러한 모델(전문가)의 예측은 전문가 혼합 프레임워크를 따르는 게이트 네트워크로 디코더로 피드됩니다. 마지막으로, 모델은 모든 결과를 확인한 후 당뇨병 감지 값을 출력합니다.

3.3. Time Square Attention (TSA)
어텐션 계산은 그림 4, 혼동 행렬로 설명됩니다.

여기서 Q, K, V는 Transformer의 자체 어텐션에 의해 정의된 쿼리, 키, 값입니다.
Transformer의 성공은 대부분 자체 어텐션 모듈에 의존하지만, 그 계산 복잡성과 메모리 사용량은 시퀀스 길이와 함께 제곱으로 증가합니다. 따라서, 표준 Transformer가 장거리 데이터를 처리하는 것은 비효율적이고 실현 불가능합니다.
이에, TSA는 PPG 파형을 1D 시퀀스가 아닌 2D 표현으로 처리합니다. 우리는 PPG 파형의 시계열 특성에서 영감을 받아 1D 파형을 패치로 분할한 다음 이 패치들을 2D 데이터로 구성하여 2D 표현을 만듭니다. 장거리 데이터에서 자체 어텐션의 한계를 해결하기 위해 다양한 어텐션 모델이 그림 2에서 설명되고 비교됩니다.

그림 2A는 표준 전체 어텐션 방법을 보여주며, 여기서 각 토큰은 시퀀스의 모든 다른 토큰과 비교됩니다. 이 방법은 계산 효율성을 희생하면서 정보를 최대화합니다. 그림 2B는 입력 시퀀스를 블록으로 분할하여 토큰 크기와 계산 복잡성을 줄이는 희소성 어텐션, 또 다른 어텐션 메커니즘을 제시합니다. 이는 고정 스트라이드의 블록 패턴을 적용하여 어텐션 매트릭스를 희소화하기 위한 기존의 노력을 나타냅니다. 그림 2C는 시간 기반 희소성 어텐션을 설명하며, 여기서 토큰의 빈도는 시간적이며 가중치는 가까운 토큰에 더 많이 할당되고 먼 토큰에는 덜 할당됩니다.

그림 2D는 우리의 TSA를 보여줍니다. 이는 새로운 차원 Y에 고정 패치 집계를 구현하여 PPG 파형의 2D 수치 표현을 구성합니다. 기존 차원 X는 시간 시퀀스 파형을 나타내는 일련의 수치 값을 가지며 패치 폭은 T입니다. 두 번째 차원 Y도 시간 기반인 이유로, 우리는 이를 타임 스퀘어 어텐션(TSA)이라고 명명했습니다. 우리의 토큰화 방법은 인접한 점들을 정사각형(2D) 모양으로 그룹화합니다. 확장된 커버리지는 2×2, 3×3, 4×4, 5×5 등의 크기를 포함합니다. 이 접근 방식은 처리해야 할 토큰의 양을 10배 이상 효과적으로 줄입니다. 예를 들어, 128Hz에서 10분 길이의 PPG 파형은 약 77K의 샘플링된 점들로 구성됩니다. 이 최적화는 계산 효율성을 크게 향상시킵니다.
TSA는 Transformer가 더 긴 시퀀스를 분석할 수 있도록 점들을 효과적으로 토큰화하는 데 필수적이며, 동시에 지역적 표현과 전역 맥락 정보를 모두 유지합니다. TSA는 2D 토큰화를 사용하여 단거리 및 장거리 점들을 연결하고, 각 토큰 내에 연결을 내장합니다. 이는 X와 Y 차원의 각 토큰과 다른 모든 토큰과의 관계를 계산합니다.

3.4. Dynamic Patch Sizes in the 2D Transformer

TSA의 주요 도전 중 하나는 모든 맥락에 대한 관계 분석을 최대화하기 위해 사용된 최적의 패치 크기를 정의하는 것입니다. 우리는 다양한 차원에서 동적인 2D 표현의 그룹을 생성하기 위해 일련의 패치 크기를 탐색합니다(그림 3).

동적 패치를 통해, 다양한 시간 의존성이 연결되어 서로 다른 거리 사이의 관계를 처리하며, TSA의 최고 성능 패치 크기(패치의 최적화된 모양 형성)를 병렬로 학습합니다.
각 2D 패치는 2D 텐서 표현으로 처리될 수 있으므로, 우리는 기존의 2D Transformer 알고리즘을 적용하여 “이미지 분류” 훈련을 수행합니다. 우리의 연구에서는 2D 표현 내의 지역적 및 전역적 의존성을 모두 포착하는 계층적 Swin을 배치했습니다.
다양한 크기의 2D 표현을 생성하는 자세한 접근 방식은 알고리즘 1에서 설명됩니다. 우리의 실험에서, 우리는 T를 PPG 파형의 8초를 나타내는 1024점으로 표시했습니다.

3.5. A Gated Network of Mixture-of-Experts

TSA에서 동적 패치의 모델 성능을 최적화하기 위해, 우리는 동적 크기의 패치의 계층적 구조를 배치하고 게이트된 전문가 혼합(MoE) 네트워크를 제안합니다(그림 1에서 보여짐).
앙상블 함수는 다음과 같이 선택됩니다:

여기서 y는 최종 당뇨병 예측 점수를 나타내고, x는 PPG 입력을 나타내며, G는 게이트 네트워크의 출력을 나타내고, E는 전문가 네트워크의 출력을 나타내며, N은 전문가의 총 수를 나타내고, Wg는 훈련 가능한 가중치 행렬을 나타냅니다.
각 TSA에서 다양한 모양의 2D 표현이 계산되어 당뇨병 분류기를 위한 MLP 계층과 연결되며 소프트맥스를 통해 가능성 추정 점수를 생성합니다. MoE 학습 과정 내에서, 각 전문가의 가중치가 계산됩니다. 그런 다음, 이 가중치들은 결합되어 이 모델들에서 최종 당뇨병 감지 결과를 결정합니다.
우리의 제안된 MoE 접근 방식은 동적 2D 패치에서 더 전문화되고 분리된 전문가 특징을 성공적으로 학습합니다. 이를 통해 HDformer는 다른 패치 크기에서 보완적인 정보를 결합하면서 그 사이의 간섭을 줄일 수 있습니다. MoE를 통합함으로써, HDformer는 병렬 앙상블 학습을 통해 최고의 분류 성능을 제공합니다. 우리 연구의 목적을 위해, 우리는 동적 패치 크기 T(8초), 2T, 4T, T/2, T/4를 갖는 다섯 개의 TSA 모듈 구성을 취했습니다.


4. Experiments and Discussion

4.1. Datasets and Environment

MIMIC-III [9] 공개 데이터셋을 사용했습니다. 이 데이터셋은 대형 3차 진료 병원의 중환자실에 입원한 38,597명의 성인 환자를 포함하는 포괄적인 단일 센터 데이터베이스입니다. 이 데이터셋에는 PPG 및 ECG와 같은 생명 징후, 약물, 실험실 측정치, 절차 코드, 진단 코드(ICD9 코드 중 250으로 시작하는 코드는 당뇨병 환자로 라벨링됨), 영상 보고서 등이 포함되어 있습니다. MIMIC-III을 선택한 주요 이유 중 하나는 자체 수집된 사적 데이터셋이 아닌 표준 비교에서 모델을 평가하기 위해서였습니다. 모든 PPG 파형은 128Hz로 리샘플링되었으며, 전처리 과정으로 정기적인 노이즈 제거와 정규화가 수행되었습니다. HDformer는 PyTorch를 통해 구현되었으며, 모델은 NVIDIA A10G GPU가 탑재된 AWS 인스턴스에서 훈련되었습니다.

4.2. Evaluation

기록 수준과 환자 수준 모두에서 혼동 행렬을 생성하여 평가를 수행했습니다. 그림 4에 나타난 바와 같이, 환자 수준에서의 결과는 동일한 개인에 대한 모든 PPG 결과에 대한 집계된 결론입니다. 개별 기록 수준에 비해 환자 수준에서 더 높은 정확도는 실제 세계 응용을 제안합니다.
모델은 95% 이상의 정확도로 수행되어 이전 연구를 크게 능가했습니다.

표 1에서 설명한 바와 같이, HDformer는 MIMIC-III에서 민감도, 정확도, 특이성, AUC를 평가할 때 SOTA 결과를 달성했습니다. 이러한 발견은 효과적인 TSA 토큰화를 통한 장거리 PPG 처리의 이점을 반영합니다.
관련 연구에서 논의된 기존 장거리 Transformer를 사용하여 1D PPG 파형을 처리하는 실험을 수행했으며, Informer [27]가 최상의 결과를 제공했습니다.
따라서, Informer는 다음 토론에서 모든 1D 분석을 수행하기 위한 기본 모델로 채택되었습니다.
1D, 2D with TSA, 2D with TSA + MoE 모델 간의 비교는 AU로 그래프에 나타냈습니다. HDformer(2D with TSA + MoE)는 ROC 및 AUC에서 보여진 바와 같이 최고의 분류를 달성했으며, TSA와 MoE가 최종 결과에 기여하는 다른 기여도를 보여줍니다.


실험은 HDformer와 TSA의 효과를 그들의 새로운 설계를 통해 제안합니다. 우리의 솔루션은 장거리 PPG 신호를 효율적으로 분석하여 당뇨병을 정확하게 분류할 수 있습니다. 새로운 차원을 집계하기 위해 제안된 TSA 자체 어텐션과 전문가 예측을 연결하기 위한 게이트 MoE 계층을 사용하여, HDformer는 동적 패치 크기의 파형 내외부의 핵심 관계를 포착합니다.

4.3. TSA in Depth and Ablation Study

TSA와 MoE의 다양한 크기의 영향을 이해하기 위해, 모델의 다른 매개변수 구성에 대한 소거 연구를 수행했습니다.

4.3.1 The Impact of the Long-range and TSA

당뇨병 탐지에 장거리 PPG의 효과를 평가하기 위해, 다양한 PPG 파형 길이의 민감도 분석을 표 2에서 제시했습니다.

1D 시퀀스의 경우, 8초에서 30초로 파장이 증가함에 따라 더 많은 기능을 추가하고 교육에 장거리 의존성을 확장함으로써 성능 메트릭이 향상되었습니다. 흥미롭게도, 30초에서 60초로 지속적인 증가는 계산 과부하로 인해 성능이 희석되었습니다. TSA를 통해, 1D 파형의 2D 표현을 통한 처리는 장기 또는 단기 의존성을 손상시키지 않으면서 토큰의 크기를 크게 줄였습니다. 그런 다음 파장의 증가는 성능을 일관되게 개선했으며, TSA를 사용하여 계산 용량을 최적화하면서 장거리 PPG의 가치를 보여줍니다.

4.3.2 The Impact of the Dynamic Patching with MoE

다양한 모델 매개변수 구성을 사용하여 다른 PPG 입력에 대한 실험을 수행했습니다. 표 3에 나타냈습니다.

TSA에서의 2D 표현은 표준 자체 어텐션 메커니즘에서 원래 1D 파형보다 더 나은 결과를 달성하는 데 도움이 되었습니다. 더 큰 크기의 패치(2T 및 4T)가 더 작은 패치(T/2 및 T/4)보다 더 나은 성능을 발휘했다는 것을 발견하는 것은 흥미롭습니다. 게이트된 MoE에서 추가된 앙상블 네트워크도 모델의 성능을 상당히 향상시켰습니다.

4.3.3 The Impact of the 2D Numerical Tensor

TSA는 수치 텐서를 사용합니다; 각 시간 기반 샘플 점은 1D에서 단일 값으로 표현됩니다. 2D 토큰의 경우, 인접한 점의 해당 값은 단일 2D 텐서로 연결되어 2D Transformer에 의해 처리됩니다.
수치 텐서는 이미지 텐서보다 더 큰 효율성을 가능하게 합니다. 기존의 TSA와 1D PPG 데이터를 2D 이미지로 변환하는 2D 이미지 기반 표현을 비교했으며, 2D 이미지 기반 표현이 1D PPG보다 더 많은 토큰(픽셀)을 도입하여 장거리 데이터 처리의 효율성을 줄였다는 것을 발견했습니다(표 4).

4.3.4 The Comparison of Existing 2D Transformers

2D TSA 표현에서 다른 비전 Transformer 알고리즘을 평가하기 위해, 표준 ViT와 계층적 Swin Transformer 간의 결과도 비교했습니다(표 5).

ViT는 높은 정확도로 수행되었지만, Swin Transformer는 더 나은 결과를 달성했습니다. 이는 Swin의 계층적 구조가 다양한 창 크기를 사용하여 2D PPG의 더 긴 거리 의존성을 포착하기 때문에 발생한다고 가정합니다.

4.4. HDformer Extension

HDformer의 일반화 가능성을 검증하기 위해, 당뇨병 탐지에 널리 사용되는 또 다른 데이터셋 [12]으로 실험을 확장하고 정확도 98.9와 AUC 0.955를 달성했습니다.
PPG뿐만 아니라, 심전도(ECG)도 클리닉에서 널리 사용되는 또 다른 디지털 생체 의료 파형입니다.
ECG는 심장의 전기 활동에 대한 중요한 정보를 제공하며 많은 심장 질환을 진단하고 심혈관 질환을 평가하는 금본위제로 간주됩니다. 또한, ECG는 당뇨병 환자의 심장 합병증 및 심혈관 질환 부담에 대한 중요한 단서를 제공할 수 있습니다.
최근 연구는 PPG에서 ECG를 재구성하는 데 있어서 유망한 결과를 제시했습니다 [28] [20] [11]. 따라서, 우리는 PPG와 재구성된 ECG 모두에서 TSA를 적용하여 HDformer 아키텍처를 확장했습니다(그림 6).


다중 모달 TSA는 필요한 장거리 PPG 파장을 10분에서 5분으로 단축시켜 10분 PPG 파형과 비교할 수 있는 성능을 제공했습니다(표 6).


샘플링 주파수는 초당 PPG 데이터의 양을 정의합니다. 더 높은 주파수는 처리해야 할 더 많은 데이터를 생성합니다. 우리는 다양한 주파수를 비교했으며, 256Hz가 PPG의 동일한 길이에 대해 모델 성능을 약간 향상시켰지만, 파형 길이 감소로 인한 정확도 결손을 보완하기에는 단순히 PPG의 주파수를 증가시키는 것만으로는 충분하지 않았습니다.
더 높은 주파수에서의 최적화와 함께, 다중 모달 HDformer 확장은 5분의 PPG만으로도 높은 성능을 달성했습니다. 여전히 장거리로 간주되며 최적화된 계산 효율성이 필요하지만, 이 방법은 실제 세계에서 더 실용적인 솔루션을 제공할 수 있습니다. 당뇨병 탐지 외에도, HDformer 확장은 MIMIC-III 데이터셋에서 CVD 라벨이 지정된 PPG 파형을 실험하는 동안 CVD 탐지에서도 높은 성능(95+ 정확도)을 보여주었습니다. 여기에는 관상 동맥 질환(CAD), 울혈성 심부전(CHF), 심근 경색(MI), 저혈압(HOTN)이 포함됩니다.

4.5. Medical Applications

장거리 PPG 처리를 더 효율적으로 가능하게 함으로써, HDformer는 비침습적이고 확장 가능한 방식으로 당뇨병을 모니터링하고 탐지하는 방법을 제시합니다. HDformer로 입력되는 유일한 원시 입력인 PPG가 저렴하고 사용자 친화적으로 검색할 수 있기 때문에, 우리는 그림 7에 제시된 PPG 기반 링 웨어러블을 프로토타입으로 제작했습니다. 우리는 이 링을 우리 모델의 개념 증명으로 개발하고 실제 세계 설정에서 적용했습니다.


훈련된 HDformer 모델을 클라우드에서 호스팅합니다.
거기서, HDformer는 웨어러블에서 PPG 파형을 받아들여 당뇨병을 예측하는 과정의 일부로 2D 표현을 추론합니다. 웨어러블 링은 착용하기 편리하여 장거리 PPG 신호를 지속적으로 수집하고 대부분의 사용자가 쉽게 채택할 수 있습니다.
우리의 종단간 솔루션은 PPG를 통해 당뇨병을 탐지하는 확장 가능하고 편리하며 저렴한 접근 방식을 가능하게 합니다. 이 솔루션은 개인에게 즉각적인 탐지를 제공하고, 의사가 당뇨병을 쉽게 선별하며, 소외된 커뮤니티를 보호할 수 있으며, 결국 2억 4천만 명의 미진단 환자가 치료를 받고 생명을 보존할 수 있도록 돕습니다 [16].
또한, HDformer는 다양한 PPG 웨어러블 및 PPG 데이터를 보유한 기관을 지원하는 생태계 역할을 할 수 있으며, 새로운 개인정보 보호 중심의, 선택 기반의 장거리 PPG 데이터셋을 구축하고, 연구 커뮤니티에 혜택을 주기 위해 대규모 생물 의학 사전 훈련 모델을 구축할 수 있습니다(그림 8에서 나타낸 바와 같이).

5. Conclusion

당뇨병을 예측하기 위해 장거리 혈관 PPG 신호를 처리할 수 있는 Transformer 기반 모델인 HDformer를 제안합니다. 우리의 모델은 SOTA 성능을 달성하며, 당뇨병의 조기 탐지를 위한 새로운 비침습적 접근 방식을 가능하게 하며, 광범위한 임상 응용에 적합합니다. 제안된 TSA 모듈은 2D 표현으로 장거리 데이터를 효율적으로 처리하는 데 높은 효율성을 보여주며, 동적 패치 크기의 분류를 앙상블하는 게이트 MoE 계층이 도움이 됩니다. 이 방법은 다른 장거리 생물 의료 파형에 적용 가능하며, 이러한 신호를 다양한 질병의 선별 및 관리에 사용할 수 있는 길을 열어줍니다. 더욱이, 이 방법은 미래의 대규모 모델 정제를 위한 기초가 되는 기초 Transformer를 확립합니다.


References
[1] Robert Avram, Jeffrey E Olgin, Peter Kuhar, J Weston Hughes, Gregory M Marcus, Mark J Pletcher, Kirstin Aschbacher, and Geoffrey H Tison. A digital biomarker of diabetes from smartphone-based vascular signals. Nature medicine, 26(10):1576–1582, 2020. 2, 4
[2] Iz Beltagy, Matthew E Peters, and Arman Cohan. Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150, 2020. 3
[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European conference on computer vision, pages 213–229. Springer, 2020. 3
[4] Le Chen, Pei-Hung Lin, Tristan Vanderbruggen, Chunhua Liao, Murali Emani, and Bronis de Supinski. Lm4hpc: Towards effective language model application in highperformance computing. arXiv preprint arXiv:2306.14979, 2023. 3
[5] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov. Transformer-xl:Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019. 3
[6] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 3, 4
[7] Mohamed Elgendi, Richard Fletcher, Yongbo Liang, Newton Howard, Nigel H Lovell, Derek Abbott, Kenneth Lim, and Rabab Ward. The use of photoplethysmography for assessing hypertension. NPJ digital medicine, 2(1):1–11, 2019. 2
[8] Chirath Hettiarachchi and Charith Chitraranjan. A machine learning approach to predict diabetes using short recorded photoplethysmography and physiological characteristics. In Conference on Artificial Intelligence in Medicine in Europe, pages 322–327. Springer, 2019. 2, 4
[9] Alistair EW Johnson, Tom J Pollard, Lu Shen, Li-wei H Lehman, Mengling Feng, Mohammad Ghassemi, Benjamin Moody, Peter Szolovits, Leo Anthony Celi, and Roger G Mark. Mimic-iii, a freely accessible critical care database. Scientific data, 3(1):1–9, 2016. 5
[10] Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. Reformer: The efficient transformer. arXiv preprint arXiv:2001.04451, 2020. 3
[11] Ella Lan. Performer: A novel ppg-to-ecg reconstruction transformer for a digital biomarker of cardiovascular disease detection. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1991–1999, 2023. 7
[12] Yongbo Liang, Zhencheng Chen, Guiyong Liu, and Mohamed Elgendi. A new, short-recorded photoplethysmogram dataset for blood pressure monitoring in china. Scientific data, 5(1):1–7, 2018. 7
[13] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10012–10022, 2021. 4
[14] Blaise C Martin, James H Warram, Andrzej S Krolewski, JS Soeldner, CR Kahn, and RN Bergman. Role of glucose and insulin resistance in development of type 2 diabetes mellitus: results of a 25-year follow-up study. The Lancet, 340(8825):925–929, 1992. 1
[15] Enrique Monte Moreno, Maria Jose Anyo Lujan, Montse Torrres Rusinol, Paqui Juarez Fernandez, Pilar Nunez Manrique, Cristina Aragon Trivino, Magda Pedrosa Miquel, Marife Alvarez Rodriguez, and M Jose Gonz ´ alez Burguillos. Type 2 diabetes screening ´ test by means of a pulse oximeter. IEEE Transactions on Biomedical Engineering, 64(2):341–351, 2016. 2, 4
[16] Katherine Ogurtsova, Leonor Guariguata, Noel C Barengo, ¨ Paz Lopez-Doriga Ruiz, Julian W Sacre, Suvi Karuranga, Hong Sun, Edward J Boyko, and Dianna J Magliano. Idf diabetes atlas: Global estimates of undiagnosed diabetes in adults for 2021. Diabetes research and clinical practice, 183:109118, 2022. 1, 8
[17] Madhuri Panwar, Arvind Gautam, Rashi Dutt, and Amit Acharyya. Cardionet: Deep learning framework for prediction of cvd risk factors. In 2020 IEEE International Symposium on Circuits and Systems (ISCAS), pages 1–5. IEEE, 2020. 2
[18] Yousef K Qawqzeh, Abdullah S Bajahzar, Mahdi Jemmali,
Mohammad Mahmood Otoom, and Adel Thaljaoui. Classification of diabetes using photoplethysmogram (ppg) waveform analysis: Logistic regression modeling. BioMed Research International, 2020, 2020. 2, 4
[19] V Ramu Reddy, Anirban Dutta Choudhury, Srinivasan Jayaraman, Naveen Kumar Thokala, Parijat Deshpande, and Venkatesh Kaliaperumal. Perdmcs: Weighted fusion of ppg signal features for robust and efficient diabetes mellitus classification. In Special Session on Smart Medical DevicesFrom Lab to Clinical Practice, volume 6, pages 553–560. SCITEPRESS, 2017. 4
[20] Pritam Sarkar and Ali Etemad. Cardiogan: Attentive generative adversarial network with dual discriminators for synthesis of ecg from ppg. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 488–496, 2021. 7
[21] Fred Shaffer and Jay P Ginsberg. An overview of heart rate variability metrics and norms. Frontiers in public health, page 258, 2017. 3
[22] Venkatesh Bharadwaj Srinivasan and Foroohar Foroozan. Deep learning based non-invasive diabetes predictor using photoplethysmography signals. In 2021 29th European Signal Processing Conference (EUSIPCO), pages 1256–1260. IEEE, 2021. 2, 4
[23] Julian F Thayer and Esther Sternberg. Beyond heart rate variability: vagal regulation of allostatic systems. Annals of the New York Academy of Sciences, 1088(1):361–372, 2006. 2
[24] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017. 3
[25] Liyang Wang, Yao Mu, Jing Zhao, Xiaoya Wang, and Huilian Che. Igrnet: a deep learning model for non-invasive, realtime diagnosis of prediabetes through electrocardiograms. Sensors, 20(9):2556, 2020. 2, 4
[26] Sinong Wang, Belinda Z Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. arXiv preprint arXiv:2006.04768, 2020. 3
[27] Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 11106–11115, 2021. 3, 6
[28] Qiang Zhu, Xin Tian, Chau-Wai Wong, and Min Wu. Ecg reconstruction via ppg: A pilot study. In 2019 IEEE EMBS international conference on biomedical & health informatics (BHI), pages 1–4. IEEE, 2019. 7