ICH E6(R3)에서 새롭게 등장한 Data Flow Diagram, 왜 필요한가?

 

Data flow diagram (DFD)은 1970년대 소프트웨어 엔지니어 Larry Constantine과 Ed Yourdon이 『Structured Design』에서 처음 소개한 기법으로 알려져 있습니다. 이후 Tom DeMarco, Chris Gane, Trish Sarson 등이 표준화된 기호와 표기법을 정립하면서 오늘날까지 널리 쓰이는 데이터 흐름 표현 도구가 되었습니다.

 

DFD의 핵심은 “데이터가 어디에서 생성되어, 어떤 프로세스를 거쳐, 어디에 저장되고, 다시 어디로 흘러가는지”를 직관적인 그림으로 보여주는 것입니다. 원래는 소프트웨어·IT 시스템 설계에 많이 쓰였지만, 임상시험을 포함하여 구조화된 프로세스를 가진 모든 분야에서 데이터 흐름을 설명하는 데 매우 잘 맞는 도구입니다.

 

ICH E6(R3)에 등장한 Data Management Plan과 Data Flow Diagram (DFD)

E6(R2)에서는 Data Management Plan(DMP)나 Data Flow Diagram이라는 용어가 명시적으로 등장하지 않았습니다. E6(R3) 최종본(2025.01.06 채택)에서는 데이터와 기록 (Data and Records)을 별도의 큰 섹션(3.16)으로 다루면서, DMP와 DFD를 공식 용어로 도입했습니다.

 

ICH E6 R3 Section 3.16.1(c) Data Handling에는 다음과 같이 명시되어 있습니다.

“The sponsor should pre-specify data to be collected and the method of its collection in the protocol (see Appendix B). Where necessary, additional details, including a data flow diagram, should be contained in a protocol related document (e.g., a data management plan).”

 

즉, 어떤 데이터를 수집할지와 어떤 방법으로 수집할지를 프로토콜에 미리 정의하고, 필요한 경우 data management plan (DMP) 등 프로토콜 관련 문서에 data flow diagram을 포함하여 상세히 설명하라고 요구하고 있습니다.

 

 

이 변화는 이미 심유 뉴스레터 No.1 「ICH E6(R2) → (R3). 바뀐 용어 속에 담긴 규제의 시선 (조유나)」에서 다루었던 다음 흐름과 맞닿아 있습니다.

  1. ‘Documents’에서 ‘Records’로 – 단순 문서가 아니라, 데이터와 메타데이터, 생성·수정·보관의 전체 맥락까지 추적 가능한 기록(record) 중심의 사고 전환
  2. Case Report Form (CRF)에서 Data Acquisition Tool(DAT)로 –CRF는 여러 DAT 중 하나로 정의되며, 웨어러블·센서·EMR·중앙검사실 시스템 등 다양한 데이터원을 포괄하는 개념으로 확장되었습니다.
  3. Data Integrity 개념의 강화 – 누가 언제 어떤 시스템을 통해 데이터를 생성·수정했는지, 눈가림·보안·정확성·추적성까지 포함하는 데이터 무결성(data integrity) 요구 강화
  4. Data Life Cycle 관점 도입 – 데이터가 캡처 → 검토·교정 → 분석군 확정 → 보관·파기에 이르는 전 생애주기(data life cycle) 전체를 대상으로 품질과 보안을 관리하도록 요구합니다.

 

DFD를 DMP에 포함하라는 요구는, 바로 이 Data Life Cycle 을 “그림으로 보여 달라”는 규제의 메시지라고 이해할 수 있습니다.

 

 

DFD 기본 기호 – 임상시험 예시로 이해해 보기

 

컴퓨터 과학자 Tom DeMarco, Chris Gane, Trish Sarson 등은 DFD를 그릴 때 사용하는 표준 기호(Yourdon & DeMarco, Gane & Sarson 표기법)를 정립했습니다.

표기법마다 기호의 모양이 조금씩 다르지만, 의미 자체는 공통입니다.

 

가장 많이 사용되는 기호와 표기법은 Yourdon & DeMarco 표기법과 Gane & Sarson 표기법입니다.

 

Yourdon & DeMarco 표기법과 Gane & Sarson 표기법에서 사용되는 기호는 다음과 같습니다.

 

 

  1. External Entity (Terminators)
    • 역할: 시스템 밖에서 데이터를 생성하거나 받는 주체
    • 임상시험 External entity 예시:
      • 시험참여자(Trial Participant): ePRO 앱에 증상을 입력, 일지 작성
      • 시험자(Investigator): CRF에 자료 입력, SAE 보고
      • Investigator Site /병원 EMR 시스템: 진료 정보, 영상, 수술 기록 제공
      • Central Lab / Local Lab: 검사결과 제공
      • Imaging Vendor (Central Imaging Lab): MRI/CT 읽기 결과 제공
      • Randomization/IWRS 시스템: 시험참여자 배정 정보 제공
      • Regulatory Authorities / IRB/IEC: SUSAR, 안전성 보고최종보고서 수신

  2. Process (Circle/rounded rectangle)
    • 역할: 입력된 데이터를 사용(use), 변환(transform), 전달(transfer)하는 활동 (activity)
    • 임상시험 프로세스 예시:
      • Visit 일정 수행: 각 방문 별 EDC 데이터 수집
      • Electronic Informed Consent (eIC) 획득: 전자 서명, 동의 버전 관리
      • Randomization: 시험참여자 Eligibility 확인 후 IWRS를 통한 군 배정
      • Central lab 검사 의뢰 & 결과 수신: EDC에서 검사 오더 생성 → Lab LIS로 전송 → 결과 역전송
      • Safety Reporting: SUSAR 신속보고, DSUR 정기보고 등
      • Data Cleaning & Query Management: EDC 내 edit check, query 발행 및 해소
      • SDTM/ADaM 변환: Raw data → 표준화(SDTM) → 분석 데이터셋(ADaM) 생성

  3. Store (Two parallel lines or open-ended rectangle)
    • 역할: 데이터를 보관하는 저장소
    • 임상시험 데이터 저장소 예시:
      • Site Source Records: EMR, 종이 노트, 수술 기록지, PACS 등 원자료
      • EDC Database: CRF에 입력된 데이터
      • ePRO/eDiary Database: 참여자 PRO 데이터 저장
      • Central Lab Database: 원시 검사 데이터 및 결과 값
      • Imaging Repository: DICOM 파일, 중앙 판독 결과
      • Safety Database: AE/SAE, SUSAR 정보
      • CTMS / IWRS Logs: 무작위배정 및 IP 재고 관련 데이터
      • 통계 분석용 데이터 저장소: SDTM/ADaM, 분석 스크립트, 로그, TLF 결과
      • TMF / eTMF: 모든 필수 기록 (essential records)의 최종 보관소

  4. Data Flow (Arrow)
    • 역할: 데이터가 External Entity ↔ Process ↔ Data Store 사이를 이동하는 경로
    • 임상시험 예시 데이터 플로우:
      • 참여자 → ePRO 앱 → 벤더 DB (→ EDC)

        참여자가 스마트폰 앱에 통증 NRS, 피로도, 약물 복용 여부를 입력하면 데이터는 ePRO 벤더의 클라우드 DB에 저장되고, 이후 스케줄에 따라 EDC로 안전하게 전송.

      • EDC → Central Lab → EDC
        Investigator가 방문 시 필요한 검사 항목을 CRF/EDC에서 선택하면, 그 정보가 Lab LIS (lab information system)로 전송되고, Lab에서 분석한 결과가 다시 EDC에 구조화 데이터로 돌아옴.
      • Investigator → Safety DB → 규제당국/IRB

        Investigator가 SAE Report Form을 작성하면, 데이터가 Safety DB로 저장되고, PV 팀에서 SUSAR 여부 평가 및 MedDRA 코딩을 수행한 뒤, 규제당국(EudraVigilance, FDA, MFDS 등)과 IRB/IEC에 전자 보고서 형태로 전송됩니다.

 

 

Data flow diagram (DFD)의 상세수준 (Level)

 

“얼마나 자세하게 프로세스를 쪼개서 그렸는가”를 나타내는 ‘해상도(상세 수준)’를 의미합니다. 위 (level 0)에서 아래 (level 1, 2, 3,…)로 내려갈수록 점점 더 자세해지는 구조입니다.

 

 

임상시험용 DFD를 그리면 어떤 점이 좋아질까?

 

DFD를 임상시험 DMP에 포함하면, 다음과 같은 실질적인 장점이 있습니다. 이는 ACRO/TransCelerate가 제시한 Study Data Flow Diagram 리소스와도 일치합니다.

 

  1. 데이터 흐름의 “한눈에 보기”

    시험자 또는 시험참여자가 입력한 값이 어디를 거쳐 최종 분석 테이블까지 가는지”를 한 장으로 보여줄 수 있습니다.

    예: “참여자의 심박수 데이터(웨어러블) → 벤더 시스템 → 스폰서 클라우드 → 분석용 ADaM → 노출–반응 분석 그래프

  2. 리스크 기반 품질관리 (QbD, RBQM)에 직접 활용

    EDC·ePRO·Central Lab·Imaging·Safety DB 등 여러 데이터원이 연계될수록, “어디에서 오류가 가장 치명적인지(critical to quality)”를 DFD에서 쉽게 표시할 수 있습니다.

    예: Eligibility 판정에 쓰이는 정보(예: 중앙 판독 영상 결과, 특정 Lab 값, 생체지표)가 어느 시스템에서 생성·전달되는지 표시해두면, 그 구간에 대해 더 강한 검증/모니터링 전략을 설계할 수 있습니다.

  3. 역할과 책임(R&R) 명확화

    데이터 흐름에서 각 화살표에 “누가 책임 주체인지”를 덧붙이면, Investigator, CRO DM, Central Lab, Imaging Vendor, Safety 팀, 통계팀 간 R&R이 시각적으로 정리됩니다.

  4. 국경 간 데이터 이전·보관 이슈 설명에 유용

    국내 병원 EMR → 해외 기반 EDC/클라우드 → 국제 규제 제출 등 국경 간 데이터 이전이 포함된 경우, 어느 지점에서 데이터가 어느 국가에 있는 시스템으로 넘어가는지, 암호화·가명화·접근통제가 어떻게 이루어지는지 DFD에 명시하면, 개인정보보호·생물보안 관련 설명에도 도움을 줍니다.

 

이제, DFD는 IT 개발자만의 도구가 아니라, 이제는 ICH E6(R3)이 임상시험 의뢰자와 service provider에게 요구하는 “데이터 품질·무결성·라이프사이클”의 시각적 언어입니다.

 

또한 DFD를 바탕으로 임상시험 계획부터 각 DFD 각 프로세스 별 리스크를 예측하고 줄이는 방식으로 임상시험을 운영할 것을 요구하고 있습니다.

 

 

유동진 | CEO

 

 

본고는 작성자 개인의 내용, 구성 및 편집 방향에 대한 의견에 따라 다양한 관점을 소개하기 위한 것이며, 당사의 공식 의견을 대변하지 않습니다.

Back to list