데이터 자산화를 위한 CDISC CT (CDISC Controlled Terminology) 활용
국내 제약회사와 CRO는 신약 개발을 위해 지금까지 많은 임상시험을 수행하고 있으며, 데이터를 쌓아가고 있습니다. 과거에는 데이터가 종이 CRF로 수집되어 Microsoft Excel, Access 파일로 보관 되었다면, 현재에는 eCRF로 수집되어 원하는 형태 파일로 다운받아 보관되고 있습니다. 이러한 데이터는 과학적으로 매우 중요한 자료이기 때문에 수집되는 과정에서 SDV, Logical Check 등 데이터 검증 과정을 수행합니다. 하지만 축적된 데이터를 활용하는 것에는 한계가 존재합니다. 데이터 수집 단계에서 활용을 고려하여 데이터를 수집하지 않았기 때문입니다. 성별을 예로 들면, 남성을 “1”, “남”, “남성”, “M”, “Male” 등의 값으로, 여성을 “2”, “여”, “여성”, “F”, “Female” 등의 값으로 통일성 없이 수집하였기 때문입니다. 수집된 데이터 값을 예로 들었지만 데이터 활용을 위해서는 데이터가 저장되는 위치(Domain), 이름(Variable), 형태(Data Type) 등이 모두 일관되게 저장되어야 합니다. 모든 임상시험에서 성별 데이터가 Sex Variable에 “F”, “M” 문자 Type으로 Demographics dataset에 저장되었다면 데이터 축척 및 활용이 가능 해진다는 것입니다.
- Special Purpose Class
- Interventions Class
- Events Class
- Findings Class
Table 1. Example of Domains by Observation Classes in SDTMIG Version 3.3
각 Domain 내에는 데이터를 수집하기 위해 필요한 Variable 들이 있습니다. 이상반응 Domain 내 이상반응명, 발생일, 소실일, 인과관계, 결과 등이 예입니다. 그리고 각 Variable은 정해진 값의 type이 있고 CDISC CT 정보가 포함되어 있습니다. 이와 같이 데이터 특성에 따라 수집 값을 분류하고 코딩하는 것이 데이터 축적 및 활용을 위해 중요한 작업인 것을 확인할 수 있습니다.
SDTMIG에서 CDIST CT 정보를 확인하는 방법
SDTMIG에서 CDISC CT 정보는 Controlled Terms or Format 열 괄호 값으로 확인할 수 있습니다. 아래 테이블은 SDTMIG 중 DM Domain 일부 Variables입니다. 연령단위(Age Units), 성별(Sex), 인종(Race)은 DM Domain에 포함되며 각각 AGEU, SEX, RACE Codelist 값으로 코딩 되어야 합니다.
Table 2. Example for DM Domain in SDTMIG Version 3.3
CDISC CT는 아래 테이블과 같이 하늘색 음영부분에 Codelist 정보를 제공하고 다음 행부터 값 정보를 제공하고 있습니다. SDTMIG에서 확인한 Codelist 정보를 CDISC Submission Value 열에서 찾아 코딩을 진행하면 됩니다. Codelist Extensible 열 값이 “Yes” 일 경우 값을 추가 사용할 수 있지만, “No” 일 경우는 값 추가가 불가능 합니다. 또한 CDISC Synonym(s)를 확인하여 동일한 의미에 다른 값이 존재하지 않도록 주의해야 합니다.
Table 3. Example for Age Unit in CDISC Controlled Terminology
CDSIC CT 사용은 Demographics 예제에서 간단해 보이지만 Findings Class Domains에서는 더욱 복잡합니다. 먼저 아래 SDTM Dataset 예제를 살펴보겠습니다. 첫번째 행을 읽어보면 ABC-001-001 대상자가 앉은 자세, 왼쪽 팔에서 SBP 가 154 mmHg 로 측정되었다는 것입니다. 이와 같이 데이터가 행단위로 정리되고 CRF를 통해 수집된 값과 프로토콜에서 정의한 값이 CDISC CT로 코딩 되는 것을 확인할 수 있습니다.
Table 4. Vital Signs Dataset Example
이와 같이 테스트 주체가 정해지면 단위, 자세, 위치, 방향 등 부가적인 정보를 코딩할 수 있습니다. 아래 예제와 같이 테스트 주체별로 부가적인 값을 미리 정리하여 코딩을 효율적 관리할 수 있습니다. 추가적인 예제는 CDISC 홈페이지에서 참고할 수 있습니다.
Table 5. Vital Signs Codelist Mapping Example
Interventions Class Domains 경우 투여단위, 투여경로, 제형, 투여빈도 등에 대해, Events Class Domains 경우 중증도, 결과, 조치 등에 대해 주로 사용하는 값을 CDISC CT에서 목록화 하여 사용할 수 있습니다.
SDTM 작업의 시작은 데이터를 SDTM Domain에 맞게 분류하고, CDISC CT에 따라 코딩하는 것입니다. 수많은 데이터를 분류하고 CDISC CT에서 찾는 일은 말처럼 쉬운 일이 아닙니다. 흔히 쓰이는 용어와 다를 수도 있고, 표기 방법이 달라 놓이는 부분도 많기 때문입니다. 이는 FDA Validation Ruel에 위배되어 재작업을 해야 할 수도 있습니다. 위에서 언급한 것과 같이 데이터 수집항목에 따라 Terminology를 미리 구성해 관리한다면 SDTM 변환 시 많은 시간을 줄일 수 있고, 연구를 통해 축적된 데이터에서 가치 있는 결과를 얻을 수 있을 것입니다
Table 6. Terminology MDR in imtrial