신약개발의 지름길, 빅데이터

 

 

  

  

 

 

양 재 혁   대외협력실장 

(베스티안 재단)

  

 

 

최근 Nature Genetics은 전립선암 치료에 대한 80개의 약물 표적을 발견한 논문을 게재하였다. 신약연구개발에서 한 가지 표적을 가지고 연구하기도 힘든 상황에서 놀라운 성과다. 이러한 일은 바로 DNA분석과 빅데이터 연구 그리고 인공지능을 통한 머신러닝를 통해서 가능했다.

알파고를 지켜보면서 인공지능의 놀라움을 느끼는 것도 잠시 신약개발 연구 옆에 서있는 기술발전이 놀랍기만 하다.

 

영국 연구팀은 전립선암 환자 112명의 유전정보를 수집하고 다른 연구에서 얻은 데이터를 결합시켰으며, 930명의 셈플을 활용했다. 연구팀은 최신 빅데이터기술을 사용하여 유전적 변화에 대한 새로운 통찰력으로 전립선암 치료에 큰 도움이 될 수 있는 계기를 마련했다. 이들은 어떠한 유전자가 관련 있는지를 이해하고 유전자에 의해서 코드화된 단백질 맵을 만들었다. 팀은 연구결과로 canSAR이라는 데이터 베이스를 구축하고 여기에 머신러닝(기계학습)을 도입하여 신약개발에 insight을 제공하고 있다. 분석결과 발견한 80개의 잠제약물후보는 11개는 기존약에서 표적으로 사용하고 있으며, 7개는 이미 임상중이다.

 

사실 유전체 분석에 대해서는 편견이 많다. 시간이 많이 걸린다. 비용이 많이 든다. 번거롭다. 하지만 기술 발전은 비용과 시간을 전략해주고 있다. 대표적인 기술이 병렬방식으로 데이터를 처리하면서 분석방식이 대폭 개선되었다. 또한 지금까지 생각하지 못했던 방식으로 질병과 유전자, 단백질과의 관계를 분석하고 있다.

최근 국내 신테카바이오 등 유전체기업과 제약기업간의 협력이 활발해지고 있다는 점은 무척 고무적이다.

 

신약개발에는 무려 1조원과 15년의 시간이 걸린다고 한다. 갈수록 미국FDA의 신약승인을 얻은 숫자는 늘어나지 않고 있다. 이제 신약개발에도 기술융합마인드로 재무장해야 한다. 비용과 시간을 줄이는 측면에서 빅데이터 분석, 기계학습, 인공지능 등 기존의 신약연구개발 영역에서 다루지 않았던 영역까지 살펴야 한다.

 

또 한가지 흥미로운 사례가 있어서 소개하고자 한다. 지난해 네이처 커뮤니케이션즈에는 생물학적 샘플 실험을 하지 않고 공공데이터를 통해서 신약개발에 나선 사례를 소개하고 있다.

 

암연구자들은 보통 개별적인 유전자 돌연변이를 목표로 연구를 하고 있지만 종종 예상보다 효과가 떨어지거나 약제 내성이 강하게 나타나곤 한다. 이러한 문제를 극복하기 위해서 UCFICE팀 첸 박사와 동료는 첫 번째로 공공데이터인 The Cancer Genome Atlas (TCGA)를 활용했다. TCGA30여종의 암의 유전자 변화지도로서 2페타바이트 이상의 데이터를 가지고 있는데 연구팀은 유전자 발현을 14개 암조직과 비교 했다.

두 번째로 세포 신호전달 라이브러리, LINCS(Integrated Network-based Cellular Signatures) L1000 데이터 세트 라이브러리를 이용했다. 연구팀은 유전자 발현이 유해 단백질 생산하는 비정상적인 변화를 역전시킬 수 있는 능력에 근거해서 71개 셀라인에 기반한 12,442개의 저분자 타겟을 발견하였다. 이 또한 공개 데이터 베이스였다. 그리고 실험실에서 생물학적으로 활성화회 화학물질이 특정 종류의 암세포를 얼마나 잘 죽이는지에 대한 데이터의 측정을 위해서 세 번째 데이터 베이스, ChEMBL를 활용했다.

마지막으로, ChenCancer Cell Line Encyclopedia를 사용하여 1,000 개 이상의 암 세포주의 분자 프로파일을 분석하고 비교했다. 그들의 분석에 의하면, 실험용 마우스에서 종양으로 성장한 간암 세포에 대해 시험 한 파르 비 네이트 (pyrvinium pamoate)를 포함하여 4 가지 약물이 효과적 일 것으로 밝혀졌다. 첸 박사는 이미 많은 암에 대한 약의 효과에 대한 데이터를 가지고 있으며 이를 통해서 어떤 실험을 운영하지 않고도 대규모의 연구가 가능했다고 말한다.

 

앞서 본 두 가지 사례처럼 이제는 신약개발 역시 관련 기술개발에 따라서 큰 변화를 맞고 있다. 실제로 회사 영역에서 인공지능은 매우 활발하게 적용 되고 있다. 물론 문제해결에 있어서는 아직까지도 한계점이 많지만 인간적인 능력의 한계로 해결하지 못한 점을 해결할 수 있는 통찰력을 가져온다는 것을 부인할 수 없는 사실이다.

 

두 가지 사례의 공통점은 신약탐색을 위해서 사용가능한 데이터베이스를 활용했다는 점이다.

국내에도 최근 바이오 빅데이터 플랫폼 사업에 나선다. 39개 병원이 참여하여 5500만명분의 환자 진료정보를 활용할 수 있는 바이오 빅데이터 플랫폼이 구축된다고 한다. 늦었지만 보건의료 데이터의 구축과 활용에 있어서 매우 중요한 일이다.

 

 

 

 

그림. 바이오빅데이터 플랫폼 구조 (출처:매일경제신문)

 

사업추진단은 데이터의 표준화를 위해서 각 병원의 전자의무기록자료를 국제표준인 오몹표준데이터모델(OMOP-CDM)로 변환한다. 이 과정에서 임상데이터는 비식별화되어 병원 안에 안전히 보관된다. 기관외의 연구자나 기업은 개별 환자의 정보에 직접적으로 접근할 수 없으며 기관 외 개별환자 자료반출도 허용되지 않는다. 대신, 분석프로그램을 작성하여 컨소시엄에 참여한 병원에 분석프로그램을 보내고, 각 기관 안에서 분석프로그램을 일괄 수행한 후에 나오는 최종 통계요약 값만 연구자에게 회송된다. 결과적으로 연구자나 기업은 개별 환자의 정보를 직접 보거나 접근하지 않았음에도 불구하고, 알고 싶었던 최종 분석결과값을 받을 수 있게 된다. 여러 기관에서 분산되어 동시에 분석이 수행되므로 결과값을 신속히 받아볼 수 있다.

연구자나 기업이 임상자료에 직접 접근할 수 없지만 만일에 있을 보안문제를 사전에 차단하기 위하여 모두 자료는 비식별화되어 병원안에 안전히 보관되며, 반출되는 통계자료도 개인정보가 행여 존재하는지 다시 한번 검토한 후 반출된다.

그리고 플랫폼을 통한 기술사업화가 진행될 경우 데이터를 제공하는 병원은 로열티를 받게 되며 임상연구에도 공동으로 참여할 수 있다. 특정 병원에서 개발된 기술과 서비스라 할지라도, 참여 컨소시엄 병원 전체에 쉽게 확산할 수 있다. 모든 병원이 동일한 데이터 구조와 서비스 플랫폼을 이용하기 때문이다. 이러한 데이터베이스 구축은 의료에 있어서는 환자에 따라서 다른 처방을 할 수 있는 증거기반 의학의 계기가 될 수 있으며, 신약을 개발하는 기업에게는 신약개발을 위한 임상적 근거를 제시해줄 수 있다. 정부는 시범사업 이후 1,2차 병원까지 확대한다고 한다. 사업의 성과가 기대된다.

 

인공지능, 빅데이터 기술의 활용이 신약개발의 비용과 시간을 단축시켜줄 것이라는 것은 어느누구도 부인하는 사람은 없다. 하지만 이러한 기술발전을 위해서는 가장 중요한 것이 바로 올바른 데이터의 축적과 데이터 사용에 대한 권한 부여가 아닐까 생각한다. 우리나라의 신약개발 역량에 새로운 기술들이 활용되어 좋은 성과를 만들어 낼 수 있기를 기원해 본다.

 

 

 

본문의 내용에 대한 문의는 bio@bestian.kr 으로 해주십시오.

Posted by 코디네이팅센터

댓글을 달아 주세요

Home : 지역로그 : 태그 : 미디어로그 : 방명록 : 관리자 : 글쓰기
코디네이팅센터's BLOG IS BY DAUM / DESIGNED BY TISTORY