<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>제약회사 연구원의 블로그</title>
    <link>https://info-tistory.tistory.com/</link>
    <description>제약 연구 관련 정보를 포스팅 하는 블로그입니다. </description>
    <language>ko</language>
    <pubDate>Sat, 11 Apr 2026 21:12:42 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>pharma_info</managingEditor>
    <image>
      <title>제약회사 연구원의 블로그</title>
      <url>https://tistory1.daumcdn.net/tistory/7604713/attach/87d3d08e8f97488b8499402301f20bef</url>
      <link>https://info-tistory.tistory.com</link>
    </image>
    <item>
      <title>재현되지 않는 omics 연구의 공통된 설계 패턴</title>
      <link>https://info-tistory.tistory.com/434</link>
      <description>&lt;p data-end=&quot;261&quot; data-start=&quot;233&quot; data-ke-size=&quot;size16&quot;&gt;&amp;mdash; 왜 같은 실험을 다시 하면 다른 결과가 나오는가&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1154&quot; data-origin-height=&quot;722&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/te1P8/dJMcagdOmkk/KlyAH5DXkIXYQWqd5ezNH1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/te1P8/dJMcagdOmkk/KlyAH5DXkIXYQWqd5ezNH1/img.png&quot; data-alt=&quot;재현되지 않는 omics 연구의 공통된 설계 패턴&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/te1P8/dJMcagdOmkk/KlyAH5DXkIXYQWqd5ezNH1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fte1P8%2FdJMcagdOmkk%2FKlyAH5DXkIXYQWqd5ezNH1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;재현되지 않는 omics 연구의 공통된 설계 패턴&quot; loading=&quot;lazy&quot; width=&quot;1154&quot; height=&quot;722&quot; data-origin-width=&quot;1154&quot; data-origin-height=&quot;722&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;재현되지 않는 omics 연구의 공통된 설계 패턴&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;298&quot; data-start=&quot;263&quot; data-ke-size=&quot;size16&quot;&gt;omics 데이터를 처음 다뤘을 때의 기억은 꽤 인상적이다.&lt;/p&gt;
&lt;p data-end=&quot;345&quot; data-start=&quot;300&quot; data-ke-size=&quot;size16&quot;&gt;수천, 수만 개의 변수.&lt;br /&gt;그리고 그 안에서 튀어나오는 &amp;ldquo;유의미한 신호들&amp;rdquo;.&lt;/p&gt;
&lt;p data-end=&quot;372&quot; data-start=&quot;347&quot; data-ke-size=&quot;size16&quot;&gt;처음 결과를 보면 대부분 비슷한 생각을 한다.&lt;/p&gt;
&lt;p data-end=&quot;394&quot; data-start=&quot;374&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 정도면 뭔가 잡힌 것 같은데?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;451&quot; data-start=&quot;396&quot; data-ke-size=&quot;size16&quot;&gt;하지만 시간이 지나고,&lt;br /&gt;다른 코호트에서 같은 분석을 반복해보면&lt;br /&gt;상황은 전혀 다르게 흘러간다.&lt;/p&gt;
&lt;p data-end=&quot;481&quot; data-start=&quot;453&quot; data-ke-size=&quot;size16&quot;&gt;똑같은 방법을 썼는데도&lt;br /&gt;결과는 재현되지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;556&quot; data-start=&quot;483&quot; data-ke-size=&quot;size16&quot;&gt;이건 단순한 실수의 문제가 아니다.&lt;br /&gt;많은 omics 연구들이 비슷한 방식으로 설계되고,&lt;br /&gt;그 설계 자체가 재현성을 무너뜨린다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;592&quot; data-start=&quot;563&quot; data-section-id=&quot;9bagjp&quot; data-ke-size=&quot;size23&quot;&gt;1. 작은 샘플, 거대한 변수: 구조적인 불균형&lt;/h3&gt;
&lt;p data-end=&quot;632&quot; data-start=&quot;594&quot; data-ke-size=&quot;size16&quot;&gt;omics 연구의 가장 근본적인 문제는&lt;br /&gt;데이터 구조 자체에 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;677&quot; data-start=&quot;634&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;655&quot; data-start=&quot;634&quot; data-section-id=&quot;gtm7qr&quot;&gt;샘플 수 (n): 수십 ~ 수백&lt;/li&gt;
&lt;li data-end=&quot;677&quot; data-start=&quot;656&quot; data-section-id=&quot;dqd4ct&quot;&gt;변수 수 (p): 수천 ~ 수만&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;697&quot; data-start=&quot;679&quot; data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;p &amp;gt;&amp;gt; n 구조&lt;/b&gt;다.&lt;/p&gt;
&lt;p data-end=&quot;718&quot; data-start=&quot;699&quot; data-ke-size=&quot;size16&quot;&gt;이 상황에서는 어떤 일이 벌어질까?&lt;/p&gt;
&lt;p data-end=&quot;750&quot; data-start=&quot;720&quot; data-ke-size=&quot;size16&quot;&gt;우연히 의미 있어 보이는 변수들이&lt;br /&gt;반드시 등장한다.&lt;/p&gt;
&lt;p data-end=&quot;795&quot; data-start=&quot;752&quot; data-ke-size=&quot;size16&quot;&gt;이건 발견(discovery)이 아니라&lt;br /&gt;확률적으로 발생하는 현상에 가깝다.&lt;/p&gt;
&lt;p data-end=&quot;838&quot; data-start=&quot;797&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 신호들이&lt;br /&gt;다른 데이터셋에서는 거의 재현되지 않는다는 점이다.&lt;/p&gt;
&lt;h3 data-end=&quot;872&quot; data-start=&quot;845&quot; data-section-id=&quot;p6a298&quot; data-ke-size=&quot;size23&quot;&gt;2. Feature selection의 유혹&lt;/h3&gt;
&lt;p data-end=&quot;910&quot; data-start=&quot;874&quot; data-ke-size=&quot;size16&quot;&gt;데이터가 많을수록&lt;br /&gt;연구자는 &amp;ldquo;중요한 변수만 고르고 싶어진다&amp;rdquo;.&lt;/p&gt;
&lt;p data-end=&quot;944&quot; data-start=&quot;912&quot; data-ke-size=&quot;size16&quot;&gt;그래서 등장하는 것이 feature selection이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1027&quot; data-start=&quot;946&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;964&quot; data-start=&quot;946&quot; data-section-id=&quot;1zu52b&quot;&gt;p-value 기반 필터링&lt;/li&gt;
&lt;li data-end=&quot;986&quot; data-start=&quot;965&quot; data-section-id=&quot;ayoapu&quot;&gt;fold change 기준 선택&lt;/li&gt;
&lt;li data-end=&quot;1027&quot; data-start=&quot;987&quot; data-section-id=&quot;16hw94g&quot;&gt;machine learning importance score 활용&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1072&quot; data-start=&quot;1029&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 과정이 대부분&lt;br /&gt;&lt;b&gt;단일 데이터셋에 최적화되어 있다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1126&quot; data-start=&quot;1074&quot; data-ke-size=&quot;size16&quot;&gt;즉, 선택된 feature는&lt;br /&gt;그 데이터에서는 잘 작동하지만&lt;br /&gt;다른 데이터에서는 무너진다.&lt;/p&gt;
&lt;p data-end=&quot;1185&quot; data-start=&quot;1128&quot; data-ke-size=&quot;size16&quot;&gt;이건 모델이 잘못된 것이 아니라&lt;br /&gt;선택 과정 자체가 과적합(overfitting)되어 있기 때문이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1226&quot; data-start=&quot;1192&quot; data-section-id=&quot;1h98xf2&quot; data-ke-size=&quot;size23&quot;&gt;3. Validation이 아니라 &amp;ldquo;확인&amp;rdquo;에 가까운 검증&lt;/h3&gt;
&lt;p data-end=&quot;1290&quot; data-start=&quot;1228&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구에서 validation을 한다고 말한다.&lt;br /&gt;하지만 실제로는 validation이 아닌 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;1308&quot; data-start=&quot;1292&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 패턴은 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1395&quot; data-start=&quot;1310&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1339&quot; data-start=&quot;1310&quot; data-section-id=&quot;uvwv6q&quot;&gt;같은 데이터에서 train/test split&lt;/li&gt;
&lt;li data-end=&quot;1360&quot; data-start=&quot;1340&quot; data-section-id=&quot;pure9s&quot;&gt;normalization 공유&lt;/li&gt;
&lt;li data-end=&quot;1395&quot; data-start=&quot;1361&quot; data-section-id=&quot;1l351v7&quot;&gt;feature selection 후 validation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1446&quot; data-start=&quot;1397&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 validation set은 이미&lt;br /&gt;train data의 영향을 받은 상태다.&lt;/p&gt;
&lt;p data-end=&quot;1492&quot; data-start=&quot;1448&quot; data-ke-size=&quot;size16&quot;&gt;겉보기에는 성능이 좋아 보이지만&lt;br /&gt;완전히 독립된 데이터에서는 재현되지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;1526&quot; data-start=&quot;1494&quot; data-ke-size=&quot;size16&quot;&gt;진짜 validation은&lt;br /&gt;다음 조건을 만족해야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1583&quot; data-start=&quot;1528&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1546&quot; data-start=&quot;1528&quot; data-section-id=&quot;s52yyx&quot;&gt;완전히 독립된 cohort&lt;/li&gt;
&lt;li data-end=&quot;1564&quot; data-start=&quot;1547&quot; data-section-id=&quot;1kgz9ib&quot;&gt;동일하지 않은 batch&lt;/li&gt;
&lt;li data-end=&quot;1583&quot; data-start=&quot;1565&quot; data-section-id=&quot;cltpsr&quot;&gt;분석 pipeline 분리&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1611&quot; data-start=&quot;1585&quot; data-ke-size=&quot;size16&quot;&gt;이 조건을 만족하는 연구는 생각보다 많지 않다.&lt;/p&gt;
&lt;h3 data-end=&quot;1649&quot; data-start=&quot;1618&quot; data-section-id=&quot;s68x3q&quot; data-ke-size=&quot;size23&quot;&gt;4. Batch effect: 가장 과소평가된 변수&lt;/h3&gt;
&lt;p data-end=&quot;1690&quot; data-start=&quot;1651&quot; data-ke-size=&quot;size16&quot;&gt;omics 데이터에서 batch effect는&lt;br /&gt;거의 피할 수 없다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1733&quot; data-start=&quot;1692&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1701&quot; data-start=&quot;1692&quot; data-section-id=&quot;1vctvyl&quot;&gt;분석 날짜&lt;/li&gt;
&lt;li data-end=&quot;1711&quot; data-start=&quot;1702&quot; data-section-id=&quot;m5zxas&quot;&gt;장비 상태&lt;/li&gt;
&lt;li data-end=&quot;1722&quot; data-start=&quot;1712&quot; data-section-id=&quot;10ie1mm&quot;&gt;시약 lot&lt;/li&gt;
&lt;li data-end=&quot;1733&quot; data-start=&quot;1723&quot; data-section-id=&quot;11k5xq0&quot;&gt;실험자 차이&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1755&quot; data-start=&quot;1735&quot; data-ke-size=&quot;size16&quot;&gt;이 모든 것이 데이터에 영향을 준다.&lt;/p&gt;
&lt;p data-end=&quot;1805&quot; data-start=&quot;1757&quot; data-ke-size=&quot;size16&quot;&gt;문제는 많은 연구에서&lt;br /&gt;이 batch effect를 충분히 통제하지 않는다는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;1851&quot; data-start=&quot;1807&quot; data-ke-size=&quot;size16&quot;&gt;더 위험한 경우는&lt;br /&gt;batch correction이 과도하게 적용되는 경우다.&lt;/p&gt;
&lt;p data-end=&quot;1895&quot; data-start=&quot;1853&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 실제 biological signal까지&lt;br /&gt;같이 제거될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1941&quot; data-start=&quot;1897&quot; data-ke-size=&quot;size16&quot;&gt;결과적으로&lt;br /&gt;다른 환경에서는 재현되지 않는&lt;br /&gt;&amp;ldquo;가공된 데이터&amp;rdquo;가 만들어진다.&lt;/p&gt;
&lt;h3 data-end=&quot;1974&quot; data-start=&quot;1948&quot; data-section-id=&quot;mghwkf&quot; data-ke-size=&quot;size23&quot;&gt;5. 통계적 유의성과 생물학적 의미의 혼동&lt;/h3&gt;
&lt;p data-end=&quot;2006&quot; data-start=&quot;1976&quot; data-ke-size=&quot;size16&quot;&gt;omics 연구에서는&lt;br /&gt;p-value가 쉽게 나온다.&lt;/p&gt;
&lt;p data-end=&quot;2028&quot; data-start=&quot;2008&quot; data-ke-size=&quot;size16&quot;&gt;왜냐하면 변수 자체가 많기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;2076&quot; data-start=&quot;2030&quot; data-ke-size=&quot;size16&quot;&gt;하지만 중요한 것은&lt;br /&gt;유의성이 아니라 &lt;b&gt;일관성(consistency)&lt;/b&gt;이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2153&quot; data-start=&quot;2078&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2099&quot; data-start=&quot;2078&quot; data-section-id=&quot;mc756w&quot;&gt;여러 cohort에서 반복되는가&lt;/li&gt;
&lt;li data-end=&quot;2121&quot; data-start=&quot;2100&quot; data-section-id=&quot;1eosrzp&quot;&gt;다른 분석 방법에서도 유지되는가&lt;/li&gt;
&lt;li data-end=&quot;2153&quot; data-start=&quot;2122&quot; data-section-id=&quot;19q6a78&quot;&gt;biological mechanism과 연결되는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2189&quot; data-start=&quot;2155&quot; data-ke-size=&quot;size16&quot;&gt;이 기준을 통과하지 못하면&lt;br /&gt;그 결과는 재현 가능성이 낮다.&lt;/p&gt;
&lt;h3 data-end=&quot;2222&quot; data-start=&quot;2196&quot; data-section-id=&quot;1pa5db6&quot; data-ke-size=&quot;size23&quot;&gt;6. 과도한 모델링: 설명보다 예측에 집착&lt;/h3&gt;
&lt;p data-end=&quot;2246&quot; data-start=&quot;2224&quot; data-ke-size=&quot;size16&quot;&gt;최근에는 머신러닝 기반 분석이 많아졌다.&lt;/p&gt;
&lt;p data-end=&quot;2301&quot; data-start=&quot;2248&quot; data-ke-size=&quot;size16&quot;&gt;Random Forest, SVM, Neural Network 등&lt;br /&gt;복잡한 모델들이 사용된다.&lt;/p&gt;
&lt;p data-end=&quot;2337&quot; data-start=&quot;2303&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 모델들이&lt;br /&gt;데이터를 너무 잘 &amp;ldquo;외운다&amp;rdquo;는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;2381&quot; data-start=&quot;2339&quot; data-ke-size=&quot;size16&quot;&gt;특히 sample size가 작은 상황에서는&lt;br /&gt;모델 성능이 과장되기 쉽다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2415&quot; data-start=&quot;2383&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2395&quot; data-start=&quot;2383&quot; data-section-id=&quot;1ro8dwt&quot;&gt;AUC 0.95&lt;/li&gt;
&lt;li data-end=&quot;2415&quot; data-start=&quot;2396&quot; data-section-id=&quot;s4mzws&quot;&gt;Accuracy 90% 이상&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2459&quot; data-start=&quot;2417&quot; data-ke-size=&quot;size16&quot;&gt;이런 결과는 매력적이지만&lt;br /&gt;외부 데이터에서는 급격히 무너지는 경우가 많다.&lt;/p&gt;
&lt;h3 data-end=&quot;2490&quot; data-start=&quot;2466&quot; data-section-id=&quot;1l6o179&quot; data-ke-size=&quot;size23&quot;&gt;7. 결과를 정리하는 방식 자체의 문제&lt;/h3&gt;
&lt;p data-end=&quot;2527&quot; data-start=&quot;2492&quot; data-ke-size=&quot;size16&quot;&gt;논문이나 보고서를 보면&lt;br /&gt;항상 &amp;ldquo;가장 좋은 결과&amp;rdquo;가 강조된다.&lt;/p&gt;
&lt;p data-end=&quot;2560&quot; data-start=&quot;2529&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 분석 과정에서는&lt;br /&gt;수많은 시도가 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2624&quot; data-start=&quot;2562&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2586&quot; data-start=&quot;2562&quot; data-section-id=&quot;7x1lk0&quot;&gt;다양한 normalization 방법&lt;/li&gt;
&lt;li data-end=&quot;2614&quot; data-start=&quot;2587&quot; data-section-id=&quot;xornsc&quot;&gt;여러 feature selection 기준&lt;/li&gt;
&lt;li data-end=&quot;2624&quot; data-start=&quot;2615&quot; data-section-id=&quot;um2z88&quot;&gt;여러 모델&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2665&quot; data-start=&quot;2626&quot; data-ke-size=&quot;size16&quot;&gt;이 중에서 가장 잘 나온 결과만 보고되면&lt;br /&gt;재현성은 당연히 떨어진다.&lt;/p&gt;
&lt;p data-end=&quot;2707&quot; data-start=&quot;2667&quot; data-ke-size=&quot;size16&quot;&gt;이건 의도적인 조작이 아니라&lt;br /&gt;&lt;b&gt;출판 구조 자체가 만든 편향&lt;/b&gt;이다.&lt;/p&gt;
&lt;h3 data-end=&quot;2738&quot; data-start=&quot;2714&quot; data-section-id=&quot;h1hlkh&quot; data-ke-size=&quot;size23&quot;&gt;8. 재현되지 않는 연구의 공통된 흐름&lt;/h3&gt;
&lt;p data-end=&quot;2795&quot; data-start=&quot;2740&quot; data-ke-size=&quot;size16&quot;&gt;이 모든 요소를 종합하면&lt;br /&gt;재현되지 않는 omics 연구는&lt;br /&gt;대체로 다음과 같은 흐름을 가진다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;2913&quot; data-start=&quot;2797&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;2815&quot; data-start=&quot;2797&quot; data-section-id=&quot;5apcmq&quot;&gt;작은 샘플에서 신호 탐색&lt;/li&gt;
&lt;li data-end=&quot;2846&quot; data-start=&quot;2816&quot; data-section-id=&quot;1dm3tzk&quot;&gt;feature selection으로 패턴 강화&lt;/li&gt;
&lt;li data-end=&quot;2873&quot; data-start=&quot;2847&quot; data-section-id=&quot;zy3apq&quot;&gt;내부 validation으로 성능 확인&lt;/li&gt;
&lt;li data-end=&quot;2889&quot; data-start=&quot;2874&quot; data-section-id=&quot;1h5hfsz&quot;&gt;시각화로 결과 강조&lt;/li&gt;
&lt;li data-end=&quot;2913&quot; data-start=&quot;2890&quot; data-section-id=&quot;i172go&quot;&gt;논문에서는 가장 좋은 결과만 보고&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;2946&quot; data-start=&quot;2915&quot; data-ke-size=&quot;size16&quot;&gt;이 과정은 매우 자연스럽고,&lt;br /&gt;많은 연구에서 반복된다.&lt;/p&gt;
&lt;p data-end=&quot;2978&quot; data-start=&quot;2948&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이 흐름 자체가&lt;br /&gt;재현성을 떨어뜨리는 구조다.&lt;/p&gt;
&lt;h3 data-end=&quot;3010&quot; data-start=&quot;2985&quot; data-section-id=&quot;76jvua&quot; data-ke-size=&quot;size23&quot;&gt;9. 그렇다면 어떻게 설계를 바꿔야 할까&lt;/h3&gt;
&lt;p data-end=&quot;3036&quot; data-start=&quot;3012&quot; data-ke-size=&quot;size16&quot;&gt;완벽한 해결책은 없지만&lt;br /&gt;방향은 분명하다.&lt;/p&gt;
&lt;h4 data-end=&quot;3064&quot; data-start=&quot;3038&quot; data-section-id=&quot;a2161z&quot; data-ke-size=&quot;size20&quot;&gt;1) 샘플 수를 늘리는 것보다 중요한 것&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3109&quot; data-start=&quot;3065&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3082&quot; data-start=&quot;3065&quot; data-section-id=&quot;1ffhhvk&quot;&gt;cohort 다양성 확보&lt;/li&gt;
&lt;li data-end=&quot;3109&quot; data-start=&quot;3083&quot; data-section-id=&quot;1y11ue5&quot;&gt;independent dataset 확보&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-end=&quot;3144&quot; data-start=&quot;3116&quot; data-section-id=&quot;165f8t5&quot; data-ke-size=&quot;size20&quot;&gt;2) feature selection의 분리&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3190&quot; data-start=&quot;3145&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3164&quot; data-start=&quot;3145&quot; data-section-id=&quot;1b5d2d7&quot;&gt;train set에서만 수행&lt;/li&gt;
&lt;li data-end=&quot;3190&quot; data-start=&quot;3165&quot; data-section-id=&quot;1vex2v2&quot;&gt;validation에는 절대 개입 금지&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-end=&quot;3228&quot; data-start=&quot;3197&quot; data-section-id=&quot;ihln42&quot; data-ke-size=&quot;size20&quot;&gt;3) batch effect를 설계 단계에서 통제&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3262&quot; data-start=&quot;3229&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3236&quot; data-start=&quot;3229&quot; data-section-id=&quot;14ot7d0&quot;&gt;랜덤화&lt;/li&gt;
&lt;li data-end=&quot;3246&quot; data-start=&quot;3237&quot; data-section-id=&quot;1p1f60l&quot;&gt;균형 배치&lt;/li&gt;
&lt;li data-end=&quot;3262&quot; data-start=&quot;3247&quot; data-section-id=&quot;1r4htuw&quot;&gt;metadata 기록&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-end=&quot;3287&quot; data-start=&quot;3269&quot; data-section-id=&quot;113dlry&quot; data-ke-size=&quot;size20&quot;&gt;4) 단순한 모델부터 시작&lt;/h4&gt;
&lt;p data-end=&quot;3315&quot; data-start=&quot;3288&quot; data-ke-size=&quot;size16&quot;&gt;복잡한 모델보다&lt;br /&gt;재현 가능한 결과가 중요하다.&lt;/p&gt;
&lt;h4 data-end=&quot;3348&quot; data-start=&quot;3322&quot; data-section-id=&quot;jtpnow&quot; data-ke-size=&quot;size20&quot;&gt;5) negative result도 포함&lt;/h4&gt;
&lt;p data-end=&quot;3381&quot; data-start=&quot;3349&quot; data-ke-size=&quot;size16&quot;&gt;재현성은&lt;br /&gt;성공 사례보다 실패 사례에서 더 잘 드러난다.&lt;/p&gt;
&lt;h3 data-end=&quot;3411&quot; data-start=&quot;3388&quot; data-section-id=&quot;10q5vi7&quot; data-ke-size=&quot;size23&quot;&gt;결론: 문제는 데이터가 아니라 설계다&lt;/h3&gt;
&lt;p data-end=&quot;3460&quot; data-start=&quot;3413&quot; data-ke-size=&quot;size16&quot;&gt;omics 연구가 재현되지 않는 이유를&lt;br /&gt;데이터의 복잡성 때문이라고 생각하기 쉽다.&lt;/p&gt;
&lt;p data-end=&quot;3475&quot; data-start=&quot;3462&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제로는 다르다.&lt;/p&gt;
&lt;p data-end=&quot;3517&quot; data-start=&quot;3477&quot; data-ke-size=&quot;size16&quot;&gt;문제는 데이터가 아니라&lt;br /&gt;&lt;b&gt;그 데이터를 다루는 방식, 즉 설계다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3555&quot; data-start=&quot;3519&quot; data-ke-size=&quot;size16&quot;&gt;비슷한 설계는 비슷한 결과를 만들고,&lt;br /&gt;비슷한 오류를 반복한다.&lt;/p&gt;
&lt;p data-end=&quot;3590&quot; data-start=&quot;3557&quot; data-ke-size=&quot;size16&quot;&gt;그래서 재현되지 않는 연구들은&lt;br /&gt;놀라울 정도로 닮아 있다.&lt;/p&gt;
&lt;p data-end=&quot;3618&quot; data-start=&quot;3592&quot; data-ke-size=&quot;size16&quot;&gt;좋은 연구는 복잡한 분석에서 나오지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;3654&quot; data-start=&quot;3620&quot; data-ke-size=&quot;size16&quot;&gt;오히려&lt;br /&gt;&lt;b&gt;단순하지만 흔들리지 않는 설계에서 시작된다.&lt;/b&gt;&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Feature Selection</category>
      <category>Omics 연구</category>
      <category>데이터 설계</category>
      <category>재현성</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/434</guid>
      <comments>https://info-tistory.tistory.com/434#entry434comment</comments>
      <pubDate>Sat, 11 Apr 2026 20:25:10 +0900</pubDate>
    </item>
    <item>
      <title>연구자가 기대한 방향으로 데이터가 보이기 시작하는 순간</title>
      <link>https://info-tistory.tistory.com/433</link>
      <description>&lt;p data-end=&quot;268&quot; data-start=&quot;241&quot; data-ke-size=&quot;size16&quot;&gt;&amp;mdash; 그때부터 분석은 과학이 아니라 &amp;lsquo;확신&amp;rsquo;이 된다&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;556&quot; data-origin-height=&quot;362&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cwujD3/dJMcaaxTxzp/KOO8RYhUjauNj9kr8l6tZK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cwujD3/dJMcaaxTxzp/KOO8RYhUjauNj9kr8l6tZK/img.png&quot; data-alt=&quot;연구자가 기대한 방향으로 데이터가 보이기 시작하는 순간&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cwujD3/dJMcaaxTxzp/KOO8RYhUjauNj9kr8l6tZK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcwujD3%2FdJMcaaxTxzp%2FKOO8RYhUjauNj9kr8l6tZK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;연구자가 기대한 방향으로 데이터가 보이기 시작하는 순간&quot; loading=&quot;lazy&quot; width=&quot;556&quot; height=&quot;362&quot; data-origin-width=&quot;556&quot; data-origin-height=&quot;362&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;연구자가 기대한 방향으로 데이터가 보이기 시작하는 순간&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;298&quot; data-start=&quot;270&quot; data-ke-size=&quot;size16&quot;&gt;데이터를 분석하다 보면 이상한 순간이 찾아온다.&lt;/p&gt;
&lt;p data-end=&quot;355&quot; data-start=&quot;300&quot; data-ke-size=&quot;size16&quot;&gt;처음에는 아무 의미도 없어 보이던 숫자들이&lt;br /&gt;어느 순간, 하나의 이야기처럼 이어지기 시작한다.&lt;/p&gt;
&lt;p data-end=&quot;396&quot; data-start=&quot;357&quot; data-ke-size=&quot;size16&quot;&gt;그리고 그 이야기가&lt;br /&gt;내가 처음에 기대했던 가설과 맞아떨어질 때,&lt;/p&gt;
&lt;p data-end=&quot;412&quot; data-start=&quot;398&quot; data-ke-size=&quot;size16&quot;&gt;그때부터 무언가가 바뀐다.&lt;/p&gt;
&lt;p data-end=&quot;432&quot; data-start=&quot;414&quot; data-ke-size=&quot;size16&quot;&gt;조심해야 할 순간은 바로 그때다.&lt;/p&gt;
&lt;h3 data-end=&quot;466&quot; data-start=&quot;439&quot; data-section-id=&quot;rcc0m7&quot; data-ke-size=&quot;size23&quot;&gt;1. &amp;ldquo;드디어 나왔다&amp;rdquo;라는 생각이 드는 순간&lt;/h3&gt;
&lt;p data-end=&quot;492&quot; data-start=&quot;468&quot; data-ke-size=&quot;size16&quot;&gt;연구를 하다 보면 누구나 가설을 세운다.&lt;/p&gt;
&lt;p data-end=&quot;557&quot; data-start=&quot;494&quot; data-ke-size=&quot;size16&quot;&gt;이 약물은 효과가 있을 것이다.&lt;br /&gt;이 바이오마커는 예후를 예측할 것이다.&lt;br /&gt;이 pathway가 핵심일 것이다.&lt;/p&gt;
&lt;p data-end=&quot;608&quot; data-start=&quot;559&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 가설이 틀렸을 가능성보다&lt;br /&gt;&lt;b&gt;맞았을 때의 기대감이 훨씬 크다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;661&quot; data-start=&quot;610&quot; data-ke-size=&quot;size16&quot;&gt;그래서 데이터가 가설과 맞는 방향으로 조금만 움직여도&lt;br /&gt;머릿속에서는 이미 결론이 완성된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;712&quot; data-start=&quot;663&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;675&quot; data-start=&quot;663&quot; data-section-id=&quot;mcn041&quot;&gt;&amp;ldquo;역시 예상대로야&amp;rdquo;&lt;/li&gt;
&lt;li data-end=&quot;692&quot; data-start=&quot;676&quot; data-section-id=&quot;taylu1&quot;&gt;&amp;ldquo;이건 의미 있는 신호다&amp;rdquo;&lt;/li&gt;
&lt;li data-end=&quot;712&quot; data-start=&quot;693&quot; data-section-id=&quot;4veqsw&quot;&gt;&amp;ldquo;이 정도면 충분하지 않을까?&amp;rdquo;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;765&quot; data-start=&quot;714&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이 순간, 분석은 더 이상 중립적이지 않다.&lt;br /&gt;이미 결론을 향해 움직이기 시작한다.&lt;/p&gt;
&lt;h3 data-end=&quot;793&quot; data-start=&quot;772&quot; data-section-id=&quot;dv6b6x&quot; data-ke-size=&quot;size23&quot;&gt;2. 선택적 해석이 시작되는 지점&lt;/h3&gt;
&lt;p data-end=&quot;845&quot; data-start=&quot;795&quot; data-ke-size=&quot;size16&quot;&gt;데이터는 항상 완벽하지 않다.&lt;br /&gt;노이즈도 있고, 예외도 있고, 모순되는 결과도 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;908&quot; data-start=&quot;847&quot; data-ke-size=&quot;size16&quot;&gt;그런데 흥미로운 점은&lt;br /&gt;사람이 특정 방향을 기대하기 시작하면&lt;br /&gt;데이터를 보는 방식 자체가 바뀐다는 것이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;963&quot; data-start=&quot;910&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;932&quot; data-start=&quot;910&quot; data-section-id=&quot;17volk&quot;&gt;가설과 맞는 데이터 &amp;rarr; &amp;ldquo;핵심 결과&amp;rdquo;&lt;/li&gt;
&lt;li data-end=&quot;963&quot; data-start=&quot;933&quot; data-section-id=&quot;598pui&quot;&gt;맞지 않는 데이터 &amp;rarr; &amp;ldquo;노이즈&amp;rdquo;, &amp;ldquo;outlier&amp;rdquo;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;998&quot; data-start=&quot;965&quot; data-ke-size=&quot;size16&quot;&gt;같은 데이터임에도 불구하고&lt;br /&gt;의미 부여의 기준이 달라진다.&lt;/p&gt;
&lt;p data-end=&quot;1078&quot; data-start=&quot;1000&quot; data-ke-size=&quot;size16&quot;&gt;특히 LC-MS/MS 정량 분석이나 metabolomics처럼&lt;br /&gt;데이터 포인트가 많은 경우,&lt;br /&gt;이 선택적 해석은 훨씬 더 쉽게 발생한다.&lt;/p&gt;
&lt;p data-end=&quot;1115&quot; data-start=&quot;1080&quot; data-ke-size=&quot;size16&quot;&gt;원하는 패턴만 골라보는 순간,&lt;br /&gt;분석은 이미 객관성을 잃는다.&lt;/p&gt;
&lt;h3 data-end=&quot;1144&quot; data-start=&quot;1122&quot; data-section-id=&quot;178u3eh&quot; data-ke-size=&quot;size23&quot;&gt;3. 시각화가 확신을 강화하는 방식&lt;/h3&gt;
&lt;p data-end=&quot;1178&quot; data-start=&quot;1146&quot; data-ke-size=&quot;size16&quot;&gt;여기서 한 단계 더 나아가면&lt;br /&gt;데이터 시각화가 개입한다.&lt;/p&gt;
&lt;p data-end=&quot;1223&quot; data-start=&quot;1180&quot; data-ke-size=&quot;size16&quot;&gt;그래프를 그리는 순간,&lt;br /&gt;데이터는 더 이상 숫자가 아니라 &amp;ldquo;이미지&amp;rdquo;가 된다.&lt;/p&gt;
&lt;p data-end=&quot;1261&quot; data-start=&quot;1225&quot; data-ke-size=&quot;size16&quot;&gt;그리고 그 이미지는&lt;br /&gt;생각보다 훨씬 강력하게 확신을 만들어낸다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1344&quot; data-start=&quot;1263&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1287&quot; data-start=&quot;1263&quot; data-section-id=&quot;147pirw&quot;&gt;Y축을 조금 줄이면 효과가 커 보이고&lt;/li&gt;
&lt;li data-end=&quot;1318&quot; data-start=&quot;1288&quot; data-section-id=&quot;1h7p9wu&quot;&gt;smoothing을 하면 트렌드가 명확해 보이고&lt;/li&gt;
&lt;li data-end=&quot;1344&quot; data-start=&quot;1319&quot; data-section-id=&quot;rm6lny&quot;&gt;특정 구간만 확대하면 패턴이 뚜렷해진다&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1372&quot; data-start=&quot;1346&quot; data-ke-size=&quot;size16&quot;&gt;이 모든 과정이 의도적이지 않을 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;1408&quot; data-start=&quot;1374&quot; data-ke-size=&quot;size16&quot;&gt;하지만 결과적으로는&lt;br /&gt;&lt;b&gt;&amp;ldquo;보고 싶은 그림&amp;rdquo;이 완성된다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1441&quot; data-start=&quot;1410&quot; data-ke-size=&quot;size16&quot;&gt;그리고 사람은 한 번 본 이미지를 쉽게 의심하지 않는다.&lt;/p&gt;
&lt;h3 data-end=&quot;1473&quot; data-start=&quot;1448&quot; data-section-id=&quot;kne2su&quot; data-ke-size=&quot;size23&quot;&gt;4. 통계적 유의성과 심리적 확신의 괴리&lt;/h3&gt;
&lt;p data-end=&quot;1495&quot; data-start=&quot;1475&quot; data-ke-size=&quot;size16&quot;&gt;여기서 가장 위험한 지점이 등장한다.&lt;/p&gt;
&lt;p data-end=&quot;1535&quot; data-start=&quot;1497&quot; data-ke-size=&quot;size16&quot;&gt;데이터는 아직 애매한 상태인데&lt;br /&gt;연구자의 확신은 이미 강해진 상태.&lt;/p&gt;
&lt;p data-end=&quot;1583&quot; data-start=&quot;1537&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 p-value가 0.08인 결과를 보자.&lt;br /&gt;통계적으로는 유의하지 않다.&lt;/p&gt;
&lt;p data-end=&quot;1628&quot; data-start=&quot;1585&quot; data-ke-size=&quot;size16&quot;&gt;하지만 데이터가 기대한 방향으로 움직이고 있다면&lt;br /&gt;이렇게 해석되기 시작한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1692&quot; data-start=&quot;1630&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1657&quot; data-start=&quot;1630&quot; data-section-id=&quot;1r5ftjs&quot;&gt;&amp;ldquo;sample size만 늘리면 될 것 같다&amp;rdquo;&lt;/li&gt;
&lt;li data-end=&quot;1675&quot; data-start=&quot;1658&quot; data-section-id=&quot;a9xei9&quot;&gt;&amp;ldquo;trend는 분명히 있다&amp;rdquo;&lt;/li&gt;
&lt;li data-end=&quot;1692&quot; data-start=&quot;1676&quot; data-section-id=&quot;x5j6ld&quot;&gt;&amp;ldquo;임상적으로 의미가 있다&amp;rdquo;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1756&quot; data-start=&quot;1694&quot; data-ke-size=&quot;size16&quot;&gt;이런 해석이 틀렸다고 말할 수는 없다.&lt;br /&gt;문제는 이 과정에서 반대 가능성을 거의 고려하지 않게 된다는 점이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1784&quot; data-start=&quot;1763&quot; data-section-id=&quot;oakyip&quot; data-ke-size=&quot;size23&quot;&gt;5. 반복 분석과 &amp;lsquo;결과 맞추기&amp;rsquo;&lt;/h3&gt;
&lt;p data-end=&quot;1826&quot; data-start=&quot;1786&quot; data-ke-size=&quot;size16&quot;&gt;이 단계까지 오면 연구자는 무의식적으로&lt;br /&gt;결과를 &amp;ldquo;개선&amp;rdquo;하기 시작한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1896&quot; data-start=&quot;1828&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1840&quot; data-start=&quot;1828&quot; data-section-id=&quot;vc2nx8&quot;&gt;특정 샘플 제거&lt;/li&gt;
&lt;li data-end=&quot;1853&quot; data-start=&quot;1841&quot; data-section-id=&quot;1oc5i14&quot;&gt;분석 조건 변경&lt;/li&gt;
&lt;li data-end=&quot;1877&quot; data-start=&quot;1854&quot; data-section-id=&quot;1g2khf0&quot;&gt;normalization 방식 수정&lt;/li&gt;
&lt;li data-end=&quot;1896&quot; data-start=&quot;1878&quot; data-section-id=&quot;1m4cs2j&quot;&gt;subgroup 분석 수행&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1926&quot; data-start=&quot;1898&quot; data-ke-size=&quot;size16&quot;&gt;이 모든 과정은 정당한 분석 과정일 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;1941&quot; data-start=&quot;1928&quot; data-ke-size=&quot;size16&quot;&gt;하지만 문제는 방향이다.&lt;/p&gt;
&lt;p data-end=&quot;1994&quot; data-start=&quot;1943&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;결과를 이해하기 위한 분석이 아니라&lt;br /&gt;결과를 맞추기 위한 분석이 시작되는 순간&lt;/b&gt;,&lt;/p&gt;
&lt;p data-end=&quot;2014&quot; data-start=&quot;1996&quot; data-ke-size=&quot;size16&quot;&gt;연구는 이미 다른 길로 들어선다.&lt;/p&gt;
&lt;h3 data-end=&quot;2050&quot; data-start=&quot;2021&quot; data-section-id=&quot;5vj1pt&quot; data-ke-size=&quot;size23&quot;&gt;6. 실제 연구 환경에서 더 자주 발생하는 이유&lt;/h3&gt;
&lt;p data-end=&quot;2104&quot; data-start=&quot;2052&quot; data-ke-size=&quot;size16&quot;&gt;이러한 현상은 단순히 개인의 문제가 아니다.&lt;br /&gt;연구 환경 자체가 이를 강화하는 경우가 많다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2157&quot; data-start=&quot;2106&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2118&quot; data-start=&quot;2106&quot; data-section-id=&quot;oyd8h8&quot;&gt;논문 게재 압박&lt;/li&gt;
&lt;li data-end=&quot;2136&quot; data-start=&quot;2119&quot; data-section-id=&quot;1fivmgk&quot;&gt;유의한 결과에 대한 선호&lt;/li&gt;
&lt;li data-end=&quot;2157&quot; data-start=&quot;2137&quot; data-section-id=&quot;h67qtp&quot;&gt;긍정적 결과 중심의 평가 구조&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2204&quot; data-start=&quot;2159&quot; data-ke-size=&quot;size16&quot;&gt;특히 제약 및 바이오 분야에서는&lt;br /&gt;&amp;ldquo;효과 없음&amp;rdquo;이라는 결론이 갖는 부담이 크다.&lt;/p&gt;
&lt;p data-end=&quot;2256&quot; data-start=&quot;2206&quot; data-ke-size=&quot;size16&quot;&gt;그 결과,&lt;br /&gt;데이터가 기대 방향으로 보이는 순간&lt;br /&gt;그 흐름을 유지하려는 압력이 생긴다.&lt;/p&gt;
&lt;h3 data-end=&quot;2290&quot; data-start=&quot;2263&quot; data-section-id=&quot;3mcgga&quot; data-ke-size=&quot;size23&quot;&gt;7. 가장 위험한 착각: &amp;ldquo;나는 객관적이다&amp;rdquo;&lt;/h3&gt;
&lt;p data-end=&quot;2310&quot; data-start=&quot;2292&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구자들이 이렇게 생각한다.&lt;/p&gt;
&lt;p data-end=&quot;2331&quot; data-start=&quot;2312&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;나는 데이터를 있는 그대로 본다&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;2370&quot; data-start=&quot;2333&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제로는&lt;br /&gt;&lt;b&gt;모든 해석은 어느 정도 주관을 포함한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2405&quot; data-start=&quot;2372&quot; data-ke-size=&quot;size16&quot;&gt;특히 경험이 많을수록&lt;br /&gt;패턴을 빠르게 인식하게 되는데,&lt;/p&gt;
&lt;p data-end=&quot;2430&quot; data-start=&quot;2407&quot; data-ke-size=&quot;size16&quot;&gt;이 능력이 오히려 편향을 강화하기도 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2467&quot; data-start=&quot;2432&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2449&quot; data-start=&quot;2432&quot; data-section-id=&quot;da52vi&quot;&gt;빠른 판단 &amp;rarr; 확신 강화&lt;/li&gt;
&lt;li data-end=&quot;2467&quot; data-start=&quot;2450&quot; data-section-id=&quot;qjbt7e&quot;&gt;확신 강화 &amp;rarr; 검증 약화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2481&quot; data-start=&quot;2469&quot; data-ke-size=&quot;size16&quot;&gt;이 악순환이 반복된다.&lt;/p&gt;
&lt;h3 data-end=&quot;2511&quot; data-start=&quot;2488&quot; data-section-id=&quot;ehnmqy&quot; data-ke-size=&quot;size23&quot;&gt;8. 이 순간을 어떻게 통제할 것인가&lt;/h3&gt;
&lt;p data-end=&quot;2556&quot; data-start=&quot;2513&quot; data-ke-size=&quot;size16&quot;&gt;이 문제를 완전히 없애는 것은 불가능하다.&lt;br /&gt;하지만 최소화하는 방법은 있다.&lt;/p&gt;
&lt;h4 data-end=&quot;2581&quot; data-start=&quot;2558&quot; data-section-id=&quot;28psdi&quot; data-ke-size=&quot;size20&quot;&gt;1) 분석 전 기준을 미리 정의하기&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2631&quot; data-start=&quot;2582&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2599&quot; data-start=&quot;2582&quot; data-section-id=&quot;1p4nw7c&quot;&gt;outlier 제거 기준&lt;/li&gt;
&lt;li data-end=&quot;2617&quot; data-start=&quot;2600&quot; data-section-id=&quot;j98vcf&quot;&gt;통계적 threshold&lt;/li&gt;
&lt;li data-end=&quot;2631&quot; data-start=&quot;2618&quot; data-section-id=&quot;ra84v0&quot;&gt;데이터 포함 조건&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2670&quot; data-start=&quot;2633&quot; data-ke-size=&quot;size16&quot;&gt;사전에 정해두면&lt;br /&gt;결과에 따라 기준이 바뀌는 것을 막을 수 있다.&lt;/p&gt;
&lt;h4 data-end=&quot;2701&quot; data-start=&quot;2677&quot; data-section-id=&quot;axee40&quot; data-ke-size=&quot;size20&quot;&gt;2) 반대 가설을 의도적으로 검토하기&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2741&quot; data-start=&quot;2702&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2723&quot; data-start=&quot;2702&quot; data-section-id=&quot;1gmiefa&quot;&gt;&amp;ldquo;이 결과가 틀렸다면 이유는?&amp;rdquo;&lt;/li&gt;
&lt;li data-end=&quot;2741&quot; data-start=&quot;2724&quot; data-section-id=&quot;1b882pl&quot;&gt;&amp;ldquo;다른 설명은 없는가?&amp;rdquo;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2757&quot; data-start=&quot;2743&quot; data-ke-size=&quot;size16&quot;&gt;이 질문을 반복해야 한다.&lt;/p&gt;
&lt;h4 data-end=&quot;2789&quot; data-start=&quot;2764&quot; data-section-id=&quot;sb753d&quot; data-ke-size=&quot;size20&quot;&gt;3) 시각화는 최대한 단순하게 유지하기&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2837&quot; data-start=&quot;2790&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2810&quot; data-start=&quot;2790&quot; data-section-id=&quot;9pyuzq&quot;&gt;과도한 smoothing 금지&lt;/li&gt;
&lt;li data-end=&quot;2823&quot; data-start=&quot;2811&quot; data-section-id=&quot;ethtmg&quot;&gt;축 조작 최소화&lt;/li&gt;
&lt;li data-end=&quot;2837&quot; data-start=&quot;2824&quot; data-section-id=&quot;1hmcz8l&quot;&gt;전체 데이터 공개&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2868&quot; data-start=&quot;2839&quot; data-ke-size=&quot;size16&quot;&gt;그래프는 설득 도구가 아니라&lt;br /&gt;검증 도구여야 한다.&lt;/p&gt;
&lt;h4 data-end=&quot;2892&quot; data-start=&quot;2875&quot; data-section-id=&quot;fatq2d&quot; data-ke-size=&quot;size20&quot;&gt;4) 제3자의 시선 활용&lt;/h4&gt;
&lt;p data-end=&quot;2922&quot; data-start=&quot;2893&quot; data-ke-size=&quot;size16&quot;&gt;다른 사람이 보면&lt;br /&gt;내가 보지 못한 편향이 보인다.&lt;/p&gt;
&lt;p data-end=&quot;2975&quot; data-start=&quot;2924&quot; data-ke-size=&quot;size16&quot;&gt;특히 같은 데이터를 두고&lt;br /&gt;다른 해석이 나오는 경우,&lt;br /&gt;그 지점이 가장 중요한 부분이다.&lt;/p&gt;
&lt;h3 data-end=&quot;3011&quot; data-start=&quot;2982&quot; data-section-id=&quot;1d24nuo&quot; data-ke-size=&quot;size23&quot;&gt;결론: 데이터가 맞아떨어질수록 더 의심해야 한다&lt;/h3&gt;
&lt;p data-end=&quot;3058&quot; data-start=&quot;3013&quot; data-ke-size=&quot;size16&quot;&gt;연구를 하다 보면&lt;br /&gt;데이터가 기대한 방향으로 깔끔하게 맞아떨어지는 순간이 있다.&lt;/p&gt;
&lt;p data-end=&quot;3102&quot; data-start=&quot;3060&quot; data-ke-size=&quot;size16&quot;&gt;그 순간은 기쁜 순간이기도 하지만,&lt;br /&gt;동시에 가장 위험한 순간이기도 하다.&lt;/p&gt;
&lt;p data-end=&quot;3160&quot; data-start=&quot;3104&quot; data-ke-size=&quot;size16&quot;&gt;왜냐하면 그때부터&lt;br /&gt;우리는 데이터를 보는 것이 아니라&lt;br /&gt;&lt;b&gt;확신을 확인하기 시작하기 때문이다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3186&quot; data-start=&quot;3162&quot; data-ke-size=&quot;size16&quot;&gt;좋은 연구자는&lt;br /&gt;데이터가 틀렸을 때보다&lt;/p&gt;
&lt;p data-end=&quot;3219&quot; data-start=&quot;3188&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;데이터가 너무 잘 맞을 때 더 의심하는 사람이다.&lt;/b&gt;&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>데이터 해석</category>
      <category>선택적 해석</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/433</guid>
      <comments>https://info-tistory.tistory.com/433#entry433comment</comments>
      <pubDate>Fri, 10 Apr 2026 20:19:19 +0900</pubDate>
    </item>
    <item>
      <title>p-value 중심 해석이 metabolomics 연구를 단순화시키는 이유</title>
      <link>https://info-tistory.tistory.com/432</link>
      <description>&lt;p data-end=&quot;74&quot; data-start=&quot;46&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 복잡한 생물학을 &amp;lsquo;유의/비유의&amp;rsquo;로 축소하는 순간&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1210&quot; data-origin-height=&quot;428&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cUh8x0/dJMcadOQFkw/93wBkDKjm9lwSTQ0qIGQUk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cUh8x0/dJMcadOQFkw/93wBkDKjm9lwSTQ0qIGQUk/img.png&quot; data-alt=&quot;p-value 중심 해석이 metabolomics 연구를 단순화시키는 이유&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cUh8x0/dJMcadOQFkw/93wBkDKjm9lwSTQ0qIGQUk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcUh8x0%2FdJMcadOQFkw%2F93wBkDKjm9lwSTQ0qIGQUk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;p-value 중심 해석이 metabolomics 연구를 단순화시키는 이유&quot; loading=&quot;lazy&quot; width=&quot;1210&quot; height=&quot;428&quot; data-origin-width=&quot;1210&quot; data-origin-height=&quot;428&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;p-value 중심 해석이 metabolomics 연구를 단순화시키는 이유&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;211&quot; data-start=&quot;76&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 p-value는 거의 모든 분석의 중심에 있다. 환자군과 대조군을 비교하고, 수백에서 수천 개의 metabolite 중에서 통계적으로 유의한 변화를 보이는 것들을 선별하는 과정은 매우 익숙한 분석 흐름이다.&lt;/p&gt;
&lt;p data-end=&quot;306&quot; data-start=&quot;213&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 과정이 너무 자연스럽게 반복되면서, 어느 순간 metabolomics 연구 전체가 &lt;b&gt;&amp;ldquo;유의한 metabolite를 찾는 작업&amp;rdquo;으로 단순화&lt;/b&gt;된다는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;467&quot; data-start=&quot;308&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolomics 데이터가 담고 있는 정보는 그렇게 단순하지 않다. 대사체는 수많은 생리적 변수, 환경 요인, 시간적 변화, 그리고 복잡한 네트워크 구조를 반영한다. 그럼에도 불구하고 p-value 중심 해석은 이 복잡한 시스템을 &lt;b&gt;이분법적인 구조로 축소&lt;/b&gt;시켜 버린다.&lt;/p&gt;
&lt;p data-end=&quot;562&quot; data-start=&quot;469&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 왜 p-value 중심 접근이 metabolomics 연구를 과도하게 단순화시키는지, 그리고 그로 인해 어떤 중요한 정보들이 사라지는지를 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;613&quot; data-start=&quot;569&quot; data-section-id=&quot;1xj75mr&quot; data-ke-size=&quot;size23&quot;&gt;1. 연속적인 biological variation이 &amp;lsquo;있다/없다&amp;rsquo;로 바뀐다&lt;/h3&gt;
&lt;p data-end=&quot;652&quot; data-start=&quot;615&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite 수준은 본질적으로 &lt;b&gt;연속적인 변수&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;694&quot; data-start=&quot;654&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite는 다음과 같은 분포를 가질 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;735&quot; data-start=&quot;696&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;717&quot; data-start=&quot;696&quot; data-section-id=&quot;1vcnfod&quot;&gt;건강한 사람: 0.8 ~ 1.5&lt;/li&gt;
&lt;li data-end=&quot;735&quot; data-start=&quot;718&quot; data-section-id=&quot;ysjr0n&quot;&gt;환자: 1.0 ~ 2.0&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;788&quot; data-start=&quot;737&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 두 집단 사이에는 분명한 차이가 존재하지만 동시에 상당한 overlap도 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;834&quot; data-start=&quot;790&quot; data-ke-size=&quot;size16&quot;&gt;하지만 p-value 기반 분석에서는 이 연속적인 차이가 다음과 같이 변환된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;877&quot; data-start=&quot;836&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;856&quot; data-start=&quot;836&quot; data-section-id=&quot;sp1t9l&quot;&gt;p &amp;lt; 0.05 &amp;rarr; 의미 있음&lt;/li&gt;
&lt;li data-end=&quot;877&quot; data-start=&quot;857&quot; data-section-id=&quot;g3skf2&quot;&gt;p &amp;ge; 0.05 &amp;rarr; 의미 없음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;899&quot; data-start=&quot;879&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 중요한 정보가 사라진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;946&quot; data-start=&quot;901&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;914&quot; data-start=&quot;901&quot; data-section-id=&quot;1wg5rms&quot;&gt;효과 크기의 크기&lt;/li&gt;
&lt;li data-end=&quot;925&quot; data-start=&quot;915&quot; data-section-id=&quot;yybcwh&quot;&gt;분포의 형태&lt;/li&gt;
&lt;li data-end=&quot;946&quot; data-start=&quot;926&quot; data-section-id=&quot;zjcrq&quot;&gt;개인 간 variability&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1005&quot; data-start=&quot;948&quot; data-ke-size=&quot;size16&quot;&gt;즉 실제로는 &lt;b&gt;부분적으로 겹치는 두 집단의 복잡한 구조&lt;/b&gt;가 단순히 &amp;ldquo;차이가 있다/없다&amp;rdquo;로 축소된다.&lt;/p&gt;
&lt;h3 data-end=&quot;1046&quot; data-start=&quot;1012&quot; data-section-id=&quot;1ks35f6&quot; data-ke-size=&quot;size23&quot;&gt;2. 네트워크 구조가 개별 feature 리스트로 분해된다&lt;/h3&gt;
&lt;p data-end=&quot;1132&quot; data-start=&quot;1048&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터의 중요한 특징은 metabolite들이 서로 독립적인 존재가 아니라 &lt;b&gt;network 형태로 연결되어 있다&lt;/b&gt;는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;1232&quot; data-start=&quot;1134&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 하나의 metabolic pathway에서는 여러 metabolite가 동시에 변화할 수 있다. 하지만 p-value 기반 분석에서는 다음과 같은 과정이 이루어진다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;1308&quot; data-start=&quot;1234&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;1268&quot; data-start=&quot;1234&quot; data-section-id=&quot;1om0iaz&quot;&gt;각 metabolite별로 독립적으로 통계 검정 수행&lt;/li&gt;
&lt;li data-end=&quot;1295&quot; data-start=&quot;1269&quot; data-section-id=&quot;262tk5&quot;&gt;유의한 metabolite 리스트 생성&lt;/li&gt;
&lt;li data-end=&quot;1308&quot; data-start=&quot;1296&quot; data-section-id=&quot;1t8s1bd&quot;&gt;리스트 기반 해석&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;1333&quot; data-start=&quot;1310&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 다음과 같은 문제가 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1415&quot; data-start=&quot;1335&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1374&quot; data-start=&quot;1335&quot; data-section-id=&quot;1hmb1su&quot;&gt;동일 pathway에 속한 metabolite 중 일부만 선택됨&lt;/li&gt;
&lt;li data-end=&quot;1392&quot; data-start=&quot;1375&quot; data-section-id=&quot;d6hzkt&quot;&gt;약한 변화는 모두 제외됨&lt;/li&gt;
&lt;li data-end=&quot;1415&quot; data-start=&quot;1393&quot; data-section-id=&quot;7g4qnq&quot;&gt;전체 metabolic 흐름이 분해됨&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1515&quot; data-start=&quot;1417&quot; data-ke-size=&quot;size16&quot;&gt;결과적으로 metabolomics 데이터가 가진 &lt;b&gt;시스템 수준의 정보(system-level information)&lt;/b&gt;가 사라지고, 단순한 feature 리스트로 축소된다.&lt;/p&gt;
&lt;h3 data-end=&quot;1554&quot; data-start=&quot;1522&quot; data-section-id=&quot;1k9wdy2&quot; data-ke-size=&quot;size23&quot;&gt;3. 작은 차이는 과소평가되고, 큰 차이는 과대해석된다&lt;/h3&gt;
&lt;p data-end=&quot;1615&quot; data-start=&quot;1556&quot; data-ke-size=&quot;size16&quot;&gt;p-value는 효과 크기(effect size)와 샘플 수(sample size)에 모두 영향을 받는다.&lt;/p&gt;
&lt;p data-end=&quot;1643&quot; data-start=&quot;1617&quot; data-ke-size=&quot;size16&quot;&gt;이로 인해 다음과 같은 현상이 발생할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1733&quot; data-start=&quot;1645&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1680&quot; data-start=&quot;1645&quot; data-section-id=&quot;1ysja2s&quot;&gt;매우 작은 차이지만 샘플 수가 많아 p-value는 작음&lt;/li&gt;
&lt;li data-end=&quot;1733&quot; data-start=&quot;1681&quot; data-section-id=&quot;17n67wz&quot;&gt;biologically 중요한 변화지만 variability가 커서 p-value는 큼&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1784&quot; data-start=&quot;1735&quot; data-ke-size=&quot;size16&quot;&gt;즉 p-value는 biological importance를 직접적으로 반영하지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;1819&quot; data-start=&quot;1786&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 연구에서는 종종 다음과 같은 해석이 이루어진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1871&quot; data-start=&quot;1821&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1845&quot; data-start=&quot;1821&quot; data-section-id=&quot;1vhp2lw&quot;&gt;p-value가 작다 &amp;rarr; 중요한 변화&lt;/li&gt;
&lt;li data-end=&quot;1871&quot; data-start=&quot;1846&quot; data-section-id=&quot;dt9kvz&quot;&gt;p-value가 크다 &amp;rarr; 중요하지 않음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1911&quot; data-start=&quot;1873&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 metabolomics 데이터의 중요한 특징이 왜곡된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1964&quot; data-start=&quot;1913&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1940&quot; data-start=&quot;1913&quot; data-section-id=&quot;1fjp2ft&quot;&gt;subtle하지만 의미 있는 변화는 무시됨&lt;/li&gt;
&lt;li data-end=&quot;1964&quot; data-start=&quot;1941&quot; data-section-id=&quot;jdkkig&quot;&gt;우연히 안정적인 작은 변화는 강조됨&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-end=&quot;2001&quot; data-start=&quot;1971&quot; data-section-id=&quot;ytrxt4&quot; data-ke-size=&quot;size23&quot;&gt;4. 시간적(dynamic) 정보가 완전히 사라진다&lt;/h3&gt;
&lt;p data-end=&quot;2041&quot; data-start=&quot;2003&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics는 매우 dynamic한 시스템을 반영한다.&lt;/p&gt;
&lt;p data-end=&quot;2078&quot; data-start=&quot;2043&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite는 다음과 같은 시간적 변화를 보일 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2126&quot; data-start=&quot;2080&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2091&quot; data-start=&quot;2080&quot; data-section-id=&quot;xjg3x0&quot;&gt;분 단위 변화&lt;/li&gt;
&lt;li data-end=&quot;2105&quot; data-start=&quot;2092&quot; data-section-id=&quot;1ep3ak9&quot;&gt;식후 급격한 변화&lt;/li&gt;
&lt;li data-end=&quot;2126&quot; data-start=&quot;2106&quot; data-section-id=&quot;pwjvaa&quot;&gt;circadian rhythm&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2235&quot; data-start=&quot;2128&quot; data-ke-size=&quot;size16&quot;&gt;하지만 대부분의 metabolomics 연구는 &lt;b&gt;single time-point 데이터&lt;/b&gt;를 기반으로 분석된다. 그리고 p-value 분석은 이 snapshot 데이터를 기반으로 이루어진다.&lt;/p&gt;
&lt;p data-end=&quot;2258&quot; data-start=&quot;2237&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 다음과 같은 문제가 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2358&quot; data-start=&quot;2260&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2285&quot; data-start=&quot;2260&quot; data-section-id=&quot;yltyf3&quot;&gt;transient 변화는 포착되지 않음&lt;/li&gt;
&lt;li data-end=&quot;2322&quot; data-start=&quot;2286&quot; data-section-id=&quot;pd20r&quot;&gt;timing에 따른 biological 의미 차이가 무시됨&lt;/li&gt;
&lt;li data-end=&quot;2358&quot; data-start=&quot;2323&quot; data-section-id=&quot;ly18q8&quot;&gt;dynamic regulation이 정적인 차이로 해석됨&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2409&quot; data-start=&quot;2360&quot; data-ke-size=&quot;size16&quot;&gt;즉 metabolomics 데이터의 중요한 특징인 &lt;b&gt;시간적 구조&lt;/b&gt;가 완전히 제거된다.&lt;/p&gt;
&lt;h3 data-end=&quot;2440&quot; data-start=&quot;2416&quot; data-section-id=&quot;10aft85&quot; data-ke-size=&quot;size23&quot;&gt;5. 해석이 &amp;ldquo;스토리 만들기&amp;rdquo;로 연결된다&lt;/h3&gt;
&lt;p data-end=&quot;2486&quot; data-start=&quot;2442&quot; data-ke-size=&quot;size16&quot;&gt;p-value 기반 분석을 통해 얻어진 결과는 보통 다음과 같은 형태를 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2536&quot; data-start=&quot;2488&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2510&quot; data-start=&quot;2488&quot; data-section-id=&quot;vaonvc&quot;&gt;유의한 metabolite 리스트&lt;/li&gt;
&lt;li data-end=&quot;2536&quot; data-start=&quot;2511&quot; data-section-id=&quot;qosqhb&quot;&gt;pathway enrichment 결과&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2616&quot; data-start=&quot;2538&quot; data-ke-size=&quot;size16&quot;&gt;이 정보만으로는 biological mechanism을 직접 설명하기 어렵다. 따라서 연구자는 자연스럽게 다음과 같은 작업을 수행하게 된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2672&quot; data-start=&quot;2618&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2639&quot; data-start=&quot;2618&quot; data-section-id=&quot;43o9m9&quot;&gt;일부 metabolite를 선택&lt;/li&gt;
&lt;li data-end=&quot;2655&quot; data-start=&quot;2640&quot; data-section-id=&quot;1jeonti&quot;&gt;pathway를 연결&lt;/li&gt;
&lt;li data-end=&quot;2672&quot; data-start=&quot;2656&quot; data-section-id=&quot;zstkpt&quot;&gt;하나의 설명 구조 생성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2739&quot; data-start=&quot;2674&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 metabolomics 데이터는 객관적인 관찰 결과라기보다 &lt;b&gt;설명 가능한 이야기 구조&lt;/b&gt;로 재구성된다.&lt;/p&gt;
&lt;p data-end=&quot;2763&quot; data-start=&quot;2741&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 패턴이 자주 나타난다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2824&quot; data-start=&quot;2765&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2790&quot; data-start=&quot;2765&quot; data-section-id=&quot;n3y0tf&quot;&gt;가장 설명하기 쉬운 pathway 선택&lt;/li&gt;
&lt;li data-end=&quot;2810&quot; data-start=&quot;2791&quot; data-section-id=&quot;1yxc763&quot;&gt;기존 지식과 맞는 해석 강조&lt;/li&gt;
&lt;li data-end=&quot;2824&quot; data-start=&quot;2811&quot; data-section-id=&quot;cv8hxc&quot;&gt;불일치 데이터는 제외&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2868&quot; data-start=&quot;2826&quot; data-ke-size=&quot;size16&quot;&gt;이 과정은 의도적이지 않을 수 있지만 결과적으로 데이터 해석을 단순화시킨다.&lt;/p&gt;
&lt;h3 data-end=&quot;2893&quot; data-start=&quot;2875&quot; data-section-id=&quot;phit3u&quot; data-ke-size=&quot;size23&quot;&gt;6. 그렇다면 무엇이 필요한가&lt;/h3&gt;
&lt;p data-end=&quot;2952&quot; data-start=&quot;2895&quot; data-ke-size=&quot;size16&quot;&gt;p-value 자체는 잘못된 도구가 아니다. 문제는 그것이 &lt;b&gt;유일한 해석 기준이 될 때&lt;/b&gt; 발생한다.&lt;/p&gt;
&lt;p data-end=&quot;3005&quot; data-start=&quot;2954&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터를 보다 제대로 이해하기 위해서는 다음과 같은 접근이 필요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3123&quot; data-start=&quot;3007&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3028&quot; data-start=&quot;3007&quot; data-section-id=&quot;1baxpn2&quot;&gt;effect size 중심 해석&lt;/li&gt;
&lt;li data-end=&quot;3051&quot; data-start=&quot;3029&quot; data-section-id=&quot;1u4kitq&quot;&gt;distribution 기반 비교&lt;/li&gt;
&lt;li data-end=&quot;3072&quot; data-start=&quot;3052&quot; data-section-id=&quot;vwvj04&quot;&gt;network-level 분석&lt;/li&gt;
&lt;li data-end=&quot;3097&quot; data-start=&quot;3073&quot; data-section-id=&quot;vywjcx&quot;&gt;longitudinal data 활용&lt;/li&gt;
&lt;li data-end=&quot;3123&quot; data-start=&quot;3098&quot; data-section-id=&quot;uhm9ys&quot;&gt;biological context 고려&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3170&quot; data-start=&quot;3125&quot; data-ke-size=&quot;size16&quot;&gt;즉 단일 지표가 아니라 &lt;b&gt;여러 층위의 정보를 함께 해석하는 구조&lt;/b&gt;가 필요하다.&lt;/p&gt;
&lt;h3 data-end=&quot;3181&quot; data-start=&quot;3177&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3281&quot; data-start=&quot;3183&quot; data-ke-size=&quot;size16&quot;&gt;p-value 중심 해석은 metabolomics 연구를 빠르고 명확하게 만들어준다. 수천 개의 feature 중에서 중요한 후보를 선별하는 데 매우 유용한 도구이기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;3311&quot; data-start=&quot;3283&quot; data-ke-size=&quot;size16&quot;&gt;하지만 그 과정에서 다음과 같은 단순화가 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3414&quot; data-start=&quot;3313&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3347&quot; data-start=&quot;3313&quot; data-section-id=&quot;1er7yh2&quot;&gt;연속적인 biological variation의 이분화&lt;/li&gt;
&lt;li data-end=&quot;3363&quot; data-start=&quot;3348&quot; data-section-id=&quot;fnvw68&quot;&gt;네트워크 구조의 분해&lt;/li&gt;
&lt;li data-end=&quot;3377&quot; data-start=&quot;3364&quot; data-section-id=&quot;1s8k3b9&quot;&gt;효과 크기의 왜곡&lt;/li&gt;
&lt;li data-end=&quot;3391&quot; data-start=&quot;3378&quot; data-section-id=&quot;rt3ibl&quot;&gt;시간 정보의 소실&lt;/li&gt;
&lt;li data-end=&quot;3414&quot; data-start=&quot;3392&quot; data-section-id=&quot;1u5f30d&quot;&gt;narrative 중심 해석 강화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3490&quot; data-start=&quot;3416&quot; data-ke-size=&quot;size16&quot;&gt;결국 metabolomics 데이터는 단순한 &amp;ldquo;유의한 metabolite 리스트&amp;rdquo;가 아니라 &lt;b&gt;복잡한 생물학적 시스템의 표현&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;3572&quot; data-start=&quot;3492&quot; data-ke-size=&quot;size16&quot;&gt;따라서 중요한 것은 p-value를 버리는 것이 아니라, 그것을 &lt;b&gt;출발점으로만 사용하고 그 너머의 구조를 해석하려는 시도&lt;/b&gt;라고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>biological variation</category>
      <category>metabolomics</category>
      <category>p-value</category>
      <category>system-level information</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/432</guid>
      <comments>https://info-tistory.tistory.com/432#entry432comment</comments>
      <pubDate>Thu, 9 Apr 2026 20:53:35 +0900</pubDate>
    </item>
    <item>
      <title>유의미한 결과만 보고하는 문화가 과학을 왜곡하는 방식</title>
      <link>https://info-tistory.tistory.com/431</link>
      <description>&lt;p data-end=&quot;65&quot; data-start=&quot;34&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 통계적 유의성 중심 연구 문화가 만들어낸 구조적 문제&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;498&quot; data-origin-height=&quot;180&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/l0Jfe/dJMcafTta0o/nCs3rx2OqQmUvoOOLXwDM1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/l0Jfe/dJMcafTta0o/nCs3rx2OqQmUvoOOLXwDM1/img.png&quot; data-alt=&quot;유의미한 결과만 보고하는 문화가 과학을 왜곡하는 방식&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/l0Jfe/dJMcafTta0o/nCs3rx2OqQmUvoOOLXwDM1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fl0Jfe%2FdJMcafTta0o%2FnCs3rx2OqQmUvoOOLXwDM1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;유의미한 결과만 보고하는 문화가 과학을 왜곡하는 방식&quot; loading=&quot;lazy&quot; width=&quot;498&quot; height=&quot;180&quot; data-origin-width=&quot;498&quot; data-origin-height=&quot;180&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;유의미한 결과만 보고하는 문화가 과학을 왜곡하는 방식&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;236&quot; data-start=&quot;67&quot; data-ke-size=&quot;size16&quot;&gt;현대 생명과학 연구에서 &lt;b&gt;&amp;ldquo;통계적으로 유의하다(statistically significant)&amp;rdquo;&lt;/b&gt;라는 표현은 매우 강력한 의미를 가진다. 논문에서 p-value가 기준 이하로 떨어지는 순간 그 결과는 중요한 발견처럼 보이고, 반대로 유의성을 확보하지 못한 결과는 종종 연구의 주변부로 밀려난다.&lt;/p&gt;
&lt;p data-end=&quot;446&quot; data-start=&quot;238&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 과정이 단순히 논문의 표현 방식에만 영향을 주는 것이 아니라 &lt;b&gt;연구 설계, 데이터 해석, 그리고 과학 지식의 축적 방식 자체를 바꾼다&lt;/b&gt;는 점이다. 특히 metabolomics, proteomics, transcriptomics와 같은 omics 연구에서는 수천 개의 변수를 동시에 분석하기 때문에 &lt;b&gt;유의미한 결과만 보고하는 문화가 더 강하게 작동한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;520&quot; data-start=&quot;448&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 왜 이러한 연구 문화가 형성되었는지, 그리고 그것이 과학적 해석을 어떤 방식으로 왜곡할 수 있는지를 살펴보고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;552&quot; data-start=&quot;527&quot; data-section-id=&quot;1wa8uao&quot; data-ke-size=&quot;size23&quot;&gt;1. &amp;ldquo;유의성&amp;rdquo;이 연구의 목표가 되는 순간&lt;/h3&gt;
&lt;p data-end=&quot;585&quot; data-start=&quot;554&quot; data-ke-size=&quot;size16&quot;&gt;통계 분석에서 p-value의 역할은 원래 단순하다.&lt;/p&gt;
&lt;p data-end=&quot;695&quot; data-start=&quot;587&quot; data-ke-size=&quot;size16&quot;&gt;관찰된 차이가 &lt;b&gt;우연히 발생했을 가능성을 평가하는 도구&lt;/b&gt;다. 즉 p-value는 결과의 중요성을 판단하는 기준이 아니라 &lt;b&gt;우연성(randomness)을 평가하는 하나의 지표&lt;/b&gt;일 뿐이다.&lt;/p&gt;
&lt;p data-end=&quot;729&quot; data-start=&quot;697&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 연구 환경에서는 상황이 조금 다르게 작동한다.&lt;/p&gt;
&lt;p data-end=&quot;756&quot; data-start=&quot;731&quot; data-ke-size=&quot;size16&quot;&gt;연구 과정은 보통 다음과 같은 구조를 가진다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;820&quot; data-start=&quot;758&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;768&quot; data-start=&quot;758&quot; data-section-id=&quot;1wio7iv&quot;&gt;실험 수행&lt;/li&gt;
&lt;li data-end=&quot;780&quot; data-start=&quot;769&quot; data-section-id=&quot;8yucgk&quot;&gt;데이터 분석&lt;/li&gt;
&lt;li data-end=&quot;796&quot; data-start=&quot;781&quot; data-section-id=&quot;7f0tp6&quot;&gt;p-value 계산&lt;/li&gt;
&lt;li data-end=&quot;811&quot; data-start=&quot;797&quot; data-section-id=&quot;fzxh7u&quot;&gt;유의한 결과 선택&lt;/li&gt;
&lt;li data-end=&quot;820&quot; data-start=&quot;812&quot; data-section-id=&quot;u2zkfu&quot;&gt;논문 작성&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;874&quot; data-start=&quot;822&quot; data-ke-size=&quot;size16&quot;&gt;이 과정이 반복되면서 자연스럽게 &lt;b&gt;연구의 목표 자체가 유의한 결과를 찾는 것처럼 변한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;904&quot; data-start=&quot;876&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 상황에서 이 경향은 더 강해진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;959&quot; data-start=&quot;906&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;919&quot; data-start=&quot;906&quot; data-section-id=&quot;udk7wt&quot;&gt;연구비 확보 경쟁&lt;/li&gt;
&lt;li data-end=&quot;932&quot; data-start=&quot;920&quot; data-section-id=&quot;swennk&quot;&gt;논문 출판 압박&lt;/li&gt;
&lt;li data-end=&quot;959&quot; data-start=&quot;933&quot; data-section-id=&quot;p4m6ed&quot;&gt;높은 impact journal의 선호 구조&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;994&quot; data-start=&quot;961&quot; data-ke-size=&quot;size16&quot;&gt;결과적으로 많은 연구에서 중요한 질문은 다음과 같이 바뀐다.&lt;/p&gt;
&lt;p data-end=&quot;1032&quot; data-start=&quot;996&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 결과가 biologically meaningful한가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;1037&quot; data-start=&quot;1034&quot; data-ke-size=&quot;size16&quot;&gt;보다는&lt;/p&gt;
&lt;p data-end=&quot;1075&quot; data-start=&quot;1039&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 결과가 statistically significant한가?&amp;rdquo;&lt;/p&gt;
&lt;h3 data-end=&quot;1116&quot; data-start=&quot;1082&quot; data-section-id=&quot;12nh1pl&quot; data-ke-size=&quot;size23&quot;&gt;2. Negative result는 연구 기록에서 사라진다&lt;/h3&gt;
&lt;p data-end=&quot;1160&quot; data-start=&quot;1118&quot; data-ke-size=&quot;size16&quot;&gt;과학 연구에서 negative result는 매우 중요한 의미를 가진다.&lt;/p&gt;
&lt;p data-end=&quot;1260&quot; data-start=&quot;1162&quot; data-ke-size=&quot;size16&quot;&gt;어떤 가설이 틀렸다는 사실은 새로운 가설을 세우는 데 중요한 단서가 될 수 있기 때문이다. 그러나 현실적으로 negative result는 다음과 같은 이유로 보고되기 어렵다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1312&quot; data-start=&quot;1262&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1279&quot; data-start=&quot;1262&quot; data-section-id=&quot;15zsqea&quot;&gt;논문 출판 가능성이 낮음&lt;/li&gt;
&lt;li data-end=&quot;1299&quot; data-start=&quot;1280&quot; data-section-id=&quot;124gkr7&quot;&gt;연구 성과로 인정받기 어려움&lt;/li&gt;
&lt;li data-end=&quot;1312&quot; data-start=&quot;1300&quot; data-section-id=&quot;12gj5kd&quot;&gt;연구비 평가에 불리&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1349&quot; data-start=&quot;1314&quot; data-ke-size=&quot;size16&quot;&gt;이러한 구조 때문에 많은 연구에서 다음과 같은 현상이 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1418&quot; data-start=&quot;1351&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1369&quot; data-start=&quot;1351&quot; data-section-id=&quot;ilt070&quot;&gt;유의한 결과만 논문에 포함&lt;/li&gt;
&lt;li data-end=&quot;1393&quot; data-start=&quot;1370&quot; data-section-id=&quot;19ps2r8&quot;&gt;유의하지 않은 실험은 보고되지 않음&lt;/li&gt;
&lt;li data-end=&quot;1418&quot; data-start=&quot;1394&quot; data-section-id=&quot;1nx8de2&quot;&gt;동일한 실험의 실패 사례는 공유되지 않음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1456&quot; data-start=&quot;1420&quot; data-ke-size=&quot;size16&quot;&gt;이 현상은 흔히 &lt;b&gt;publication bias&lt;/b&gt;라고 불린다.&lt;/p&gt;
&lt;p data-end=&quot;1538&quot; data-start=&quot;1458&quot; data-ke-size=&quot;size16&quot;&gt;문제는 publication bias가 단순히 연구 결과 일부를 숨기는 문제가 아니라 &lt;b&gt;과학적 지식 자체의 방향을 바꿀 수 있다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1588&quot; data-start=&quot;1540&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 biomarker가 실제로는 질병과 큰 관련이 없다고 가정해 보자.&lt;/p&gt;
&lt;p data-end=&quot;1708&quot; data-start=&quot;1590&quot; data-ke-size=&quot;size16&quot;&gt;하지만 여러 연구에서 반복적으로 분석을 수행하면 &lt;b&gt;우연히 유의한 결과가 나오는 연구&lt;/b&gt;도 일부 존재할 수 있다. 그리고 바로 그 연구들만 논문으로 출판된다면 과학 문헌에서는 다음과 같은 인상이 형성될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1736&quot; data-start=&quot;1710&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 biomarker는 질병과 관련이 있다.&amp;rdquo;&lt;/p&gt;
&lt;h3 data-end=&quot;1783&quot; data-start=&quot;1743&quot; data-section-id=&quot;21vcf6&quot; data-ke-size=&quot;size23&quot;&gt;3. Omics 연구에서 false discovery가 증가하는 이유&lt;/h3&gt;
&lt;p data-end=&quot;1819&quot; data-start=&quot;1785&quot; data-ke-size=&quot;size16&quot;&gt;Omics 데이터에서는 이러한 문제가 더욱 심각해질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1863&quot; data-start=&quot;1821&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 metabolomics 연구에서 다음과 같은 상황을 생각해 보자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1907&quot; data-start=&quot;1865&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1889&quot; data-start=&quot;1865&quot; data-section-id=&quot;waclaq&quot;&gt;분석된 feature 수: 5,000&lt;/li&gt;
&lt;li data-end=&quot;1907&quot; data-start=&quot;1890&quot; data-section-id=&quot;2byb2c&quot;&gt;통계 기준: p &amp;lt; 0.05&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2009&quot; data-start=&quot;1909&quot; data-ke-size=&quot;size16&quot;&gt;이론적으로 아무런 실제 차이가 없어도 &lt;b&gt;약 5%의 feature는 우연히 유의한 결과&lt;/b&gt;로 나타날 수 있다. 즉 약 250개의 feature가 의미 있는 변화처럼 보일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2081&quot; data-start=&quot;2011&quot; data-ke-size=&quot;size16&quot;&gt;물론 실제 분석에서는 multiple testing correction이 적용된다. 하지만 여전히 다음과 같은 문제가 남는다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2145&quot; data-start=&quot;2083&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2101&quot; data-start=&quot;2083&quot; data-section-id=&quot;lde12p&quot;&gt;작은 cohort size&lt;/li&gt;
&lt;li data-end=&quot;2118&quot; data-start=&quot;2102&quot; data-section-id=&quot;145tz6r&quot;&gt;batch effect&lt;/li&gt;
&lt;li data-end=&quot;2145&quot; data-start=&quot;2119&quot; data-section-id=&quot;reddtv&quot;&gt;biological heterogeneity&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2228&quot; data-start=&quot;2147&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인들이 결합되면 일부 feature는 &lt;b&gt;우연한 패턴&lt;/b&gt;임에도 불구하고 매우 흥미로운 biological signal처럼 보일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2284&quot; data-start=&quot;2230&quot; data-ke-size=&quot;size16&quot;&gt;그리고 연구자는 자연스럽게 그 feature들을 중심으로 &lt;b&gt;생물학적 스토리를 구성하게 된다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;2320&quot; data-start=&quot;2291&quot; data-section-id=&quot;e5jdsz&quot; data-ke-size=&quot;size23&quot;&gt;4. 연구자는 의도하지 않아도 선택적 해석을 한다&lt;/h3&gt;
&lt;p data-end=&quot;2371&quot; data-start=&quot;2322&quot; data-ke-size=&quot;size16&quot;&gt;흥미로운 점은 이러한 문제들이 반드시 의도적인 데이터 조작 때문만은 아니라는 것이다.&lt;/p&gt;
&lt;p data-end=&quot;2452&quot; data-start=&quot;2373&quot; data-ke-size=&quot;size16&quot;&gt;대부분의 경우 연구자는 매우 성실하게 데이터를 분석한다. 하지만 인간의 인지 구조 자체가 &lt;b&gt;패턴을 찾는 데 매우 강하게 최적화되어 있다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2480&quot; data-start=&quot;2454&quot; data-ke-size=&quot;size16&quot;&gt;따라서 다음과 같은 상황이 자연스럽게 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2540&quot; data-start=&quot;2482&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2502&quot; data-start=&quot;2482&quot; data-section-id=&quot;bn1cif&quot;&gt;흥미로운 결과에 더 많은 관심&lt;/li&gt;
&lt;li data-end=&quot;2522&quot; data-start=&quot;2503&quot; data-section-id=&quot;1blk9xk&quot;&gt;설명 가능한 결과 중심 해석&lt;/li&gt;
&lt;li data-end=&quot;2540&quot; data-start=&quot;2523&quot; data-section-id=&quot;1ku42ou&quot;&gt;기존 지식과 맞는 패턴 강조&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2571&quot; data-start=&quot;2542&quot; data-ke-size=&quot;size16&quot;&gt;반대로 다음과 같은 결과는 상대적으로 덜 주목받는다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2622&quot; data-start=&quot;2573&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2588&quot; data-start=&quot;2573&quot; data-section-id=&quot;1bvue3l&quot;&gt;해석하기 어려운 결과&lt;/li&gt;
&lt;li data-end=&quot;2607&quot; data-start=&quot;2589&quot; data-section-id=&quot;zl019t&quot;&gt;기존 가설과 충돌하는 결과&lt;/li&gt;
&lt;li data-end=&quot;2622&quot; data-start=&quot;2608&quot; data-section-id=&quot;1arqtm4&quot;&gt;통계적으로 애매한 결과&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2678&quot; data-start=&quot;2624&quot; data-ke-size=&quot;size16&quot;&gt;이러한 선택적 해석 과정은 의도하지 않아도 연구 narrative를 특정 방향으로 이끌 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2709&quot; data-start=&quot;2685&quot; data-section-id=&quot;4i3dnx&quot; data-ke-size=&quot;size23&quot;&gt;5. 재현성 위기가 나타나는 구조적 이유&lt;/h3&gt;
&lt;p data-end=&quot;2814&quot; data-start=&quot;2711&quot; data-ke-size=&quot;size16&quot;&gt;최근 생명과학 연구에서 &lt;b&gt;reproducibility crisis&lt;/b&gt;가 중요한 문제로 논의되고 있다. 많은 연구 결과가 다른 연구에서 재현되지 않는다는 보고가 이어지고 있기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;2853&quot; data-start=&quot;2816&quot; data-ke-size=&quot;size16&quot;&gt;이 현상의 원인 중 하나가 바로 &lt;b&gt;유의성 중심 연구 문화&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2877&quot; data-start=&quot;2855&quot; data-ke-size=&quot;size16&quot;&gt;다음과 같은 구조를 생각해 볼 수 있다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;2969&quot; data-start=&quot;2879&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;2905&quot; data-start=&quot;2879&quot; data-section-id=&quot;rvy4hm&quot;&gt;여러 연구 그룹이 동일한 가설을 테스트&lt;/li&gt;
&lt;li data-end=&quot;2928&quot; data-start=&quot;2906&quot; data-section-id=&quot;1tojqaq&quot;&gt;대부분의 연구에서는 유의성 없음&lt;/li&gt;
&lt;li data-end=&quot;2952&quot; data-start=&quot;2929&quot; data-section-id=&quot;1nl4vc5&quot;&gt;일부 연구에서 우연히 유의성 발견&lt;/li&gt;
&lt;li data-end=&quot;2969&quot; data-start=&quot;2953&quot; data-section-id=&quot;zcx8kf&quot;&gt;그 연구만 논문으로 출판&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;2999&quot; data-start=&quot;2971&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 과학 문헌에는 다음과 같은 인상이 남는다.&lt;/p&gt;
&lt;p data-end=&quot;3014&quot; data-start=&quot;3001&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 효과는 존재한다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;3099&quot; data-start=&quot;3016&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이후 더 큰 규모의 연구가 진행되면 그 효과는 재현되지 않는 경우가 많다. 이 과정이 반복되면서 reproducibility 문제가 나타난다.&lt;/p&gt;
&lt;h3 data-end=&quot;3120&quot; data-start=&quot;3106&quot; data-section-id=&quot;1nn4y64&quot; data-ke-size=&quot;size23&quot;&gt;6. 해결책은 무엇일까&lt;/h3&gt;
&lt;p data-end=&quot;3183&quot; data-start=&quot;3122&quot; data-ke-size=&quot;size16&quot;&gt;이 문제를 완전히 해결하는 것은 쉽지 않다. 하지만 최근 과학계에서는 여러 가지 개선 시도가 이루어지고 있다.&lt;/p&gt;
&lt;p data-end=&quot;3204&quot; data-start=&quot;3185&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 접근 방식은 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;3229&quot; data-start=&quot;3206&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;1. pre-registration&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3294&quot; data-start=&quot;3231&quot; data-ke-size=&quot;size16&quot;&gt;연구 시작 전에 분석 계획을 미리 등록하는 방식이다. 이를 통해 분석 과정에서 선택적 결과 보고를 줄일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3321&quot; data-start=&quot;3296&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;2. negative result 공유&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3369&quot; data-start=&quot;3323&quot; data-ke-size=&quot;size16&quot;&gt;유의하지 않은 결과도 데이터베이스나 논문 형태로 공유하려는 움직임이 늘어나고 있다.&lt;/p&gt;
&lt;p data-end=&quot;3395&quot; data-start=&quot;3371&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;3. effect size 중심 해석&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3438&quot; data-start=&quot;3397&quot; data-ke-size=&quot;size16&quot;&gt;단순한 p-value 대신 다음과 같은 지표를 강조하는 접근도 늘고 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3502&quot; data-start=&quot;3440&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3455&quot; data-start=&quot;3440&quot; data-section-id=&quot;1f5s55m&quot;&gt;effect size&lt;/li&gt;
&lt;li data-end=&quot;3479&quot; data-start=&quot;3456&quot; data-section-id=&quot;182cur&quot;&gt;confidence interval&lt;/li&gt;
&lt;li data-end=&quot;3502&quot; data-start=&quot;3480&quot; data-section-id=&quot;1v9bub2&quot;&gt;biological relevance&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3531&quot; data-start=&quot;3504&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;4. replication study 확대&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3572&quot; data-start=&quot;3533&quot; data-ke-size=&quot;size16&quot;&gt;독립적인 cohort에서 결과를 재현하는 연구가 점점 중요해지고 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3583&quot; data-start=&quot;3579&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3653&quot; data-start=&quot;3585&quot; data-ke-size=&quot;size16&quot;&gt;과학 연구에서 통계적 유의성은 중요한 도구이다. 하지만 그것이 연구의 목표가 되는 순간 여러 가지 문제가 나타날 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3687&quot; data-start=&quot;3655&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 현상들이 과학적 해석을 왜곡할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3796&quot; data-start=&quot;3689&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3722&quot; data-start=&quot;3689&quot; data-section-id=&quot;whgju9&quot;&gt;유의한 결과만 보고되는 publication bias&lt;/li&gt;
&lt;li data-end=&quot;3759&quot; data-start=&quot;3723&quot; data-section-id=&quot;6r6t2l&quot;&gt;omics 데이터에서 증가하는 false discovery&lt;/li&gt;
&lt;li data-end=&quot;3787&quot; data-start=&quot;3760&quot; data-section-id=&quot;37yd5h&quot;&gt;선택적 해석이 만들어내는 narrative&lt;/li&gt;
&lt;li data-end=&quot;3796&quot; data-start=&quot;3788&quot; data-section-id=&quot;1r9hhlh&quot;&gt;재현성 문제&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3816&quot; data-start=&quot;3798&quot; data-ke-size=&quot;size16&quot;&gt;결국 중요한 질문은 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;3839&quot; data-start=&quot;3818&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 결과가 통계적으로 유의한가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;3844&quot; data-start=&quot;3841&quot; data-ke-size=&quot;size16&quot;&gt;보다는&lt;/p&gt;
&lt;p data-end=&quot;3888&quot; data-start=&quot;3846&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 결과가 반복적으로 관찰되는가, 그리고 실제 생물학적 의미를 가지는가?&amp;rdquo;&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;3968&quot; data-start=&quot;3890&quot; data-ke-size=&quot;size16&quot;&gt;이 질문을 중심에 둘 때 과학 연구는 단순히 &lt;b&gt;유의한 결과를 찾는 과정&lt;/b&gt;이 아니라 &lt;b&gt;현상을 이해하는 과정&lt;/b&gt;으로 다시 돌아갈 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Negative result</category>
      <category>statistically significant</category>
      <category>유의성 중심 연구 문화</category>
      <category>현상을 이해하는 과정</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/431</guid>
      <comments>https://info-tistory.tistory.com/431#entry431comment</comments>
      <pubDate>Wed, 8 Apr 2026 20:03:14 +0900</pubDate>
    </item>
    <item>
      <title>Omics 데이터가 &amp;lsquo;스토리 만들기 도구&amp;rsquo;가 되는 순간</title>
      <link>https://info-tistory.tistory.com/430</link>
      <description>&lt;p data-end=&quot;62&quot; data-start=&quot;35&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 데이터 해석이 과학에서 내러티브로 바뀌는 지점&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;532&quot; data-origin-height=&quot;258&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/lU0Uz/dJMb996Jh3u/pKpmBUj30c0KBkV4ZkOvnk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/lU0Uz/dJMb996Jh3u/pKpmBUj30c0KBkV4ZkOvnk/img.png&quot; data-alt=&quot;Omics 데이터가 &amp;amp;lsquo;스토리 만들기 도구&amp;amp;rsquo;가 되는 순간&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/lU0Uz/dJMb996Jh3u/pKpmBUj30c0KBkV4ZkOvnk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FlU0Uz%2FdJMb996Jh3u%2FpKpmBUj30c0KBkV4ZkOvnk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Omics 데이터가 &amp;lsquo;스토리 만들기 도구&amp;rsquo;가 되는 순간&quot; loading=&quot;lazy&quot; width=&quot;532&quot; height=&quot;258&quot; data-origin-width=&quot;532&quot; data-origin-height=&quot;258&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Omics 데이터가 &amp;lsquo;스토리 만들기 도구&amp;rsquo;가 되는 순간&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;62&quot; data-start=&quot;35&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;261&quot; data-start=&quot;64&quot; data-ke-size=&quot;size16&quot;&gt;최근 생명과학 연구에서 &lt;b&gt;omics 데이터&lt;/b&gt;는 거의 모든 분야의 핵심 도구가 되었다. Transcriptomics, proteomics, metabolomics, epigenomics 같은 기술들은 한 번의 실험으로 수천에서 수만 개의 분자 정보를 동시에 측정할 수 있게 만들었다. 이러한 기술의 발전은 분명히 생물학 연구의 범위를 크게 넓혔다.&lt;/p&gt;
&lt;p data-end=&quot;382&quot; data-start=&quot;263&quot; data-ke-size=&quot;size16&quot;&gt;그러나 omics 데이터가 가진 특징 때문에 연구 해석 과정에서 &lt;b&gt;한 가지 미묘한 위험&lt;/b&gt;이 생긴다. 데이터가 너무 많기 때문에 연구자는 거의 언제든지 &lt;b&gt;설득력 있어 보이는 이야기를 만들 수 있다&lt;/b&gt;는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;501&quot; data-start=&quot;384&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 omics 데이터가 과학적 발견을 돕는 도구에서 어느 순간 &lt;b&gt;&amp;lsquo;스토리를 만들어내는 장치&amp;rsquo;로 변하는 과정&lt;/b&gt;을 살펴보고, 그 과정에서 연구자가 쉽게 빠질 수 있는 해석의 함정을 이야기해보고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;541&quot; data-start=&quot;508&quot; data-section-id=&quot;5xs5fl&quot; data-ke-size=&quot;size23&quot;&gt;1. 데이터가 많아질수록 &amp;lsquo;설명 가능한 패턴&amp;rsquo;도 많아진다&lt;/h3&gt;
&lt;p data-end=&quot;623&quot; data-start=&quot;543&quot; data-ke-size=&quot;size16&quot;&gt;전통적인 생화학 연구에서는 보통 몇 개의 변수만을 다루었다. 특정 단백질 하나, 혹은 특정 대사 경로 하나가 연구의 중심이 되는 경우가 많았다.&lt;/p&gt;
&lt;p data-end=&quot;654&quot; data-start=&quot;625&quot; data-ke-size=&quot;size16&quot;&gt;하지만 omics 분석에서는 상황이 완전히 달라진다.&lt;/p&gt;
&lt;p data-end=&quot;687&quot; data-start=&quot;656&quot; data-ke-size=&quot;size16&quot;&gt;한 번의 실험에서 다음과 같은 데이터가 생성될 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;771&quot; data-start=&quot;689&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;717&quot; data-start=&quot;689&quot; data-section-id=&quot;nes5tz&quot;&gt;수천 개의 gene expression 변화&lt;/li&gt;
&lt;li data-end=&quot;744&quot; data-start=&quot;718&quot; data-section-id=&quot;6cvhh4&quot;&gt;수천 개의 단백질 abundance 변화&lt;/li&gt;
&lt;li data-end=&quot;771&quot; data-start=&quot;745&quot; data-section-id=&quot;1fv3n3&quot;&gt;수백~수천 개의 metabolite 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;816&quot; data-start=&quot;773&quot; data-ke-size=&quot;size16&quot;&gt;이러한 데이터 환경에서는 통계적으로 의미 있는 변화가 매우 많이 나타난다.&lt;/p&gt;
&lt;p data-end=&quot;899&quot; data-start=&quot;818&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 10,000개의 feature를 분석한다고 가정하면, 통계적 기준을 적용하더라도 상당수의 feature가 유의한 차이를 보일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;922&quot; data-start=&quot;901&quot; data-ke-size=&quot;size16&quot;&gt;문제는 그 다음 단계에서 시작된다.&lt;/p&gt;
&lt;p data-end=&quot;1032&quot; data-start=&quot;924&quot; data-ke-size=&quot;size16&quot;&gt;연구자는 이 수많은 변화 중에서 &lt;b&gt;생물학적으로 의미 있어 보이는 패턴을 선택하고 연결하기 시작한다.&lt;/b&gt; 그리고 그 과정에서 자연스럽게 하나의 이야기, 즉 연구의 narrative가 만들어진다.&lt;/p&gt;
&lt;p data-end=&quot;1111&quot; data-start=&quot;1034&quot; data-ke-size=&quot;size16&quot;&gt;이 자체는 과학 연구에서 자연스러운 과정이다. 하지만 문제는 &lt;b&gt;데이터가 많을수록 여러 가지 다른 스토리가 동시에 가능해진다&lt;/b&gt;는 점이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1148&quot; data-start=&quot;1118&quot; data-section-id=&quot;1vnsowd&quot; data-ke-size=&quot;size23&quot;&gt;2. Pathway 분석이 이야기 구조를 만들어낸다&lt;/h3&gt;
&lt;p data-end=&quot;1207&quot; data-start=&quot;1150&quot; data-ke-size=&quot;size16&quot;&gt;Omics 연구에서 거의 항상 등장하는 단계가 있다. 바로 pathway enrichment 분석이다.&lt;/p&gt;
&lt;p data-end=&quot;1260&quot; data-start=&quot;1209&quot; data-ke-size=&quot;size16&quot;&gt;연구자가 differential feature 리스트를 만들면 다음과 같은 분석이 이어진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1346&quot; data-start=&quot;1262&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1289&quot; data-start=&quot;1262&quot; data-section-id=&quot;2aqlwt&quot;&gt;KEGG pathway enrichment&lt;/li&gt;
&lt;li data-end=&quot;1316&quot; data-start=&quot;1290&quot; data-section-id=&quot;vd255g&quot;&gt;Gene ontology analysis&lt;/li&gt;
&lt;li data-end=&quot;1346&quot; data-start=&quot;1317&quot; data-section-id=&quot;k24f1s&quot;&gt;metabolic pathway mapping&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1378&quot; data-start=&quot;1348&quot; data-ke-size=&quot;size16&quot;&gt;이러한 분석 결과는 종종 다음과 같은 형태로 표현된다.&lt;/p&gt;
&lt;p data-end=&quot;1465&quot; data-start=&quot;1380&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 질병에서는 inflammatory pathway가 활성화되어 있다.&amp;rdquo;&lt;br /&gt;&amp;ldquo;이 치료는 mitochondrial metabolism을 조절한다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;1523&quot; data-start=&quot;1467&quot; data-ke-size=&quot;size16&quot;&gt;이러한 문장은 매우 설득력 있게 들린다. 하지만 실제로는 다음과 같은 과정이 생략되어 있을 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1608&quot; data-start=&quot;1525&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1550&quot; data-start=&quot;1525&quot; data-section-id=&quot;g4aztn&quot;&gt;pathway에 속한 일부 분자만 변화&lt;/li&gt;
&lt;li data-end=&quot;1578&quot; data-start=&quot;1551&quot; data-section-id=&quot;bzd6pu&quot;&gt;다른 pathway에서도 유사한 변화 존재&lt;/li&gt;
&lt;li data-end=&quot;1608&quot; data-start=&quot;1579&quot; data-section-id=&quot;2e726g&quot;&gt;pathway annotation 자체의 불완전성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1691&quot; data-start=&quot;1610&quot; data-ke-size=&quot;size16&quot;&gt;즉 pathway 분석은 &lt;b&gt;데이터를 이해하기 쉽게 구조화해 주는 도구&lt;/b&gt;이지만 동시에 &lt;b&gt;연구의 스토리를 강화하는 장치&lt;/b&gt;로도 작동할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1726&quot; data-start=&quot;1698&quot; data-section-id=&quot;1kazb60&quot; data-ke-size=&quot;size23&quot;&gt;3. 가설이 데이터에서 나온 것처럼 보이는 순간&lt;/h3&gt;
&lt;p data-end=&quot;1758&quot; data-start=&quot;1728&quot; data-ke-size=&quot;size16&quot;&gt;Omics 연구에서 흔히 나타나는 구조는 다음과 같다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;1837&quot; data-start=&quot;1760&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;1775&quot; data-start=&quot;1760&quot; data-section-id=&quot;10ge3x2&quot;&gt;대규모 데이터 생성&lt;/li&gt;
&lt;li data-end=&quot;1804&quot; data-start=&quot;1776&quot; data-section-id=&quot;ou15x1&quot;&gt;differential feature 탐색&lt;/li&gt;
&lt;li data-end=&quot;1820&quot; data-start=&quot;1805&quot; data-section-id=&quot;1092xab&quot;&gt;pathway 분석&lt;/li&gt;
&lt;li data-end=&quot;1837&quot; data-start=&quot;1821&quot; data-section-id=&quot;1hzeczf&quot;&gt;특정 생물학적 해석 도출&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;1870&quot; data-start=&quot;1839&quot; data-ke-size=&quot;size16&quot;&gt;논문에서는 이 과정이 종종 다음과 같은 형태로 표현된다.&lt;/p&gt;
&lt;p data-end=&quot;1920&quot; data-start=&quot;1872&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;우리는 X pathway가 질병의 핵심 메커니즘이라고 가설을 세웠고 이를 검증했다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;1960&quot; data-start=&quot;1922&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 연구 과정을 들여다보면 종종 순서가 반대인 경우도 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2030&quot; data-start=&quot;1962&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1985&quot; data-start=&quot;1962&quot; data-section-id=&quot;saqj6d&quot;&gt;먼저 데이터에서 흥미로운 패턴 발견&lt;/li&gt;
&lt;li data-end=&quot;2009&quot; data-start=&quot;1986&quot; data-section-id=&quot;17m9jyv&quot;&gt;그 패턴에 맞는 생물학적 설명 탐색&lt;/li&gt;
&lt;li data-end=&quot;2030&quot; data-start=&quot;2010&quot; data-section-id=&quot;yu8gxt&quot;&gt;결과적으로 하나의 가설 구조 형성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2086&quot; data-start=&quot;2032&quot; data-ke-size=&quot;size16&quot;&gt;즉 가설이 데이터를 통해 검증된 것이 아니라 &lt;b&gt;데이터에서 만들어진 이야기 구조&lt;/b&gt;일 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;2185&quot; data-start=&quot;2088&quot; data-ke-size=&quot;size16&quot;&gt;이 과정 자체가 잘못된 것은 아니다. 많은 중요한 발견이 이런 방식으로 이루어진다. 하지만 문제는 이 과정이 논문에서 &lt;b&gt;마치 처음부터 계획된 가설 검증처럼 보일 때&lt;/b&gt;이다.&lt;/p&gt;
&lt;h3 data-end=&quot;2222&quot; data-start=&quot;2192&quot; data-section-id=&quot;1ok9pnq&quot; data-ke-size=&quot;size23&quot;&gt;4. Multi-omics에서 스토리는 더 강해진다&lt;/h3&gt;
&lt;p data-end=&quot;2298&quot; data-start=&quot;2224&quot; data-ke-size=&quot;size16&quot;&gt;Omics 데이터가 하나만 있을 때도 해석은 복잡하다. 하지만 최근 연구에서는 여러 omics 데이터를 동시에 사용하는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;2326&quot; data-start=&quot;2300&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 데이터가 함께 분석된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2379&quot; data-start=&quot;2328&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2347&quot; data-start=&quot;2328&quot; data-section-id=&quot;1k2my6t&quot;&gt;transcriptomics&lt;/li&gt;
&lt;li data-end=&quot;2362&quot; data-start=&quot;2348&quot; data-section-id=&quot;1cczrhr&quot;&gt;proteomics&lt;/li&gt;
&lt;li data-end=&quot;2379&quot; data-start=&quot;2363&quot; data-section-id=&quot;dbe79r&quot;&gt;metabolomics&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2418&quot; data-start=&quot;2381&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 연구자는 서로 다른 데이터 사이의 연결점을 찾기 시작한다.&lt;/p&gt;
&lt;p data-end=&quot;2447&quot; data-start=&quot;2420&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 구조가 만들어질 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2519&quot; data-start=&quot;2449&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2474&quot; data-start=&quot;2449&quot; data-section-id=&quot;ofzrsy&quot;&gt;특정 gene expression 증가&lt;/li&gt;
&lt;li data-end=&quot;2492&quot; data-start=&quot;2475&quot; data-section-id=&quot;9vs58m&quot;&gt;관련 protein 증가&lt;/li&gt;
&lt;li data-end=&quot;2519&quot; data-start=&quot;2493&quot; data-section-id=&quot;v520t3&quot;&gt;해당 pathway metabolite 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2548&quot; data-start=&quot;2521&quot; data-ke-size=&quot;size16&quot;&gt;이러한 결과는 매우 강력한 스토리처럼 보인다.&lt;/p&gt;
&lt;p data-end=&quot;2666&quot; data-start=&quot;2550&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 생물학 시스템에서는 transcript, protein, metabolite 사이의 관계가 항상 직선적인 것은 아니다. 많은 경우 이러한 데이터 사이에는 복잡한 조절 구조와 시간 지연이 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;2732&quot; data-start=&quot;2668&quot; data-ke-size=&quot;size16&quot;&gt;그럼에도 불구하고 연구자는 자연스럽게 이 데이터들을 &lt;b&gt;하나의 선형적인 이야기 구조로 연결하려는 경향&lt;/b&gt;을 가진다.&lt;/p&gt;
&lt;h3 data-end=&quot;2767&quot; data-start=&quot;2739&quot; data-section-id=&quot;1gex5yq&quot; data-ke-size=&quot;size23&quot;&gt;5. Negative 결과는 스토리에서 사라진다&lt;/h3&gt;
&lt;p data-end=&quot;2820&quot; data-start=&quot;2769&quot; data-ke-size=&quot;size16&quot;&gt;Omics 연구에서 또 하나 중요한 문제는 &lt;b&gt;negative result의 가시성&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2848&quot; data-start=&quot;2822&quot; data-ke-size=&quot;size16&quot;&gt;대규모 데이터에서는 다음과 같은 상황이 흔하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2913&quot; data-start=&quot;2850&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2871&quot; data-start=&quot;2850&quot; data-section-id=&quot;19u5wpk&quot;&gt;많은 feature는 변화 없음&lt;/li&gt;
&lt;li data-end=&quot;2893&quot; data-start=&quot;2872&quot; data-section-id=&quot;5cz8n5&quot;&gt;일부 feature는 약한 변화&lt;/li&gt;
&lt;li data-end=&quot;2913&quot; data-start=&quot;2894&quot; data-section-id=&quot;1psdnvd&quot;&gt;소수 feature만 강한 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2944&quot; data-start=&quot;2915&quot; data-ke-size=&quot;size16&quot;&gt;하지만 논문에서는 보통 다음과 같은 부분만 강조된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2993&quot; data-start=&quot;2946&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2957&quot; data-start=&quot;2946&quot; data-section-id=&quot;ifbll5&quot;&gt;가장 큰 변화&lt;/li&gt;
&lt;li data-end=&quot;2977&quot; data-start=&quot;2958&quot; data-section-id=&quot;ijqti2&quot;&gt;가장 흥미로운 pathway&lt;/li&gt;
&lt;li data-end=&quot;2993&quot; data-start=&quot;2978&quot; data-section-id=&quot;1os8o9c&quot;&gt;가장 설명하기 쉬운 결과&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3035&quot; data-start=&quot;2995&quot; data-ke-size=&quot;size16&quot;&gt;그 결과 전체 데이터의 상당 부분은 연구 narrative에서 사라진다.&lt;/p&gt;
&lt;p data-end=&quot;3137&quot; data-start=&quot;3037&quot; data-ke-size=&quot;size16&quot;&gt;이 과정은 의도적인 조작이 아니라 자연스러운 연구 과정의 일부일 수 있다. 하지만 결과적으로 omics 데이터는 &lt;b&gt;객관적인 관찰 결과라기보다 선택된 스토리&lt;/b&gt;처럼 보일 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3174&quot; data-start=&quot;3144&quot; data-section-id=&quot;1v4d5rk&quot; data-ke-size=&quot;size23&quot;&gt;6. 그렇다면 omics 데이터는 신뢰할 수 없는가&lt;/h3&gt;
&lt;p data-end=&quot;3264&quot; data-start=&quot;3176&quot; data-ke-size=&quot;size16&quot;&gt;이러한 문제들을 보면 omics 연구가 지나치게 해석 중심이라는 인상을 받을 수도 있다. 하지만 이것이 omics 데이터 자체의 가치가 낮다는 의미는 아니다.&lt;/p&gt;
&lt;p data-end=&quot;3302&quot; data-start=&quot;3266&quot; data-ke-size=&quot;size16&quot;&gt;오히려 omics 데이터의 진짜 가치는 다음과 같은 부분에 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3376&quot; data-start=&quot;3304&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3336&quot; data-start=&quot;3304&quot; data-section-id=&quot;125okot&quot;&gt;새로운 biological hypothesis 생성&lt;/li&gt;
&lt;li data-end=&quot;3360&quot; data-start=&quot;3337&quot; data-section-id=&quot;1rind5s&quot;&gt;예상하지 못했던 pathway 발견&lt;/li&gt;
&lt;li data-end=&quot;3376&quot; data-start=&quot;3361&quot; data-section-id=&quot;li742p&quot;&gt;시스템 수준의 변화 탐색&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3436&quot; data-start=&quot;3378&quot; data-ke-size=&quot;size16&quot;&gt;즉 omics 데이터는 &lt;b&gt;최종 결론을 제공하는 도구라기보다 새로운 질문을 만들어내는 도구&lt;/b&gt;에 가깝다.&lt;/p&gt;
&lt;p data-end=&quot;3483&quot; data-start=&quot;3438&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이 과정을 때때로 &lt;b&gt;확정된 생물학적 메커니즘처럼 표현할 때&lt;/b&gt; 발생한다.&lt;/p&gt;
&lt;h3 data-end=&quot;3494&quot; data-start=&quot;3490&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3584&quot; data-start=&quot;3496&quot; data-ke-size=&quot;size16&quot;&gt;Omics 기술은 생명과학 연구에서 이전에는 불가능했던 수준의 데이터를 제공한다. 이러한 데이터는 질병 이해와 생물학 연구에 매우 중요한 통찰을 줄 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3638&quot; data-start=&quot;3586&quot; data-ke-size=&quot;size16&quot;&gt;하지만 omics 데이터가 가진 특성 때문에 연구 해석 과정에서 다음과 같은 위험도 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3756&quot; data-start=&quot;3640&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3664&quot; data-start=&quot;3640&quot; data-section-id=&quot;khsag6&quot;&gt;많은 데이터 중 일부만 선택되는 문제&lt;/li&gt;
&lt;li data-end=&quot;3699&quot; data-start=&quot;3665&quot; data-section-id=&quot;1x1nw96&quot;&gt;pathway 분석이 narrative를 강화하는 구조&lt;/li&gt;
&lt;li data-end=&quot;3730&quot; data-start=&quot;3700&quot; data-section-id=&quot;zqd34x&quot;&gt;데이터 기반 가설이 계획된 가설처럼 보이는 문제&lt;/li&gt;
&lt;li data-end=&quot;3756&quot; data-start=&quot;3731&quot; data-section-id=&quot;lvi0ei&quot;&gt;multi-omics 통합에서 과도한 해석&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3832&quot; data-start=&quot;3758&quot; data-ke-size=&quot;size16&quot;&gt;결국 omics 데이터는 과학적 발견의 강력한 도구이지만 동시에 &lt;b&gt;매우 설득력 있는 스토리를 만들어낼 수 있는 도구&lt;/b&gt;이기도 하다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;3922&quot; data-start=&quot;3834&quot; data-ke-size=&quot;size16&quot;&gt;따라서 중요한 것은 데이터가 말해주는 이야기를 그대로 받아들이는 것이 아니라, 그 이야기가 &lt;b&gt;어떤 선택과 해석 과정을 거쳐 만들어졌는지 이해하는 것&lt;/b&gt;이다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Omics 기술</category>
      <category>pathway enrichment</category>
      <category>생명과학</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/430</guid>
      <comments>https://info-tistory.tistory.com/430#entry430comment</comments>
      <pubDate>Tue, 7 Apr 2026 20:17:19 +0900</pubDate>
    </item>
    <item>
      <title>임상 적용을 목표로 할 때 metabolomics 연구 설계가 달라져야 하는 이유</title>
      <link>https://info-tistory.tistory.com/429</link>
      <description>&lt;p data-end=&quot;98&quot; data-start=&quot;50&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; discovery 연구와 clinical biomarker 연구는 전혀 다른 문제다&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;974&quot; data-origin-height=&quot;506&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/daxOpt/dJMcagdIDc9/QMVOkjxTqyVL8kNJkc47a0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/daxOpt/dJMcagdIDc9/QMVOkjxTqyVL8kNJkc47a0/img.png&quot; data-alt=&quot;임상 적용을 목표로 할 때 metabolomics 연구 설계가 달라져야 하는 이유&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/daxOpt/dJMcagdIDc9/QMVOkjxTqyVL8kNJkc47a0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdaxOpt%2FdJMcagdIDc9%2FQMVOkjxTqyVL8kNJkc47a0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;임상 적용을 목표로 할 때 metabolomics 연구 설계가 달라져야 하는 이유&quot; loading=&quot;lazy&quot; width=&quot;974&quot; height=&quot;506&quot; data-origin-width=&quot;974&quot; data-origin-height=&quot;506&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;임상 적용을 목표로 할 때 metabolomics 연구 설계가 달라져야 하는 이유&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;98&quot; data-start=&quot;50&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;267&quot; data-start=&quot;100&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구는 지난 10여 년 동안 폭발적으로 증가했다. 특히 LC-MS 기반 untargeted metabolomics 기술이 발전하면서 수천 개의 metabolite feature를 동시에 관찰할 수 있게 되었고, 다양한 질병에서 새로운 biomarker 후보들이 제시되었다.&lt;/p&gt;
&lt;p data-end=&quot;404&quot; data-start=&quot;269&quot; data-ke-size=&quot;size16&quot;&gt;논문만 보면 metabolomics는 이미 precision medicine의 핵심 기술처럼 보인다. 특정 metabolite 패턴을 이용해 질병을 진단하고, 환자를 분류하며, 치료 반응을 예측할 수 있다는 연구 결과들이 매우 많기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;432&quot; data-start=&quot;406&quot; data-ke-size=&quot;size16&quot;&gt;하지만 현실적으로 보면 상황은 조금 다르다.&lt;/p&gt;
&lt;p data-end=&quot;552&quot; data-start=&quot;434&quot; data-ke-size=&quot;size16&quot;&gt;수많은 metabolomics biomarker 후보가 보고되었지만 &lt;b&gt;실제 임상 진단 검사로 이어진 사례는 매우 제한적&lt;/b&gt;이다. 많은 연구가 discovery 단계에서 끝나고 임상 적용 단계로 이어지지 못한다.&lt;/p&gt;
&lt;p data-end=&quot;625&quot; data-start=&quot;554&quot; data-ke-size=&quot;size16&quot;&gt;이 현상이 반복되는 이유 중 하나는 &lt;b&gt;연구 설계 자체가 임상 적용을 염두에 두지 않고 만들어지는 경우가 많기 때문&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;734&quot; data-start=&quot;627&quot; data-ke-size=&quot;size16&quot;&gt;Discovery 연구에서 좋은 설계가 반드시 임상 적용에 적합한 설계는 아니다. 오히려 임상 적용을 목표로 한다면 metabolomics 연구는 시작 단계부터 다른 방식으로 설계되어야 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;787&quot; data-start=&quot;741&quot; data-section-id=&quot;bccaz8&quot; data-ke-size=&quot;size23&quot;&gt;1. Discovery 연구는 차이를 찾지만, 임상 검사는 환자를 구분해야 한다&lt;/h3&gt;
&lt;p data-end=&quot;820&quot; data-start=&quot;789&quot; data-ke-size=&quot;size16&quot;&gt;많은 metabolomics 연구의 목표는 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;857&quot; data-start=&quot;822&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;환자군과 대조군 사이에서 어떤 metabolite가 다른가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;909&quot; data-start=&quot;859&quot; data-ke-size=&quot;size16&quot;&gt;이 질문은 과학적으로 매우 중요한 질문이다. 하지만 임상에서는 조금 다른 질문이 필요하다.&lt;/p&gt;
&lt;p data-end=&quot;944&quot; data-start=&quot;911&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 metabolite로 실제 환자를 구분할 수 있는가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;976&quot; data-start=&quot;946&quot; data-ke-size=&quot;size16&quot;&gt;두 질문은 비슷해 보이지만 실제로는 매우 다른 문제다.&lt;/p&gt;
&lt;p data-end=&quot;1026&quot; data-start=&quot;978&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite가 환자군에서 평균적으로 증가했다고 가정해 보자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1059&quot; data-start=&quot;1028&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1043&quot; data-start=&quot;1028&quot; data-section-id=&quot;daocf8&quot;&gt;환자군 평균: 1.8&lt;/li&gt;
&lt;li data-end=&quot;1059&quot; data-start=&quot;1044&quot; data-section-id=&quot;vh0r0x&quot;&gt;대조군 평균: 1.5&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1119&quot; data-start=&quot;1061&quot; data-ke-size=&quot;size16&quot;&gt;이 차이는 통계적으로 유의할 수 있다. 그러나 개인 수준에서 보면 두 집단의 분포가 크게 겹칠 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1200&quot; data-start=&quot;1121&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 논문에서는 의미 있는 발견처럼 보일 수 있지만 실제 환자를 검사했을 때 &lt;b&gt;diagnostic test로는 거의 사용될 수 없다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1254&quot; data-start=&quot;1202&quot; data-ke-size=&quot;size16&quot;&gt;따라서 임상 적용을 목표로 한다면 연구 설계 단계에서부터 다음과 같은 질문이 포함되어야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1330&quot; data-start=&quot;1256&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1277&quot; data-start=&quot;1256&quot; data-section-id=&quot;dp938g&quot;&gt;sensitivity는 충분한가&lt;/li&gt;
&lt;li data-end=&quot;1299&quot; data-start=&quot;1278&quot; data-section-id=&quot;1lm9wdl&quot;&gt;specificity는 충분한가&lt;/li&gt;
&lt;li data-end=&quot;1330&quot; data-start=&quot;1300&quot; data-section-id=&quot;192kuts&quot;&gt;ROC curve가 실제 임상 수준에 도달하는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1404&quot; data-start=&quot;1332&quot; data-ke-size=&quot;size16&quot;&gt;즉 단순한 group comparison을 넘어 &lt;b&gt;patient classification 관점&lt;/b&gt;에서 설계가 이루어져야 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;1435&quot; data-start=&quot;1411&quot; data-section-id=&quot;1qnuplu&quot; data-ke-size=&quot;size23&quot;&gt;2. Cohort 설계가 훨씬 중요해진다&lt;/h3&gt;
&lt;p data-end=&quot;1489&quot; data-start=&quot;1437&quot; data-ke-size=&quot;size16&quot;&gt;Discovery metabolomics 연구에서는 종종 다음과 같은 cohort가 사용된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1510&quot; data-start=&quot;1491&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1500&quot; data-start=&quot;1491&quot; data-section-id=&quot;uan3p5&quot;&gt;질병 환자&lt;/li&gt;
&lt;li data-end=&quot;1510&quot; data-start=&quot;1501&quot; data-section-id=&quot;1jfluol&quot;&gt;건강한 대조군&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1542&quot; data-start=&quot;1512&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 임상 환경에서는 상황이 훨씬 복잡하다.&lt;/p&gt;
&lt;p data-end=&quot;1580&quot; data-start=&quot;1544&quot; data-ke-size=&quot;size16&quot;&gt;환자가 병원에 왔을 때 의사가 고민하는 질문은 보통 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1615&quot; data-start=&quot;1582&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1599&quot; data-start=&quot;1582&quot; data-section-id=&quot;1i8d0rd&quot;&gt;이 환자가 특정 질병인가&lt;/li&gt;
&lt;li data-end=&quot;1615&quot; data-start=&quot;1600&quot; data-section-id=&quot;1bdv6lg&quot;&gt;아니면 다른 질환인가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1664&quot; data-start=&quot;1617&quot; data-ke-size=&quot;size16&quot;&gt;즉 실제 임상에서는 &lt;b&gt;differential diagnosis&lt;/b&gt;가 중요한 문제다.&lt;/p&gt;
&lt;p data-end=&quot;1714&quot; data-start=&quot;1666&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite가 cancer 환자에서 증가했다고 가정해 보자.&lt;/p&gt;
&lt;p data-end=&quot;1758&quot; data-start=&quot;1716&quot; data-ke-size=&quot;size16&quot;&gt;하지만 동일한 metabolite가 다음과 같은 상황에서도 증가할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1784&quot; data-start=&quot;1760&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1769&quot; data-start=&quot;1760&quot; data-section-id=&quot;n8ew7t&quot;&gt;염증 질환&lt;/li&gt;
&lt;li data-end=&quot;1776&quot; data-start=&quot;1770&quot; data-section-id=&quot;1wrosas&quot;&gt;감염&lt;/li&gt;
&lt;li data-end=&quot;1784&quot; data-start=&quot;1777&quot; data-section-id=&quot;1r8um2c&quot;&gt;대사 질환&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1864&quot; data-start=&quot;1786&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 healthy control과 비교했을 때는 강력한 biomarker처럼 보일 수 있지만 실제 임상에서는 거의 도움이 되지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;1912&quot; data-start=&quot;1866&quot; data-ke-size=&quot;size16&quot;&gt;따라서 임상 적용을 목표로 한다면 cohort 설계는 다음과 같은 형태가 필요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1996&quot; data-start=&quot;1914&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1932&quot; data-start=&quot;1914&quot; data-section-id=&quot;6y3a9h&quot;&gt;target disease&lt;/li&gt;
&lt;li data-end=&quot;1964&quot; data-start=&quot;1933&quot; data-section-id=&quot;1moo59o&quot;&gt;clinically similar diseases&lt;/li&gt;
&lt;li data-end=&quot;1996&quot; data-start=&quot;1965&quot; data-section-id=&quot;t5w4zp&quot;&gt;real-world patient population&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2050&quot; data-start=&quot;1998&quot; data-ke-size=&quot;size16&quot;&gt;이러한 cohort 설계는 연구 난이도를 높이지만 실제 임상 relevance를 크게 높인다.&lt;/p&gt;
&lt;h3 data-end=&quot;2098&quot; data-start=&quot;2057&quot; data-section-id=&quot;1xw2ie1&quot; data-ke-size=&quot;size23&quot;&gt;3. Pre-analytical variation 관리가 훨씬 중요하다&lt;/h3&gt;
&lt;p data-end=&quot;2143&quot; data-start=&quot;2100&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터는 sample handling에 매우 민감하다.&lt;/p&gt;
&lt;p data-end=&quot;2197&quot; data-start=&quot;2145&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 변수만으로도 metabolite profile이 크게 달라질 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2276&quot; data-start=&quot;2199&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2213&quot; data-start=&quot;2199&quot; data-section-id=&quot;1776qng&quot;&gt;채혈 후 처리 시간&lt;/li&gt;
&lt;li data-end=&quot;2235&quot; data-start=&quot;2214&quot; data-section-id=&quot;rqa7v7&quot;&gt;sample storage 조건&lt;/li&gt;
&lt;li data-end=&quot;2257&quot; data-start=&quot;2236&quot; data-section-id=&quot;1e1xt3o&quot;&gt;freeze-thaw cycle&lt;/li&gt;
&lt;li data-end=&quot;2276&quot; data-start=&quot;2258&quot; data-section-id=&quot;gdh9kf&quot;&gt;anticoagulant 종류&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2329&quot; data-start=&quot;2278&quot; data-ke-size=&quot;size16&quot;&gt;Discovery 연구에서는 이러한 변수들이 완벽하게 통제된 환경에서 분석되는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;2362&quot; data-start=&quot;2331&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 임상 환경에서는 다음과 같은 상황이 흔하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2452&quot; data-start=&quot;2364&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2387&quot; data-start=&quot;2364&quot; data-section-id=&quot;12yx1fz&quot;&gt;채혈 후 처리 시간이 일정하지 않음&lt;/li&gt;
&lt;li data-end=&quot;2425&quot; data-start=&quot;2388&quot; data-section-id=&quot;zztj4e&quot;&gt;병원마다 sample handling protocol이 다름&lt;/li&gt;
&lt;li data-end=&quot;2452&quot; data-start=&quot;2426&quot; data-section-id=&quot;1v4opp9&quot;&gt;sample transport 시간이 길어짐&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2499&quot; data-start=&quot;2454&quot; data-ke-size=&quot;size16&quot;&gt;이러한 조건에서도 biomarker가 안정적으로 유지되어야 임상 적용이 가능하다.&lt;/p&gt;
&lt;p data-end=&quot;2541&quot; data-start=&quot;2501&quot; data-ke-size=&quot;size16&quot;&gt;따라서 임상 적용을 목표로 하는 연구에서는 다음과 같은 실험이 필요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2617&quot; data-start=&quot;2543&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2562&quot; data-start=&quot;2543&quot; data-section-id=&quot;1jzyloi&quot;&gt;stability study&lt;/li&gt;
&lt;li data-end=&quot;2584&quot; data-start=&quot;2563&quot; data-section-id=&quot;p9p215&quot;&gt;freeze-thaw 영향 평가&lt;/li&gt;
&lt;li data-end=&quot;2617&quot; data-start=&quot;2585&quot; data-section-id=&quot;30hgme&quot;&gt;sample handling variability 평가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2692&quot; data-start=&quot;2619&quot; data-ke-size=&quot;size16&quot;&gt;즉 biomarker의 &lt;b&gt;biological signal뿐 아니라 practical robustness&lt;/b&gt;도 함께 검증해야 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;2752&quot; data-start=&quot;2699&quot; data-section-id=&quot;16webce&quot; data-ke-size=&quot;size23&quot;&gt;4. Untargeted discovery에서 targeted validation으로의 전환&lt;/h3&gt;
&lt;p data-end=&quot;2790&quot; data-start=&quot;2754&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구는 보통 다음과 같은 단계로 진행된다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;2878&quot; data-start=&quot;2792&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;2817&quot; data-start=&quot;2792&quot; data-section-id=&quot;v4npyz&quot;&gt;untargeted discovery&lt;/li&gt;
&lt;li data-end=&quot;2858&quot; data-start=&quot;2818&quot; data-section-id=&quot;1uhwtj6&quot;&gt;candidate metabolite identification&lt;/li&gt;
&lt;li data-end=&quot;2878&quot; data-start=&quot;2859&quot; data-section-id=&quot;jftszg&quot;&gt;validation study&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;2910&quot; data-start=&quot;2880&quot; data-ke-size=&quot;size16&quot;&gt;문제는 많은 연구가 &lt;b&gt;1단계에서 끝난다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2980&quot; data-start=&quot;2912&quot; data-ke-size=&quot;size16&quot;&gt;Untargeted metabolomics는 수천 개의 feature를 동시에 관찰할 수 있지만 다음과 같은 한계가 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3047&quot; data-start=&quot;2982&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2995&quot; data-start=&quot;2982&quot; data-section-id=&quot;nklh68&quot;&gt;정량 정확도 제한&lt;/li&gt;
&lt;li data-end=&quot;3022&quot; data-start=&quot;2996&quot; data-section-id=&quot;1wgtc43&quot;&gt;instrument variability&lt;/li&gt;
&lt;li data-end=&quot;3047&quot; data-start=&quot;3023&quot; data-section-id=&quot;102dsu7&quot;&gt;annotation uncertainty&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3083&quot; data-start=&quot;3049&quot; data-ke-size=&quot;size16&quot;&gt;임상 적용을 위해서는 &lt;b&gt;정확한 정량 분석&lt;/b&gt;이 필요하다.&lt;/p&gt;
&lt;p data-end=&quot;3156&quot; data-start=&quot;3085&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 biomarker 후보가 발견된 이후에는 LC-MS/MS 기반 targeted assay로 전환되는 과정이 필요하다.&lt;/p&gt;
&lt;p data-end=&quot;3183&quot; data-start=&quot;3158&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서는 다음과 같은 요소들이 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3258&quot; data-start=&quot;3185&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3209&quot; data-start=&quot;3185&quot; data-section-id=&quot;1vunkz8&quot;&gt;internal standard 설계&lt;/li&gt;
&lt;li data-end=&quot;3234&quot; data-start=&quot;3210&quot; data-section-id=&quot;l726b0&quot;&gt;calibration curve 구축&lt;/li&gt;
&lt;li data-end=&quot;3258&quot; data-start=&quot;3235&quot; data-section-id=&quot;1g54xmz&quot;&gt;analytical validation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3308&quot; data-start=&quot;3260&quot; data-ke-size=&quot;size16&quot;&gt;즉 discovery 연구와 임상 assay 개발은 완전히 다른 분석 전략을 요구한다.&lt;/p&gt;
&lt;h3 data-end=&quot;3350&quot; data-start=&quot;3315&quot; data-section-id=&quot;fkdwg3&quot; data-ke-size=&quot;size23&quot;&gt;5. 재현성(reproducibility) 검증이 필수적이다&lt;/h3&gt;
&lt;p data-end=&quot;3390&quot; data-start=&quot;3352&quot; data-ke-size=&quot;size16&quot;&gt;Omics 연구에서 가장 큰 문제 중 하나는 &lt;b&gt;재현성 부족&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;3443&quot; data-start=&quot;3392&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics biomarker 연구에서는 다음과 같은 패턴이 자주 나타난다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3536&quot; data-start=&quot;3445&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3475&quot; data-start=&quot;3445&quot; data-section-id=&quot;5xh26v&quot;&gt;discovery cohort에서는 강력한 결과&lt;/li&gt;
&lt;li data-end=&quot;3506&quot; data-start=&quot;3476&quot; data-section-id=&quot;18wp7bv&quot;&gt;validation cohort에서는 약한 결과&lt;/li&gt;
&lt;li data-end=&quot;3536&quot; data-start=&quot;3507&quot; data-section-id=&quot;cv41cv&quot;&gt;independent cohort에서는 재현 실패&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3566&quot; data-start=&quot;3538&quot; data-ke-size=&quot;size16&quot;&gt;이러한 현상은 다음과 같은 이유로 발생할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3639&quot; data-start=&quot;3568&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3584&quot; data-start=&quot;3568&quot; data-section-id=&quot;1v8noz5&quot;&gt;cohort 특성 차이&lt;/li&gt;
&lt;li data-end=&quot;3598&quot; data-start=&quot;3585&quot; data-section-id=&quot;p675zq&quot;&gt;분석 플랫폼 차이&lt;/li&gt;
&lt;li data-end=&quot;3615&quot; data-start=&quot;3599&quot; data-section-id=&quot;145tz6r&quot;&gt;batch effect&lt;/li&gt;
&lt;li data-end=&quot;3639&quot; data-start=&quot;3616&quot; data-section-id=&quot;1cnflim&quot;&gt;environmental factors&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3680&quot; data-start=&quot;3641&quot; data-ke-size=&quot;size16&quot;&gt;따라서 임상 적용을 목표로 한다면 최소한 다음과 같은 검증이 필요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3769&quot; data-start=&quot;3682&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3715&quot; data-start=&quot;3682&quot; data-section-id=&quot;nbnxwo&quot;&gt;independent cohort validation&lt;/li&gt;
&lt;li data-end=&quot;3743&quot; data-start=&quot;3716&quot; data-section-id=&quot;1796f0s&quot;&gt;multi-center validation&lt;/li&gt;
&lt;li data-end=&quot;3769&quot; data-start=&quot;3744&quot; data-section-id=&quot;1w4c46n&quot;&gt;longitudinal validation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3814&quot; data-start=&quot;3771&quot; data-ke-size=&quot;size16&quot;&gt;이 과정이 없으면 biomarker는 논문 수준의 발견에 머물 가능성이 높다.&lt;/p&gt;
&lt;h3 data-end=&quot;3851&quot; data-start=&quot;3821&quot; data-section-id=&quot;2rwxmd&quot; data-ke-size=&quot;size23&quot;&gt;6. 임상 workflow를 고려한 assay 설계&lt;/h3&gt;
&lt;p data-end=&quot;3900&quot; data-start=&quot;3853&quot; data-ke-size=&quot;size16&quot;&gt;임상 검사로 사용되기 위해서는 biomarker가 다음과 같은 조건을 충족해야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3948&quot; data-start=&quot;3902&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3917&quot; data-start=&quot;3902&quot; data-section-id=&quot;9ow5ul&quot;&gt;분석 시간이 짧을 것&lt;/li&gt;
&lt;li data-end=&quot;3932&quot; data-start=&quot;3918&quot; data-section-id=&quot;57xxxv&quot;&gt;자동화가 가능할 것&lt;/li&gt;
&lt;li data-end=&quot;3948&quot; data-start=&quot;3933&quot; data-section-id=&quot;bukgs&quot;&gt;비용이 과도하지 않을 것&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4006&quot; data-start=&quot;3950&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolomics 연구에서 제안되는 biomarker는 종종 다음과 같은 특징을 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4065&quot; data-start=&quot;4008&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4030&quot; data-start=&quot;4008&quot; data-section-id=&quot;19boil8&quot;&gt;수십 개 metabolite 조합&lt;/li&gt;
&lt;li data-end=&quot;4046&quot; data-start=&quot;4031&quot; data-section-id=&quot;1p1zok9&quot;&gt;복잡한 머신러닝 모델&lt;/li&gt;
&lt;li data-end=&quot;4065&quot; data-start=&quot;4047&quot; data-section-id=&quot;1dzbl4c&quot;&gt;고해상도 LC-MS 분석 필요&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4115&quot; data-start=&quot;4067&quot; data-ke-size=&quot;size16&quot;&gt;이러한 방식은 연구 환경에서는 가능하지만 실제 병원 검사 시스템에서는 적용하기 어렵다.&lt;/p&gt;
&lt;p data-end=&quot;4170&quot; data-start=&quot;4117&quot; data-ke-size=&quot;size16&quot;&gt;따라서 임상 적용을 목표로 한다면 assay는 가능한 한 다음과 같은 형태로 단순화되어야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4234&quot; data-start=&quot;4172&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4192&quot; data-start=&quot;4172&quot; data-section-id=&quot;5dxasb&quot;&gt;소수의 핵심 biomarker&lt;/li&gt;
&lt;li data-end=&quot;4218&quot; data-start=&quot;4193&quot; data-section-id=&quot;hueklo&quot;&gt;robust targeted assay&lt;/li&gt;
&lt;li data-end=&quot;4234&quot; data-start=&quot;4219&quot; data-section-id=&quot;3lv70w&quot;&gt;높은 throughput&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-end=&quot;4245&quot; data-start=&quot;4241&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4361&quot; data-start=&quot;4247&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics는 질병 생물학을 이해하는 데 매우 강력한 도구이다. 하지만 discovery 연구에서 발견된 biomarker가 실제 임상 검사로 이어지기 위해서는 연구 설계 자체가 달라져야 한다.&lt;/p&gt;
&lt;p data-end=&quot;4383&quot; data-start=&quot;4363&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 요소들이 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4538&quot; data-start=&quot;4385&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4420&quot; data-start=&quot;4385&quot; data-section-id=&quot;nwrj9o&quot;&gt;patient classification 중심 연구 설계&lt;/li&gt;
&lt;li data-end=&quot;4439&quot; data-start=&quot;4421&quot; data-section-id=&quot;fmpg3l&quot;&gt;현실적인 cohort 구성&lt;/li&gt;
&lt;li data-end=&quot;4471&quot; data-start=&quot;4440&quot; data-section-id=&quot;7mtysy&quot;&gt;pre-analytical variation 평가&lt;/li&gt;
&lt;li data-end=&quot;4493&quot; data-start=&quot;4472&quot; data-section-id=&quot;1qmlmap&quot;&gt;targeted assay 개발&lt;/li&gt;
&lt;li data-end=&quot;4521&quot; data-start=&quot;4494&quot; data-section-id=&quot;1h32jhm&quot;&gt;multi-cohort validation&lt;/li&gt;
&lt;li data-end=&quot;4538&quot; data-start=&quot;4522&quot; data-section-id=&quot;1838ka&quot;&gt;임상 workflow 고려&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4620&quot; data-start=&quot;4540&quot; data-ke-size=&quot;size16&quot;&gt;결국 metabolomics biomarker 연구에서 가장 중요한 질문은 단순히 &amp;ldquo;차이가 존재하는가?&amp;rdquo;가 아니라 다음과 같은 질문이다.&lt;/p&gt;
&lt;p data-end=&quot;4661&quot; data-start=&quot;4622&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 biomarker를 이용해 실제 환자 진료가 달라질 수 있는가?&amp;rdquo;&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4754&quot; data-start=&quot;4663&quot; data-ke-size=&quot;size16&quot;&gt;이 질문을 중심에 두고 연구가 설계될 때 metabolomics 연구는 discovery 단계를 넘어 &lt;b&gt;실제 임상 의사결정에 기여하는 도구&lt;/b&gt;로 발전할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Biomarker</category>
      <category>metabolomics</category>
      <category>임상 의사결정</category>
      <category>질병 생물학</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/429</guid>
      <comments>https://info-tistory.tistory.com/429#entry429comment</comments>
      <pubDate>Mon, 6 Apr 2026 20:09:24 +0900</pubDate>
    </item>
    <item>
      <title>Precision Medicine에서 Metabolomics가 과대평가되는 지점</title>
      <link>https://info-tistory.tistory.com/428</link>
      <description>&lt;p data-end=&quot;69&quot; data-start=&quot;49&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 기대와 현실 사이에서 생기는 간극&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;818&quot; data-origin-height=&quot;544&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/z6J2y/dJMcafME7Lw/Ok8jIQyNF2YLVwJgXkoasK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/z6J2y/dJMcafME7Lw/Ok8jIQyNF2YLVwJgXkoasK/img.png&quot; data-alt=&quot;Precision Medicine에서 Metabolomics가 과대평가되는 지점&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/z6J2y/dJMcafME7Lw/Ok8jIQyNF2YLVwJgXkoasK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fz6J2y%2FdJMcafME7Lw%2FOk8jIQyNF2YLVwJgXkoasK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Precision Medicine에서 Metabolomics가 과대평가되는 지점&quot; loading=&quot;lazy&quot; width=&quot;818&quot; height=&quot;544&quot; data-origin-width=&quot;818&quot; data-origin-height=&quot;544&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Precision Medicine에서 Metabolomics가 과대평가되는 지점&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;210&quot; data-start=&quot;71&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine(정밀의학)은 환자 개개인의 유전적 특성, 환경 요인, 생활 습관 등을 종합적으로 고려하여 맞춤형 치료 전략을 설계하려는 접근이다. 이러한 흐름 속에서 metabolomics는 매우 매력적인 기술로 주목받아 왔다.&lt;/p&gt;
&lt;p data-end=&quot;402&quot; data-start=&quot;212&quot; data-ke-size=&quot;size16&quot;&gt;그 이유는 비교적 명확하다. Genome이나 transcriptome은 잠재적인 정보를 담고 있지만, metabolome은 &lt;b&gt;현재의 생리적 상태를 직접적으로 반영하는 분자 수준의 결과물&lt;/b&gt;이기 때문이다. 세포 대사의 최종 산물이 바로 metabolite이기 때문에 질병 상태나 약물 반응을 가장 직접적으로 보여주는 층위라고 설명되곤 한다.&lt;/p&gt;
&lt;p data-end=&quot;562&quot; data-start=&quot;404&quot; data-ke-size=&quot;size16&quot;&gt;이러한 논리 때문에 metabolomics는 종종 precision medicine의 핵심 기술처럼 소개된다. 실제로 많은 연구에서 metabolomics 기반 biomarker를 통해 질병 진단, 치료 반응 예측, 환자 stratification이 가능할 것이라는 기대가 제시된다.&lt;/p&gt;
&lt;p data-end=&quot;722&quot; data-start=&quot;564&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 연구 현장과 임상 적용 과정을 살펴보면 metabolomics가 가진 잠재력과는 별개로 &lt;b&gt;과대평가되는 지점&lt;/b&gt;도 분명히 존재한다. 이 글에서는 precision medicine 맥락에서 metabolomics가 종종 지나치게 낙관적으로 해석되는 이유를 살펴보고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;758&quot; data-start=&quot;729&quot; data-section-id=&quot;5tufoy&quot; data-ke-size=&quot;size23&quot;&gt;1. Metabolome은 안정적인 지표가 아니다&lt;/h3&gt;
&lt;p data-end=&quot;863&quot; data-start=&quot;760&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine에서 biomarker는 &lt;b&gt;개인에게 비교적 안정적으로 유지되는 특징&lt;/b&gt;이어야 한다. 그래야 환자 분류나 치료 전략 결정에 신뢰할 수 있는 기준이 된다.&lt;/p&gt;
&lt;p data-end=&quot;900&quot; data-start=&quot;865&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolome은 매우 &lt;b&gt;동적인 시스템&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;943&quot; data-start=&quot;902&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite 수준은 다음과 같은 요인에 의해 빠르게 변할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1005&quot; data-start=&quot;945&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;954&quot; data-start=&quot;945&quot; data-section-id=&quot;19q7guc&quot;&gt;식사 상태&lt;/li&gt;
&lt;li data-end=&quot;964&quot; data-start=&quot;955&quot; data-section-id=&quot;1tdg4mw&quot;&gt;수면 패턴&lt;/li&gt;
&lt;li data-end=&quot;971&quot; data-start=&quot;965&quot; data-section-id=&quot;ctnx39&quot;&gt;운동&lt;/li&gt;
&lt;li data-end=&quot;981&quot; data-start=&quot;972&quot; data-section-id=&quot;1govqk5&quot;&gt;약물 복용&lt;/li&gt;
&lt;li data-end=&quot;995&quot; data-start=&quot;982&quot; data-section-id=&quot;up7epg&quot;&gt;장내 미생물 변화&lt;/li&gt;
&lt;li data-end=&quot;1005&quot; data-start=&quot;996&quot; data-section-id=&quot;6jyn9h&quot;&gt;스트레스 상태&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1068&quot; data-start=&quot;1007&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 동일한 사람의 혈장 metabolite profile도 다음과 같은 조건에서 크게 달라질 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1112&quot; data-start=&quot;1070&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1082&quot; data-start=&quot;1070&quot; data-section-id=&quot;chi2ms&quot;&gt;공복 vs 식후&lt;/li&gt;
&lt;li data-end=&quot;1095&quot; data-start=&quot;1083&quot; data-section-id=&quot;3184rk&quot;&gt;아침 vs 저녁&lt;/li&gt;
&lt;li data-end=&quot;1112&quot; data-start=&quot;1096&quot; data-section-id=&quot;dtmnw1&quot;&gt;운동 직후 vs 휴식 상태&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1198&quot; data-start=&quot;1114&quot; data-ke-size=&quot;size16&quot;&gt;이러한 특성 때문에 metabolomics 데이터는 &lt;b&gt;개인의 장기적인 특성(trait)보다 순간적인 상태(state)&lt;/b&gt;를 더 강하게 반영한다.&lt;/p&gt;
&lt;p data-end=&quot;1336&quot; data-start=&quot;1200&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine이 필요로 하는 것은 비교적 안정적인 patient stratification인데, metabolomics는 그보다는 &lt;b&gt;physiological fluctuation&lt;/b&gt;을 더 잘 포착하는 기술일 가능성이 높다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1372&quot; data-start=&quot;1343&quot; data-section-id=&quot;16idhtv&quot; data-ke-size=&quot;size23&quot;&gt;2. 질병 신호보다 환경 신호가 더 강할 수 있다&lt;/h3&gt;
&lt;p data-end=&quot;1459&quot; data-start=&quot;1374&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터에서 관찰되는 변화가 항상 질병 때문이라고 가정하기 쉽다. 하지만 실제로는 환경 요인이 더 강한 영향을 미치는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;1496&quot; data-start=&quot;1461&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 metabolite는 환경 영향이 매우 크다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1585&quot; data-start=&quot;1498&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1515&quot; data-start=&quot;1498&quot; data-section-id=&quot;yavhca&quot;&gt;lipid species&lt;/li&gt;
&lt;li data-end=&quot;1530&quot; data-start=&quot;1516&quot; data-section-id=&quot;ct3a1i&quot;&gt;bile acids&lt;/li&gt;
&lt;li data-end=&quot;1564&quot; data-start=&quot;1531&quot; data-section-id=&quot;1eiobru&quot;&gt;microbiome-derived metabolite&lt;/li&gt;
&lt;li data-end=&quot;1585&quot; data-start=&quot;1565&quot; data-section-id=&quot;5oddbu&quot;&gt;dietary metabolite&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1669&quot; data-start=&quot;1587&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite가 질병 환자에서 증가하는 것으로 보일 수 있다. 하지만 그 변화가 실제로는 다음과 같은 요인 때문일 수도 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1702&quot; data-start=&quot;1671&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1680&quot; data-start=&quot;1671&quot; data-section-id=&quot;1qn0ush&quot;&gt;식단 차이&lt;/li&gt;
&lt;li data-end=&quot;1690&quot; data-start=&quot;1681&quot; data-section-id=&quot;1govqk5&quot;&gt;약물 복용&lt;/li&gt;
&lt;li data-end=&quot;1702&quot; data-start=&quot;1691&quot; data-section-id=&quot;8b5f25&quot;&gt;장내 미생물 구성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1778&quot; data-start=&quot;1704&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 metabolomics 결과는 질병 특이적인 signal이 아니라 &lt;b&gt;생활 환경 차이를 반영하는 signal&lt;/b&gt;일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1844&quot; data-start=&quot;1780&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine 관점에서 보면 이러한 biomarker는 환자 분류에 안정적으로 사용되기 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;1883&quot; data-start=&quot;1851&quot; data-section-id=&quot;1wrrn1k&quot; data-ke-size=&quot;size23&quot;&gt;3. Metabolite annotation의 불확실성&lt;/h3&gt;
&lt;p data-end=&quot;1954&quot; data-start=&quot;1885&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 또 하나 중요한 문제는 &lt;b&gt;metabolite identification의 불확실성&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2002&quot; data-start=&quot;1956&quot; data-ke-size=&quot;size16&quot;&gt;특히 untargeted metabolomics에서는 다음과 같은 단계가 존재한다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;2093&quot; data-start=&quot;2004&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;2026&quot; data-start=&quot;2004&quot; data-section-id=&quot;1i5fech&quot;&gt;feature detection&lt;/li&gt;
&lt;li data-end=&quot;2046&quot; data-start=&quot;2027&quot; data-section-id=&quot;1osdsl5&quot;&gt;peak alignment&lt;/li&gt;
&lt;li data-end=&quot;2068&quot; data-start=&quot;2047&quot; data-section-id=&quot;12y7tpw&quot;&gt;library matching&lt;/li&gt;
&lt;li data-end=&quot;2093&quot; data-start=&quot;2069&quot; data-section-id=&quot;twuuws&quot;&gt;metabolite annotation&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;2156&quot; data-start=&quot;2095&quot; data-ke-size=&quot;size16&quot;&gt;많은 경우 연구에서 보고되는 metabolite는 &lt;b&gt;확정된 구조가 아니라 추정된 annotation&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2179&quot; data-start=&quot;2158&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 상황이 흔하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2276&quot; data-start=&quot;2181&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2211&quot; data-start=&quot;2181&quot; data-section-id=&quot;1fyt5lx&quot;&gt;동일한 m/z를 가지는 여러 metabolite&lt;/li&gt;
&lt;li data-end=&quot;2240&quot; data-start=&quot;2212&quot; data-section-id=&quot;1pr6c54&quot;&gt;fragment pattern이 유사한 구조&lt;/li&gt;
&lt;li data-end=&quot;2276&quot; data-start=&quot;2241&quot; data-section-id=&quot;70x0k0&quot;&gt;library에 존재하지 않는 unknown compound&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2363&quot; data-start=&quot;2278&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황에서 metabolite identity가 완전히 확정되지 않은 상태로 biological interpretation이 진행되는 경우도 있다.&lt;/p&gt;
&lt;p data-end=&quot;2479&quot; data-start=&quot;2365&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine에서 biomarker로 사용되기 위해서는 분자의 identity가 명확해야 한다. 하지만 실제 metabolomics 연구에서는 이 단계가 생각보다 불확실한 경우가 많다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2511&quot; data-start=&quot;2486&quot; data-section-id=&quot;wm9dlm&quot; data-ke-size=&quot;size23&quot;&gt;4. Cohort dependency 문제&lt;/h3&gt;
&lt;p data-end=&quot;2561&quot; data-start=&quot;2513&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics biomarker 연구에서 매우 자주 관찰되는 현상이 있다.&lt;/p&gt;
&lt;p data-end=&quot;2645&quot; data-start=&quot;2563&quot; data-ke-size=&quot;size16&quot;&gt;Discovery cohort에서는 매우 강력한 biomarker처럼 보이던 metabolite가 &lt;b&gt;다른 코호트에서는 재현되지 않는 경우&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2665&quot; data-start=&quot;2647&quot; data-ke-size=&quot;size16&quot;&gt;이 현상은 여러 이유로 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2730&quot; data-start=&quot;2667&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2682&quot; data-start=&quot;2667&quot; data-section-id=&quot;k7gqdx&quot;&gt;환자 모집 기준 차이&lt;/li&gt;
&lt;li data-end=&quot;2695&quot; data-start=&quot;2683&quot; data-section-id=&quot;1hhie4w&quot;&gt;생활 환경 차이&lt;/li&gt;
&lt;li data-end=&quot;2709&quot; data-start=&quot;2696&quot; data-section-id=&quot;p675zq&quot;&gt;분석 플랫폼 차이&lt;/li&gt;
&lt;li data-end=&quot;2730&quot; data-start=&quot;2710&quot; data-section-id=&quot;1osn2fx&quot;&gt;sample handling 차이&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2824&quot; data-start=&quot;2732&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics 데이터는 이러한 변수에 매우 민감하기 때문에 cohort가 바뀌는 순간 biomarker significance가 사라지는 일이 흔하다.&lt;/p&gt;
&lt;p data-end=&quot;2949&quot; data-start=&quot;2826&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine에서 biomarker는 &lt;b&gt;다양한 인구 집단에서 재현 가능해야 한다.&lt;/b&gt; 하지만 많은 metabolomics biomarker는 특정 cohort에 의존적인 signal일 가능성이 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2977&quot; data-start=&quot;2956&quot; data-section-id=&quot;1lohf8v&quot; data-ke-size=&quot;size23&quot;&gt;5. 임상 workflow와의 거리&lt;/h3&gt;
&lt;p data-end=&quot;3050&quot; data-start=&quot;2979&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics가 precision medicine에서 활용되기 위해서는 실제 의료 시스템 안에 들어갈 수 있어야 한다.&lt;/p&gt;
&lt;p data-end=&quot;3091&quot; data-start=&quot;3052&quot; data-ke-size=&quot;size16&quot;&gt;하지만 현재 metabolomics 분석은 다음과 같은 특징을 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3152&quot; data-start=&quot;3093&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3119&quot; data-start=&quot;3093&quot; data-section-id=&quot;3lyqhr&quot;&gt;복잡한 sample preparation&lt;/li&gt;
&lt;li data-end=&quot;3135&quot; data-start=&quot;3120&quot; data-section-id=&quot;1vfwn39&quot;&gt;LC-MS 기반 분석&lt;/li&gt;
&lt;li data-end=&quot;3152&quot; data-start=&quot;3136&quot; data-section-id=&quot;zu20rg&quot;&gt;데이터 처리 과정의 복잡성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3204&quot; data-start=&quot;3154&quot; data-ke-size=&quot;size16&quot;&gt;이러한 과정은 연구 환경에서는 충분히 가능하지만 병원 검사 환경에서는 부담이 될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3235&quot; data-start=&quot;3206&quot; data-ke-size=&quot;size16&quot;&gt;임상 진단 검사는 보통 다음과 같은 조건을 요구한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3288&quot; data-start=&quot;3237&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3259&quot; data-start=&quot;3237&quot; data-section-id=&quot;37zjob&quot;&gt;빠른 turnaround time&lt;/li&gt;
&lt;li data-end=&quot;3273&quot; data-start=&quot;3260&quot; data-section-id=&quot;uj4dxb&quot;&gt;높은 자동화 수준&lt;/li&gt;
&lt;li data-end=&quot;3288&quot; data-start=&quot;3274&quot; data-section-id=&quot;1fap90h&quot;&gt;표준화된 분석 프로토콜&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3335&quot; data-start=&quot;3290&quot; data-ke-size=&quot;size16&quot;&gt;현재 많은 metabolomics 분석은 이러한 요구를 완전히 충족시키기 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;3387&quot; data-start=&quot;3342&quot; data-section-id=&quot;15gcyve&quot; data-ke-size=&quot;size23&quot;&gt;6. Precision medicine에서 metabolomics의 진짜 역할&lt;/h3&gt;
&lt;p data-end=&quot;3457&quot; data-start=&quot;3389&quot; data-ke-size=&quot;size16&quot;&gt;이러한 한계에도 불구하고 metabolomics가 precision medicine에서 의미 없는 기술이라는 뜻은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;3497&quot; data-start=&quot;3459&quot; data-ke-size=&quot;size16&quot;&gt;오히려 metabolomics는 다음과 같은 영역에서 강점을 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3543&quot; data-start=&quot;3499&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3513&quot; data-start=&quot;3499&quot; data-section-id=&quot;qkwr1t&quot;&gt;약물 반응 모니터링&lt;/li&gt;
&lt;li data-end=&quot;3529&quot; data-start=&quot;3514&quot; data-section-id=&quot;1xszt9k&quot;&gt;대사 경로 변화 분석&lt;/li&gt;
&lt;li data-end=&quot;3543&quot; data-start=&quot;3530&quot; data-section-id=&quot;l61154&quot;&gt;질병 진행 상태 평가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3617&quot; data-start=&quot;3545&quot; data-ke-size=&quot;size16&quot;&gt;즉 metabolomics는 환자를 &lt;b&gt;정적으로 분류하는 도구&lt;/b&gt;라기보다 환자의 &lt;b&gt;생리적 변화를 추적하는 도구&lt;/b&gt;에 더 가깝다.&lt;/p&gt;
&lt;p data-end=&quot;3710&quot; data-start=&quot;3619&quot; data-ke-size=&quot;size16&quot;&gt;이러한 관점에서 보면 metabolomics는 precision medicine에서 환자 분류보다는 &lt;b&gt;dynamic monitoring&lt;/b&gt;에 더 적합할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3721&quot; data-start=&quot;3717&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3826&quot; data-start=&quot;3723&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics는 precision medicine 연구에서 매우 중요한 정보를 제공할 수 있는 기술이다. 대사체는 세포 상태와 질병 과정의 변화를 직접적으로 반영하기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;3876&quot; data-start=&quot;3828&quot; data-ke-size=&quot;size16&quot;&gt;하지만 다음과 같은 이유로 metabolomics의 역할이 때때로 과대평가되기도 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3994&quot; data-start=&quot;3878&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3900&quot; data-start=&quot;3878&quot; data-section-id=&quot;1nidt69&quot;&gt;metabolome의 높은 변동성&lt;/li&gt;
&lt;li data-end=&quot;3917&quot; data-start=&quot;3901&quot; data-section-id=&quot;xk3s7o&quot;&gt;환경 요인의 강한 영향&lt;/li&gt;
&lt;li data-end=&quot;3953&quot; data-start=&quot;3918&quot; data-section-id=&quot;1cefpzq&quot;&gt;metabolite identification의 불확실성&lt;/li&gt;
&lt;li data-end=&quot;3975&quot; data-start=&quot;3954&quot; data-section-id=&quot;1fw130q&quot;&gt;cohort dependency&lt;/li&gt;
&lt;li data-end=&quot;3994&quot; data-start=&quot;3976&quot; data-section-id=&quot;kbonx6&quot;&gt;임상 workflow와의 거리&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4106&quot; data-start=&quot;3996&quot; data-ke-size=&quot;size16&quot;&gt;결국 metabolomics를 precision medicine의 만능 도구로 보는 시각보다는 &lt;b&gt;다른 omics 데이터와 함께 해석되는 하나의 층위&lt;/b&gt;로 이해하는 것이 더 현실적인 접근일 것이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4220&quot; data-start=&quot;4108&quot; data-ke-size=&quot;size16&quot;&gt;Precision medicine에서 진짜 중요한 것은 특정 기술 하나가 아니라, 다양한 biological information을 통합하여 &lt;b&gt;환자의 상태를 더 정확하게 이해하는 것&lt;/b&gt;이기 때문이다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Biological information</category>
      <category>dynamic monitoring</category>
      <category>metabolomics</category>
      <category>Precision Medicine</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/428</guid>
      <comments>https://info-tistory.tistory.com/428#entry428comment</comments>
      <pubDate>Sun, 5 Apr 2026 20:06:00 +0900</pubDate>
    </item>
    <item>
      <title>통계적으로 유의하지만 임상적으로 무의미한 결과의 특징</title>
      <link>https://info-tistory.tistory.com/427</link>
      <description>&lt;p data-end=&quot;59&quot; data-start=&quot;34&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; p-value가 의미를 보장하지 않는 순간&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;570&quot; data-origin-height=&quot;398&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/4e7MY/dJMcagLyKdK/DiqNElW8beGIXv2lgUbHR0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/4e7MY/dJMcagLyKdK/DiqNElW8beGIXv2lgUbHR0/img.png&quot; data-alt=&quot;통계적으로 유의하지만 임상적으로 무의미한 결과의 특징&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/4e7MY/dJMcagLyKdK/DiqNElW8beGIXv2lgUbHR0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F4e7MY%2FdJMcagLyKdK%2FDiqNElW8beGIXv2lgUbHR0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;570&quot; height=&quot;398&quot; data-origin-width=&quot;570&quot; data-origin-height=&quot;398&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;통계적으로 유의하지만 임상적으로 무의미한 결과의 특징&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;59&quot; data-start=&quot;34&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;239&quot; data-start=&quot;61&quot; data-ke-size=&quot;size16&quot;&gt;생명과학 연구에서 &lt;b&gt;통계적 유의성(statistical significance)&lt;/b&gt;은 매우 중요한 기준처럼 보인다. 연구 결과를 해석할 때 대부분의 논문은 p-value를 중심으로 결과를 설명한다. p-value가 0.05보다 작으면 의미 있는 결과로 간주되고, 그보다 크면 의미 없는 결과로 간주되는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;392&quot; data-start=&quot;241&quot; data-ke-size=&quot;size16&quot;&gt;그러나 실제 연구 현장, 특히 임상 연구나 omics 연구를 진행하다 보면 &lt;b&gt;통계적으로는 매우 유의하지만 임상적으로는 거의 의미가 없는 결과&lt;/b&gt;를 자주 만나게 된다. 논문에서는 강력한 결과처럼 보이지만 실제 환자 진료나 치료 결정에는 아무런 영향을 주지 못하는 경우다.&lt;/p&gt;
&lt;p data-end=&quot;515&quot; data-start=&quot;394&quot; data-ke-size=&quot;size16&quot;&gt;이러한 현상은 통계 분석 자체의 문제가 아니라 &lt;b&gt;통계적 질문과 임상적 질문이 서로 다르기 때문에&lt;/b&gt; 발생한다. 이 글에서는 통계적으로 유의하지만 임상적으로 무의미한 결과가 나타나는 전형적인 특징들을 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;552&quot; data-start=&quot;522&quot; data-section-id=&quot;v4ss77&quot; data-ke-size=&quot;size23&quot;&gt;1. 효과 크기(effect size)가 매우 작다&lt;/h3&gt;
&lt;p data-end=&quot;586&quot; data-start=&quot;554&quot; data-ke-size=&quot;size16&quot;&gt;가장 흔한 경우는 &lt;b&gt;효과 크기가 매우 작은 경우&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;634&quot; data-start=&quot;588&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite가 환자군에서 평균적으로 증가했다고 가정해 보자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;669&quot; data-start=&quot;636&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;652&quot; data-start=&quot;636&quot; data-section-id=&quot;clth7d&quot;&gt;환자군 평균: 1.05&lt;/li&gt;
&lt;li data-end=&quot;669&quot; data-start=&quot;653&quot; data-section-id=&quot;1867fqc&quot;&gt;대조군 평균: 1.00&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;761&quot; data-start=&quot;671&quot; data-ke-size=&quot;size16&quot;&gt;샘플 수가 매우 많다면 이러한 작은 차이도 통계적으로 유의하게 나타날 수 있다. 예를 들어 수천 명의 데이터를 분석하면 p-value는 매우 작게 나올 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;788&quot; data-start=&quot;763&quot; data-ke-size=&quot;size16&quot;&gt;하지만 임상적으로 중요한 질문은 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;816&quot; data-start=&quot;790&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 차이를 이용해 환자를 구분할 수 있는가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;923&quot; data-start=&quot;818&quot; data-ke-size=&quot;size16&quot;&gt;평균 차이가 매우 작다면 실제 환자 개별 수준에서는 두 집단이 거의 완전히 겹칠 수 있다. 이 경우 통계적으로는 유의하지만 &lt;b&gt;진단 기준으로는 사용할 수 없는 biomarker&lt;/b&gt;가 된다.&lt;/p&gt;
&lt;h3 data-end=&quot;950&quot; data-start=&quot;930&quot; data-section-id=&quot;1bcqgi&quot; data-ke-size=&quot;size23&quot;&gt;2. 개인 간 변동성이 너무 크다&lt;/h3&gt;
&lt;p data-end=&quot;1003&quot; data-start=&quot;952&quot; data-ke-size=&quot;size16&quot;&gt;임상적으로 유용한 biomarker는 환자 간 변동성보다 &lt;b&gt;질병 효과가 더 커야 한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1060&quot; data-start=&quot;1005&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolomics나 proteomics 데이터에서는 종종 다음과 같은 상황이 나타난다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1109&quot; data-start=&quot;1062&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1076&quot; data-start=&quot;1062&quot; data-section-id=&quot;17y62qs&quot;&gt;환자군 평균은 증가&lt;/li&gt;
&lt;li data-end=&quot;1109&quot; data-start=&quot;1077&quot; data-section-id=&quot;13hzt9c&quot;&gt;그러나 individual variation이 매우 큼&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1136&quot; data-start=&quot;1111&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 두 집단의 분포가 크게 겹치게 된다.&lt;/p&gt;
&lt;p data-end=&quot;1166&quot; data-start=&quot;1138&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 상황을 생각해 볼 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1207&quot; data-start=&quot;1168&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1187&quot; data-start=&quot;1168&quot; data-section-id=&quot;151vu8b&quot;&gt;환자군 범위: 0.5&amp;ndash;2.5&lt;/li&gt;
&lt;li data-end=&quot;1207&quot; data-start=&quot;1188&quot; data-section-id=&quot;eayywm&quot;&gt;대조군 범위: 0.6&amp;ndash;2.3&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1265&quot; data-start=&quot;1209&quot; data-ke-size=&quot;size16&quot;&gt;평균값 차이는 존재하지만 실제 환자를 검사했을 때 그 값이 어느 집단에 속하는지 판단하기 어렵다.&lt;/p&gt;
&lt;p data-end=&quot;1320&quot; data-start=&quot;1267&quot; data-ke-size=&quot;size16&quot;&gt;이러한 biomarker는 통계적으로 유의할 수 있지만 &lt;b&gt;임상 의사결정에 활용되기 어렵다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;1348&quot; data-start=&quot;1327&quot; data-section-id=&quot;1sc7quv&quot; data-ke-size=&quot;size23&quot;&gt;3. 특정 코호트에만 존재하는 패턴&lt;/h3&gt;
&lt;p data-end=&quot;1405&quot; data-start=&quot;1350&quot; data-ke-size=&quot;size16&quot;&gt;Omics 연구에서는 특정 데이터셋에서만 나타나는 패턴이 통계적으로 유의하게 나타나는 경우가 있다.&lt;/p&gt;
&lt;p data-end=&quot;1433&quot; data-start=&quot;1407&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 상황이 발생할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1468&quot; data-start=&quot;1435&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1448&quot; data-start=&quot;1435&quot; data-section-id=&quot;g7pdkt&quot;&gt;특정 병원 환자군&lt;/li&gt;
&lt;li data-end=&quot;1459&quot; data-start=&quot;1449&quot; data-section-id=&quot;61gzu5&quot;&gt;특정 연령대&lt;/li&gt;
&lt;li data-end=&quot;1468&quot; data-start=&quot;1460&quot; data-section-id=&quot;1pa5j2k&quot;&gt;특정 식습관&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1577&quot; data-start=&quot;1470&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인이 metabolite profile에 영향을 줄 수 있다. discovery cohort에서는 질병과 관련된 signal처럼 보이지만 다른 코호트에서는 재현되지 않는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;1652&quot; data-start=&quot;1579&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 통계적 유의성은 &lt;b&gt;특정 데이터셋의 구조를 반영한 것&lt;/b&gt;일 뿐 실제 biological signal이 아닐 가능성이 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1685&quot; data-start=&quot;1659&quot; data-section-id=&quot;13b1nk6&quot; data-ke-size=&quot;size23&quot;&gt;4. 질병 특이성이 부족한 biomarker&lt;/h3&gt;
&lt;p data-end=&quot;1746&quot; data-start=&quot;1687&quot; data-ke-size=&quot;size16&quot;&gt;어떤 biomarker는 특정 질병에서 증가할 수 있지만 &lt;b&gt;다른 질환에서도 동일하게 변화&lt;/b&gt;할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1801&quot; data-start=&quot;1748&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 biological process는 다양한 질병에서 공통적으로 나타난다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1845&quot; data-start=&quot;1803&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1812&quot; data-start=&quot;1803&quot; data-section-id=&quot;p5tj28&quot;&gt;염증 반응&lt;/li&gt;
&lt;li data-end=&quot;1833&quot; data-start=&quot;1813&quot; data-section-id=&quot;bd340d&quot;&gt;oxidative stress&lt;/li&gt;
&lt;li data-end=&quot;1845&quot; data-start=&quot;1834&quot; data-section-id=&quot;9ien7s&quot;&gt;에너지 대사 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1949&quot; data-start=&quot;1847&quot; data-ke-size=&quot;size16&quot;&gt;이러한 metabolite나 protein은 특정 질병 환자에서 통계적으로 증가할 수 있다. 하지만 동일한 변화가 다른 질환에서도 나타난다면 진단 biomarker로 사용하기 어렵다.&lt;/p&gt;
&lt;p data-end=&quot;2002&quot; data-start=&quot;1951&quot; data-ke-size=&quot;size16&quot;&gt;즉 통계적으로는 의미가 있지만 &lt;b&gt;질병 특이성이 부족한 경우&lt;/b&gt; 임상적으로 활용하기 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;2033&quot; data-start=&quot;2009&quot; data-section-id=&quot;1n9xmpm&quot; data-ke-size=&quot;size23&quot;&gt;5. 임상 의사결정을 바꾸지 못하는 결과&lt;/h3&gt;
&lt;p data-end=&quot;2077&quot; data-start=&quot;2035&quot; data-ke-size=&quot;size16&quot;&gt;임상적으로 의미 있는 결과는 &lt;b&gt;의사의 행동을 변화시킬 수 있어야 한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2101&quot; data-start=&quot;2079&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 질문이 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2167&quot; data-start=&quot;2103&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2127&quot; data-start=&quot;2103&quot; data-section-id=&quot;vmr70p&quot;&gt;이 검사 결과가 치료 선택을 바꾸는가&lt;/li&gt;
&lt;li data-end=&quot;2148&quot; data-start=&quot;2128&quot; data-section-id=&quot;1kd01gh&quot;&gt;환자 관리 전략을 변화시키는가&lt;/li&gt;
&lt;li data-end=&quot;2167&quot; data-start=&quot;2149&quot; data-section-id=&quot;4ejgv5&quot;&gt;예후 예측에 도움이 되는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2241&quot; data-start=&quot;2169&quot; data-ke-size=&quot;size16&quot;&gt;만약 새로운 biomarker가 기존 검사보다 조금 더 정확하더라도 실제 치료 전략이 동일하다면 임상적 가치는 제한적일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2303&quot; data-start=&quot;2243&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 연구 결과는 통계적으로 매우 흥미로울 수 있지만 &lt;b&gt;실제 의료 현장에서는 거의 사용되지 않는다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;2330&quot; data-start=&quot;2310&quot; data-section-id=&quot;1spkzne&quot; data-ke-size=&quot;size23&quot;&gt;6. 복잡한 모델에 의존하는 결과&lt;/h3&gt;
&lt;p data-end=&quot;2388&quot; data-start=&quot;2332&quot; data-ke-size=&quot;size16&quot;&gt;Omics 기반 연구에서는 여러 biomarker를 결합한 &lt;b&gt;예측 모델&lt;/b&gt;이 제안되는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;2420&quot; data-start=&quot;2390&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 형태의 결과가 보고될 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2460&quot; data-start=&quot;2422&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2444&quot; data-start=&quot;2422&quot; data-section-id=&quot;6zinjm&quot;&gt;12개의 metabolite 조합&lt;/li&gt;
&lt;li data-end=&quot;2460&quot; data-start=&quot;2445&quot; data-section-id=&quot;ld9t1&quot;&gt;머신러닝 모델 기반 분류&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2527&quot; data-start=&quot;2462&quot; data-ke-size=&quot;size16&quot;&gt;이러한 모델은 연구 데이터셋에서는 매우 높은 정확도를 보일 수 있다. 하지만 임상에서는 다음과 같은 문제가 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2570&quot; data-start=&quot;2529&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2543&quot; data-start=&quot;2529&quot; data-section-id=&quot;1gzy2kl&quot;&gt;분석 방법이 복잡함&lt;/li&gt;
&lt;li data-end=&quot;2557&quot; data-start=&quot;2544&quot; data-section-id=&quot;1psz7lv&quot;&gt;검사 비용이 높음&lt;/li&gt;
&lt;li data-end=&quot;2570&quot; data-start=&quot;2558&quot; data-section-id=&quot;172ws7d&quot;&gt;결과 해석이 어려움&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2598&quot; data-start=&quot;2572&quot; data-ke-size=&quot;size16&quot;&gt;이러한 이유로 실제 병원에서는 사용되기 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;2609&quot; data-start=&quot;2605&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;2665&quot; data-start=&quot;2611&quot; data-ke-size=&quot;size16&quot;&gt;통계적 유의성은 과학 연구에서 중요한 기준이지만 &lt;b&gt;임상적 의미를 자동으로 보장하지는 않는다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2729&quot; data-start=&quot;2667&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics, proteomics 같은 omics 연구에서는 다음과 같은 상황이 자주 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2839&quot; data-start=&quot;2731&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2750&quot; data-start=&quot;2731&quot; data-section-id=&quot;4fqydk&quot;&gt;효과 크기가 매우 작은 경우&lt;/li&gt;
&lt;li data-end=&quot;2769&quot; data-start=&quot;2751&quot; data-section-id=&quot;pk7ew9&quot;&gt;개인 간 변동성이 큰 경우&lt;/li&gt;
&lt;li data-end=&quot;2789&quot; data-start=&quot;2770&quot; data-section-id=&quot;1l1if1o&quot;&gt;특정 코호트에 의존하는 결과&lt;/li&gt;
&lt;li data-end=&quot;2815&quot; data-start=&quot;2790&quot; data-section-id=&quot;fj3kmq&quot;&gt;질병 특이성이 부족한 biomarker&lt;/li&gt;
&lt;li data-end=&quot;2839&quot; data-start=&quot;2816&quot; data-section-id=&quot;4fmesv&quot;&gt;임상 의사결정을 바꾸지 못하는 결과&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2899&quot; data-start=&quot;2841&quot; data-ke-size=&quot;size16&quot;&gt;이러한 특징을 가진 결과는 논문에서는 흥미로운 발견처럼 보일 수 있지만 실제 임상에서는 활용되기 어렵다.&lt;/p&gt;
&lt;p data-end=&quot;2972&quot; data-start=&quot;2901&quot; data-ke-size=&quot;size16&quot;&gt;결국 biomarker 연구에서 가장 중요한 질문은 단순히 &amp;ldquo;통계적으로 차이가 있는가?&amp;rdquo;가 아니라 다음과 같은 질문이어야 한다.&lt;/p&gt;
&lt;p data-end=&quot;3012&quot; data-start=&quot;2974&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&amp;ldquo;이 결과가 실제 환자 치료에 어떤 변화를 만들 수 있는가?&amp;rdquo;&lt;/b&gt;&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;3072&quot; data-start=&quot;3014&quot; data-ke-size=&quot;size16&quot;&gt;이 질문에 답할 수 있을 때 비로소 통계적 발견은 &lt;b&gt;임상적으로 의미 있는 지식&lt;/b&gt;으로 발전할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>metabolomics</category>
      <category>Proteomics</category>
      <category>임상적 의미</category>
      <category>코호트 연구</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/427</guid>
      <comments>https://info-tistory.tistory.com/427#entry427comment</comments>
      <pubDate>Sat, 4 Apr 2026 20:02:43 +0900</pubDate>
    </item>
    <item>
      <title>환자 코호트가 바뀌는 순간 metabolite significance가 사라지는 이유</title>
      <link>https://info-tistory.tistory.com/426</link>
      <description>&lt;p data-end=&quot;79&quot; data-start=&quot;52&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 왜 다른 병원에서 같은 결과가 재현되지 않을까&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;708&quot; data-origin-height=&quot;480&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/GBWNU/dJMcai3BlZ8/trkPq7aQDwfQIqfDT3S2x1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/GBWNU/dJMcai3BlZ8/trkPq7aQDwfQIqfDT3S2x1/img.png&quot; data-alt=&quot;환자 코호트가 바뀌는 순간 metabolite significance가 사라지는 이유&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/GBWNU/dJMcai3BlZ8/trkPq7aQDwfQIqfDT3S2x1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FGBWNU%2FdJMcai3BlZ8%2FtrkPq7aQDwfQIqfDT3S2x1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;환자 코호트가 바뀌는 순간 metabolite significance가 사라지는 이유&quot; loading=&quot;lazy&quot; width=&quot;708&quot; height=&quot;480&quot; data-origin-width=&quot;708&quot; data-origin-height=&quot;480&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;환자 코호트가 바뀌는 순간 metabolite significance가 사라지는 이유&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;284&quot; data-start=&quot;81&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구를 진행하다 보면 한 번쯤 이런 경험을 하게 된다.&lt;br /&gt;처음 연구에서는 특정 metabolite가 환자군과 대조군을 매우 잘 구분하는 것처럼 보인다. 통계적으로도 매우 강한 차이를 보이며, PCA나 PLS-DA 같은 multivariate 분석에서도 분명한 separation이 나타난다. 논문으로 정리하면 충분히 설득력이 있어 보인다.&lt;/p&gt;
&lt;p data-end=&quot;435&quot; data-start=&quot;286&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이후 다른 병원에서 환자를 모집하거나, 새로운 코호트를 확보하여 분석을 반복하면 예상치 못한 일이 발생한다. 이전 연구에서 가장 중요한 biomarker처럼 보였던 metabolite가 더 이상 유의하지 않거나, 심지어 변화 방향조차 달라지는 경우가 나타난다.&lt;/p&gt;
&lt;p data-end=&quot;596&quot; data-start=&quot;437&quot; data-ke-size=&quot;size16&quot;&gt;이 현상은 metabolomics 연구에서 매우 흔하게 관찰된다. 같은 질병을 대상으로 한 연구임에도 불구하고 &lt;b&gt;코호트가 바뀌는 순간 metabolite significance가 사라지는 이유&lt;/b&gt;는 단순히 통계적 우연 때문만이 아니다. 실제로는 여러 층위의 변동성이 동시에 작용한다.&lt;/p&gt;
&lt;p data-end=&quot;666&quot; data-start=&quot;598&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 환자 코호트가 바뀌는 순간 metabolite significance가 흔들리는 주요 원인을 살펴보고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;708&quot; data-start=&quot;673&quot; data-section-id=&quot;y325y1&quot; data-ke-size=&quot;size23&quot;&gt;1. 질병 자체보다 환자 배경이 더 큰 변수를 만들 수 있다&lt;/h3&gt;
&lt;p data-end=&quot;802&quot; data-start=&quot;710&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite는 단순히 질병 상태만 반영하는 분자가 아니다. 오히려 metabolite 농도는 환자의 &lt;b&gt;생활 환경과 생리적 상태&lt;/b&gt;에 매우 민감하게 반응한다.&lt;/p&gt;
&lt;p data-end=&quot;850&quot; data-start=&quot;804&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 요소들은 metabolite 수준에 큰 영향을 줄 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;914&quot; data-start=&quot;852&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;859&quot; data-start=&quot;852&quot; data-section-id=&quot;u5yk68&quot;&gt;식습관&lt;/li&gt;
&lt;li data-end=&quot;869&quot; data-start=&quot;860&quot; data-section-id=&quot;1govqk5&quot;&gt;약물 복용&lt;/li&gt;
&lt;li data-end=&quot;879&quot; data-start=&quot;870&quot; data-section-id=&quot;1tdg4mw&quot;&gt;수면 패턴&lt;/li&gt;
&lt;li data-end=&quot;890&quot; data-start=&quot;880&quot; data-section-id=&quot;1g4uhm8&quot;&gt;신체 활동량&lt;/li&gt;
&lt;li data-end=&quot;904&quot; data-start=&quot;891&quot; data-section-id=&quot;sdllod&quot;&gt;장내 미생물 구성&lt;/li&gt;
&lt;li data-end=&quot;914&quot; data-start=&quot;905&quot; data-section-id=&quot;1llwdae&quot;&gt;음주 및 흡연&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;963&quot; data-start=&quot;916&quot; data-ke-size=&quot;size16&quot;&gt;특히 혈장이나 소변 metabolomics에서는 이러한 요인의 영향이 매우 크다.&lt;/p&gt;
&lt;p data-end=&quot;1108&quot; data-start=&quot;965&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 어떤 metabolite가 질병 환자에서 증가하는 것으로 관찰되었다고 가정해 보자. 하지만 그 metabolite가 특정 식단이나 장내 미생물과도 강하게 연관되어 있다면 다른 지역에서 모집된 환자 코호트에서는 완전히 다른 패턴이 나타날 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1174&quot; data-start=&quot;1110&quot; data-ke-size=&quot;size16&quot;&gt;결국 첫 번째 연구에서 관찰된 차이는 질병 때문이 아니라 &lt;b&gt;코호트의 생활 습관 차이&lt;/b&gt;를 반영했을 가능성도 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1206&quot; data-start=&quot;1181&quot; data-section-id=&quot;qh0i8u&quot; data-ke-size=&quot;size23&quot;&gt;2. 질병의 정의 자체가 코호트마다 다르다&lt;/h3&gt;
&lt;p data-end=&quot;1256&quot; data-start=&quot;1208&quot; data-ke-size=&quot;size16&quot;&gt;임상 연구에서 동일한 질병 이름이 사용되더라도 실제 환자 구성은 상당히 다를 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1293&quot; data-start=&quot;1258&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 같은 질환이라도 다음과 같은 차이가 존재할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1343&quot; data-start=&quot;1295&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1307&quot; data-start=&quot;1295&quot; data-section-id=&quot;1l6khgw&quot;&gt;질병 진행 단계&lt;/li&gt;
&lt;li data-end=&quot;1317&quot; data-start=&quot;1308&quot; data-section-id=&quot;1k51hm8&quot;&gt;치료 여부&lt;/li&gt;
&lt;li data-end=&quot;1331&quot; data-start=&quot;1318&quot; data-section-id=&quot;mqu87t&quot;&gt;합병증 존재 여부&lt;/li&gt;
&lt;li data-end=&quot;1343&quot; data-start=&quot;1332&quot; data-section-id=&quot;1pci0vt&quot;&gt;환자의 연령 분포&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1385&quot; data-start=&quot;1345&quot; data-ke-size=&quot;size16&quot;&gt;이러한 차이는 metabolomics 데이터에 직접적인 영향을 준다.&lt;/p&gt;
&lt;p data-end=&quot;1510&quot; data-start=&quot;1387&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 암 환자를 대상으로 metabolomics 분석을 수행한다고 가정해 보자. 한 연구에서는 초기 단계 환자가 많고, 다른 연구에서는 진행성 환자가 많다면 metabolite profile이 크게 달라질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1602&quot; data-start=&quot;1512&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 metabolite significance가 사라진 것처럼 보이지만 실제로는 &lt;b&gt;질병의 biological state 자체가 달라진 것&lt;/b&gt;일 수도 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1642&quot; data-start=&quot;1609&quot; data-section-id=&quot;lqsqu6&quot; data-ke-size=&quot;size23&quot;&gt;3. 코호트 크기가 작을수록 우연한 패턴이 나타나기 쉽다&lt;/h3&gt;
&lt;p data-end=&quot;1683&quot; data-start=&quot;1644&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터는 일반적으로 다음과 같은 구조를 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1734&quot; data-start=&quot;1685&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1718&quot; data-start=&quot;1685&quot; data-section-id=&quot;1bmm6al&quot;&gt;수백에서 수천 개의 metabolite feature&lt;/li&gt;
&lt;li data-end=&quot;1734&quot; data-start=&quot;1719&quot; data-section-id=&quot;j1cbzc&quot;&gt;수십에서 수백 개의 샘플&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1770&quot; data-start=&quot;1736&quot; data-ke-size=&quot;size16&quot;&gt;이 구조에서는 &lt;b&gt;통계적 자유도 문제가 쉽게 발생&lt;/b&gt;한다.&lt;/p&gt;
&lt;p data-end=&quot;1865&quot; data-start=&quot;1772&quot; data-ke-size=&quot;size16&quot;&gt;특정 코호트에서 유의미하게 보이던 metabolite가 사실은 그 데이터셋에만 존재하는 패턴일 가능성이 있다. 특히 다음과 같은 경우 이러한 문제가 더 쉽게 나타난다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1957&quot; data-start=&quot;1867&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1882&quot; data-start=&quot;1867&quot; data-section-id=&quot;1yzry7c&quot;&gt;샘플 수가 적은 경우&lt;/li&gt;
&lt;li data-end=&quot;1926&quot; data-start=&quot;1883&quot; data-section-id=&quot;1twv2m6&quot;&gt;multiple testing correction이 충분하지 않은 경우&lt;/li&gt;
&lt;li data-end=&quot;1957&quot; data-start=&quot;1927&quot; data-section-id=&quot;zo3ukd&quot;&gt;feature selection 과정이 반복된 경우&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2042&quot; data-start=&quot;1959&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황에서는 discovery cohort에서 매우 강력해 보이던 biomarker가 validation cohort에서 사라지는 일이 흔하다.&lt;/p&gt;
&lt;h3 data-end=&quot;2086&quot; data-start=&quot;2049&quot; data-section-id=&quot;uyee4l&quot; data-ke-size=&quot;size23&quot;&gt;4. 분석 조건 차이가 작은 신호를 증폭하거나 약화시킬 수 있다&lt;/h3&gt;
&lt;p data-end=&quot;2141&quot; data-start=&quot;2088&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서는 &lt;b&gt;분석 조건의 미묘한 차이&lt;/b&gt;도 결과에 영향을 줄 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2169&quot; data-start=&quot;2143&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 요소들이 다를 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2264&quot; data-start=&quot;2171&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2192&quot; data-start=&quot;2171&quot; data-section-id=&quot;wr4qjn&quot;&gt;sample storage 기간&lt;/li&gt;
&lt;li data-end=&quot;2210&quot; data-start=&quot;2193&quot; data-section-id=&quot;iwndch&quot;&gt;extraction 방법&lt;/li&gt;
&lt;li data-end=&quot;2229&quot; data-start=&quot;2211&quot; data-section-id=&quot;40wbet&quot;&gt;LC gradient 조건&lt;/li&gt;
&lt;li data-end=&quot;2264&quot; data-start=&quot;2230&quot; data-section-id=&quot;17o2778&quot;&gt;mass spectrometer calibration 상태&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2350&quot; data-start=&quot;2266&quot; data-ke-size=&quot;size16&quot;&gt;특정 metabolite signal이 매우 강한 biological signal이 아니라면 이러한 실험 조건 차이에 의해 쉽게 영향을 받을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2460&quot; data-start=&quot;2352&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 discovery 연구에서 관찰된 metabolite significance는 실제 biological difference가 아니라 &lt;b&gt;분석 시스템의 특성&lt;/b&gt;을 반영했을 가능성도 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2512&quot; data-start=&quot;2467&quot; data-section-id=&quot;u7atl3&quot; data-ke-size=&quot;size23&quot;&gt;5. 질병보다 더 강한 biological variation이 존재할 수 있다&lt;/h3&gt;
&lt;p data-end=&quot;2569&quot; data-start=&quot;2514&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터에서는 종종 질병 효과보다 &lt;b&gt;개인 간 변동성&lt;/b&gt;이 더 크게 나타난다.&lt;/p&gt;
&lt;p data-end=&quot;2599&quot; data-start=&quot;2571&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 경우를 생각해 볼 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2666&quot; data-start=&quot;2601&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2633&quot; data-start=&quot;2601&quot; data-section-id=&quot;26wrpv&quot;&gt;환자 A와 환자 B 사이의 metabolite 차이&lt;/li&gt;
&lt;li data-end=&quot;2666&quot; data-start=&quot;2634&quot; data-section-id=&quot;1jc5kvs&quot;&gt;환자 A와 건강 대조군 사이의 metabolite 차이&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2717&quot; data-start=&quot;2668&quot; data-ke-size=&quot;size16&quot;&gt;이 두 차이를 비교했을 때 개인 간 변동성이 더 크다면 질병 신호는 쉽게 묻힐 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2758&quot; data-start=&quot;2719&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 metabolite들은 개인 간 변동성이 매우 크다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2819&quot; data-start=&quot;2760&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2777&quot; data-start=&quot;2760&quot; data-section-id=&quot;yavhca&quot;&gt;lipid species&lt;/li&gt;
&lt;li data-end=&quot;2792&quot; data-start=&quot;2778&quot; data-section-id=&quot;ct3a1i&quot;&gt;bile acids&lt;/li&gt;
&lt;li data-end=&quot;2819&quot; data-start=&quot;2793&quot; data-section-id=&quot;1uzietu&quot;&gt;microbiome 관련 metabolite&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2891&quot; data-start=&quot;2821&quot; data-ke-size=&quot;size16&quot;&gt;따라서 특정 코호트에서는 우연히 질병 신호가 강하게 보일 수 있지만 다른 코호트에서는 개인 변동성이 더 크게 나타날 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2932&quot; data-start=&quot;2898&quot; data-section-id=&quot;1hefu8l&quot; data-ke-size=&quot;size23&quot;&gt;6. Metabolomics는 환경 정보를 강하게 반영한다&lt;/h3&gt;
&lt;p data-end=&quot;2992&quot; data-start=&quot;2934&quot; data-ke-size=&quot;size16&quot;&gt;Genomics 데이터와 달리 metabolomics 데이터는 &lt;b&gt;환경 요인의 영향을 강하게 받는다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3044&quot; data-start=&quot;2994&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 요인은 metabolite profile을 크게 변화시킬 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3088&quot; data-start=&quot;3046&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3056&quot; data-start=&quot;3046&quot; data-section-id=&quot;1697kt0&quot;&gt;지역 식문화&lt;/li&gt;
&lt;li data-end=&quot;3066&quot; data-start=&quot;3057&quot; data-section-id=&quot;1xs31f0&quot;&gt;생활 환경&lt;/li&gt;
&lt;li data-end=&quot;3077&quot; data-start=&quot;3067&quot; data-section-id=&quot;1bg28ol&quot;&gt;미생물 노출&lt;/li&gt;
&lt;li data-end=&quot;3088&quot; data-start=&quot;3078&quot; data-section-id=&quot;1bf2dqc&quot;&gt;약물 처방 패턴&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3163&quot; data-start=&quot;3090&quot; data-ke-size=&quot;size16&quot;&gt;따라서 서로 다른 지역이나 병원에서 모집된 환자 코호트는 질병이 같더라도 metabolite profile이 상당히 다를 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3242&quot; data-start=&quot;3165&quot; data-ke-size=&quot;size16&quot;&gt;이러한 특성 때문에 metabolomics biomarker는 &lt;b&gt;population-specific signal&lt;/b&gt;이 될 가능성이 높다.&lt;/p&gt;
&lt;h3 data-end=&quot;3253&quot; data-start=&quot;3249&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3354&quot; data-start=&quot;3255&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 특정 metabolite가 질병과 강하게 연관된 것처럼 보이더라도 코호트가 바뀌는 순간 그 significance가 사라지는 경우는 매우 흔하다.&lt;/p&gt;
&lt;p data-end=&quot;3410&quot; data-start=&quot;3356&quot; data-ke-size=&quot;size16&quot;&gt;그 이유는 단순히 통계적 오류 때문이 아니라 다음과 같은 다양한 요인이 동시에 작용하기 때문이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3499&quot; data-start=&quot;3412&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3427&quot; data-start=&quot;3412&quot; data-section-id=&quot;ybkago&quot;&gt;환자 생활 환경 차이&lt;/li&gt;
&lt;li data-end=&quot;3442&quot; data-start=&quot;3428&quot; data-section-id=&quot;jn0m1c&quot;&gt;질병 상태의 다양성&lt;/li&gt;
&lt;li data-end=&quot;3472&quot; data-start=&quot;3443&quot; data-section-id=&quot;1a8iari&quot;&gt;개인 간 biological variation&lt;/li&gt;
&lt;li data-end=&quot;3485&quot; data-start=&quot;3473&quot; data-section-id=&quot;1fh48h5&quot;&gt;분석 조건 차이&lt;/li&gt;
&lt;li data-end=&quot;3499&quot; data-start=&quot;3486&quot; data-section-id=&quot;j50qb0&quot;&gt;코호트 규모 문제&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3627&quot; data-start=&quot;3501&quot; data-ke-size=&quot;size16&quot;&gt;결국 metabolomics biomarker 연구에서 가장 중요한 것은 discovery 단계에서 강한 signal을 찾는 것이 아니라 &lt;b&gt;다양한 코호트에서 동일한 biological 의미가 유지되는지를 확인하는 것&lt;/b&gt;이다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>metabolite significance</category>
      <category>metabolomics biomarker</category>
      <category>population-specific signal</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/426</guid>
      <comments>https://info-tistory.tistory.com/426#entry426comment</comments>
      <pubDate>Fri, 3 Apr 2026 20:59:22 +0900</pubDate>
    </item>
    <item>
      <title>Biomarker 후보가 실제 임상에서 실패하는 전형적인 패턴</title>
      <link>https://info-tistory.tistory.com/425</link>
      <description>&lt;p data-end=&quot;66&quot; data-start=&quot;39&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 논문에서는 성공하지만 병원에서는 사라지는 이유&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;722&quot; data-origin-height=&quot;380&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/duuTa7/dJMcabQZmWB/u9tJrjt2QrGorWbgne65e1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/duuTa7/dJMcabQZmWB/u9tJrjt2QrGorWbgne65e1/img.png&quot; data-alt=&quot;Biomarker 후보가 실제 임상에서 실패하는 전형적인 패턴&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/duuTa7/dJMcabQZmWB/u9tJrjt2QrGorWbgne65e1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FduuTa7%2FdJMcabQZmWB%2Fu9tJrjt2QrGorWbgne65e1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Biomarker 후보가 실제 임상에서 실패하는 전형적인 패턴&quot; loading=&quot;lazy&quot; width=&quot;722&quot; height=&quot;380&quot; data-origin-width=&quot;722&quot; data-origin-height=&quot;380&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Biomarker 후보가 실제 임상에서 실패하는 전형적인 패턴&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;66&quot; data-start=&quot;39&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;257&quot; data-start=&quot;68&quot; data-ke-size=&quot;size16&quot;&gt;생명과학 연구에서 &lt;b&gt;biomarker 발견&lt;/b&gt;은 매우 중요한 목표 중 하나이다. 새로운 biomarker는 질병의 조기 진단, 치료 반응 예측, 환자 분류 등 다양한 임상 의사결정에 활용될 수 있기 때문이다. 실제로 genomics, proteomics, metabolomics 연구에서는 매년 수많은 biomarker 후보가 보고된다.&lt;/p&gt;
&lt;p data-end=&quot;344&quot; data-start=&quot;259&quot; data-ke-size=&quot;size16&quot;&gt;그러나 흥미로운 사실이 하나 있다. 논문에서는 매우 유망해 보이던 biomarker가 &lt;b&gt;실제 임상 검사로 이어지는 경우는 극히 드물다&lt;/b&gt;는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;369&quot; data-start=&quot;346&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구에서 다음과 같은 과정을 거친다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;461&quot; data-start=&quot;371&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;412&quot; data-start=&quot;371&quot; data-section-id=&quot;bmjdh7&quot;&gt;discovery cohort에서 유의미한 biomarker 발견&lt;/li&gt;
&lt;li data-end=&quot;423&quot; data-start=&quot;413&quot; data-section-id=&quot;4i0n19&quot;&gt;논문 발표&lt;/li&gt;
&lt;li data-end=&quot;442&quot; data-start=&quot;424&quot; data-section-id=&quot;1rz9s4l&quot;&gt;후속 연구에서 재현 실패&lt;/li&gt;
&lt;li data-end=&quot;461&quot; data-start=&quot;443&quot; data-section-id=&quot;1fj97bf&quot;&gt;임상 적용 단계에서 중단&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;593&quot; data-start=&quot;463&quot; data-ke-size=&quot;size16&quot;&gt;이러한 패턴은 특정 분야에만 나타나는 현상이 아니다. 암, 대사질환, 신경질환 등 거의 모든 질환 연구에서 비슷한 일이 반복된다. 이 글에서는 biomarker 후보가 실제 임상에서 실패하는 &lt;b&gt;대표적인 패턴들&lt;/b&gt;을 살펴보고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;629&quot; data-start=&quot;600&quot; data-section-id=&quot;1dsbb2r&quot; data-ke-size=&quot;size23&quot;&gt;1. Discovery cohort에 특화된 결과&lt;/h3&gt;
&lt;p data-end=&quot;701&quot; data-start=&quot;631&quot; data-ke-size=&quot;size16&quot;&gt;많은 biomarker 연구는 비교적 작은 cohort에서 시작된다. 예를 들어 다음과 같은 연구 설계를 생각해 볼 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;728&quot; data-start=&quot;703&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;713&quot; data-start=&quot;703&quot; data-section-id=&quot;pvzmfa&quot;&gt;환자 30명&lt;/li&gt;
&lt;li data-end=&quot;728&quot; data-start=&quot;714&quot; data-section-id=&quot;1o0eogf&quot;&gt;건강 대조군 30명&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;823&quot; data-start=&quot;730&quot; data-ke-size=&quot;size16&quot;&gt;이러한 규모에서도 통계적으로 유의한 차이를 보이는 biomarker가 발견될 수 있다. 하지만 이 결과가 &lt;b&gt;특정 cohort의 특성에 의존한 것일 가능성&lt;/b&gt;이 있다.&lt;/p&gt;
&lt;p data-end=&quot;858&quot; data-start=&quot;825&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 cohort가 다음과 같은 특징을 가질 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;895&quot; data-start=&quot;860&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;870&quot; data-start=&quot;860&quot; data-section-id=&quot;61gzu5&quot;&gt;특정 연령대&lt;/li&gt;
&lt;li data-end=&quot;881&quot; data-start=&quot;871&quot; data-section-id=&quot;124iea4&quot;&gt;특정 식습관&lt;/li&gt;
&lt;li data-end=&quot;895&quot; data-start=&quot;882&quot; data-section-id=&quot;g7pdkt&quot;&gt;특정 병원 환자군&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;995&quot; data-start=&quot;897&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인은 질병과 직접적인 관련이 없더라도 biomarker 패턴을 만들어낼 수 있다. 따라서 다른 인구 집단에서 동일한 분석을 수행하면 결과가 재현되지 않는 경우가 많다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1027&quot; data-start=&quot;1002&quot; data-section-id=&quot;z6czoe&quot; data-ke-size=&quot;size23&quot;&gt;2. 통계적 과적합(overfitting)&lt;/h3&gt;
&lt;p data-end=&quot;1071&quot; data-start=&quot;1029&quot; data-ke-size=&quot;size16&quot;&gt;Omics 기반 biomarker 연구는 매우 높은 차원의 데이터를 다룬다.&lt;/p&gt;
&lt;p data-end=&quot;1166&quot; data-start=&quot;1073&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 metabolomics 연구에서는 수천 개의 feature가 분석될 수 있다. 그러나 실제 연구에 포함되는 샘플 수는 수십에서 수백 개 정도인 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;1194&quot; data-start=&quot;1168&quot; data-ke-size=&quot;size16&quot;&gt;이러한 구조에서는 다음과 같은 문제가 발생한다.&lt;/p&gt;
&lt;p data-end=&quot;1207&quot; data-start=&quot;1196&quot; data-ke-size=&quot;size16&quot;&gt;변수 수 ≫ 샘플 수&lt;/p&gt;
&lt;p data-end=&quot;1307&quot; data-start=&quot;1209&quot; data-ke-size=&quot;size16&quot;&gt;이 상황에서는 통계 모델이 데이터에 과도하게 맞춰질 수 있다. 즉 모델이 실제 biological signal이 아니라 &lt;b&gt;데이터 안의 우연한 패턴&lt;/b&gt;을 학습할 가능성이 있다.&lt;/p&gt;
&lt;p data-end=&quot;1404&quot; data-start=&quot;1309&quot; data-ke-size=&quot;size16&quot;&gt;Discovery cohort에서는 매우 높은 정확도를 보이던 biomarker 모델이 독립적인 validation cohort에서는 성능이 크게 떨어지는 경우가 흔하다.&lt;/p&gt;
&lt;h3 data-end=&quot;1436&quot; data-start=&quot;1411&quot; data-section-id=&quot;ygug9d&quot; data-ke-size=&quot;size23&quot;&gt;3. 전처리 및 분석 조건에 의존하는 신호&lt;/h3&gt;
&lt;p data-end=&quot;1520&quot; data-start=&quot;1438&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics와 proteomics 연구에서는 &lt;b&gt;sample processing&lt;/b&gt;과 &lt;b&gt;분석 조건&lt;/b&gt;이 결과에 큰 영향을 미친다.&lt;/p&gt;
&lt;p data-end=&quot;1565&quot; data-start=&quot;1522&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 요소들이 biomarker 신호에 영향을 줄 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1659&quot; data-start=&quot;1567&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1588&quot; data-start=&quot;1567&quot; data-section-id=&quot;rqa7v7&quot;&gt;sample storage 조건&lt;/li&gt;
&lt;li data-end=&quot;1606&quot; data-start=&quot;1589&quot; data-section-id=&quot;iwndch&quot;&gt;extraction 방법&lt;/li&gt;
&lt;li data-end=&quot;1634&quot; data-start=&quot;1607&quot; data-section-id=&quot;2h4vu&quot;&gt;chromatography gradient&lt;/li&gt;
&lt;li data-end=&quot;1659&quot; data-start=&quot;1635&quot; data-section-id=&quot;1eebbbm&quot;&gt;mass spectrometer 설정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1731&quot; data-start=&quot;1661&quot; data-ke-size=&quot;size16&quot;&gt;Discovery 단계에서는 특정 실험 조건에서 안정적으로 보이던 signal이 다른 실험 환경에서는 재현되지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1834&quot; data-start=&quot;1733&quot; data-ke-size=&quot;size16&quot;&gt;임상 검사로 사용되기 위해서는 biomarker가 다양한 실험 환경에서도 &lt;b&gt;일관된 결과&lt;/b&gt;를 보여야 한다. 하지만 많은 biomarker 후보는 특정 연구 환경에 강하게 의존한다.&lt;/p&gt;
&lt;h3 data-end=&quot;1860&quot; data-start=&quot;1841&quot; data-section-id=&quot;1h6mwc&quot; data-ke-size=&quot;size23&quot;&gt;4. 생물학적 변동성의 과소평가&lt;/h3&gt;
&lt;p data-end=&quot;1941&quot; data-start=&quot;1862&quot; data-ke-size=&quot;size16&quot;&gt;많은 biomarker 연구는 환자군과 대조군의 평균값 차이에 집중한다. 그러나 실제 임상 환경에서는 &lt;b&gt;개인 간 변동성&lt;/b&gt;이 매우 중요하다.&lt;/p&gt;
&lt;p data-end=&quot;1992&quot; data-start=&quot;1943&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite나 protein 수준은 다음과 같은 요인에 의해 크게 변할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2034&quot; data-start=&quot;1994&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2003&quot; data-start=&quot;1994&quot; data-section-id=&quot;19q7guc&quot;&gt;식사 상태&lt;/li&gt;
&lt;li data-end=&quot;2013&quot; data-start=&quot;2004&quot; data-section-id=&quot;1govqk5&quot;&gt;약물 복용&lt;/li&gt;
&lt;li data-end=&quot;2023&quot; data-start=&quot;2014&quot; data-section-id=&quot;1tdg4mw&quot;&gt;수면 패턴&lt;/li&gt;
&lt;li data-end=&quot;2034&quot; data-start=&quot;2024&quot; data-section-id=&quot;1uz7o1s&quot;&gt;장내 미생물&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2115&quot; data-start=&quot;2036&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite가 환자군에서 평균적으로 20% 증가했다고 하더라도 개인 간 변동성이 크다면 두 집단이 크게 겹칠 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2171&quot; data-start=&quot;2117&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 biomarker는 통계적으로 유의할 수 있지만 &lt;b&gt;진단 기준으로는 사용하기 어렵다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;2204&quot; data-start=&quot;2178&quot; data-section-id=&quot;1wg5x7r&quot; data-ke-size=&quot;size23&quot;&gt;5. 질병 특이성이 부족한 biomarker&lt;/h3&gt;
&lt;p data-end=&quot;2278&quot; data-start=&quot;2206&quot; data-ke-size=&quot;size16&quot;&gt;많은 biomarker 후보는 특정 질병에만 특이적인 신호가 아니라 &lt;b&gt;일반적인 생리적 스트레스 반응&lt;/b&gt;을 반영하는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;2321&quot; data-start=&quot;2280&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 변화는 다양한 질병에서 공통적으로 나타날 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2367&quot; data-start=&quot;2323&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2332&quot; data-start=&quot;2323&quot; data-section-id=&quot;p5tj28&quot;&gt;염증 반응&lt;/li&gt;
&lt;li data-end=&quot;2353&quot; data-start=&quot;2333&quot; data-section-id=&quot;bd340d&quot;&gt;oxidative stress&lt;/li&gt;
&lt;li data-end=&quot;2367&quot; data-start=&quot;2354&quot; data-section-id=&quot;1mbocnc&quot;&gt;에너지 대사 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2425&quot; data-start=&quot;2369&quot; data-ke-size=&quot;size16&quot;&gt;이러한 biomarker는 특정 질병에서 발견될 수 있지만 다른 질환에서도 동일하게 나타날 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2460&quot; data-start=&quot;2427&quot; data-ke-size=&quot;size16&quot;&gt;임상에서 biomarker는 보통 다음과 같은 역할을 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2505&quot; data-start=&quot;2462&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2474&quot; data-start=&quot;2462&quot; data-section-id=&quot;14cyqy9&quot;&gt;특정 질병 진단&lt;/li&gt;
&lt;li data-end=&quot;2492&quot; data-start=&quot;2475&quot; data-section-id=&quot;vso9id&quot;&gt;질병 subtype 구분&lt;/li&gt;
&lt;li data-end=&quot;2505&quot; data-start=&quot;2493&quot; data-section-id=&quot;j75jng&quot;&gt;치료 반응 예측&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2550&quot; data-start=&quot;2507&quot; data-ke-size=&quot;size16&quot;&gt;따라서 질병 특이성이 낮은 biomarker는 실제 임상에서 활용되기 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;2579&quot; data-start=&quot;2557&quot; data-section-id=&quot;i76dwc&quot; data-ke-size=&quot;size23&quot;&gt;6. 임상 workflow와의 불일치&lt;/h3&gt;
&lt;p data-end=&quot;2646&quot; data-start=&quot;2581&quot; data-ke-size=&quot;size16&quot;&gt;Biomarker가 실제 병원에서 사용되기 위해서는 &lt;b&gt;임상 workflow&lt;/b&gt;에 자연스럽게 통합될 수 있어야 한다.&lt;/p&gt;
&lt;p data-end=&quot;2671&quot; data-start=&quot;2648&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 요소들이 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2718&quot; data-start=&quot;2673&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2682&quot; data-start=&quot;2673&quot; data-section-id=&quot;10q516x&quot;&gt;검사 비용&lt;/li&gt;
&lt;li data-end=&quot;2692&quot; data-start=&quot;2683&quot; data-section-id=&quot;1rla961&quot;&gt;분석 시간&lt;/li&gt;
&lt;li data-end=&quot;2703&quot; data-start=&quot;2693&quot; data-section-id=&quot;1vbmolx&quot;&gt;장비 접근성&lt;/li&gt;
&lt;li data-end=&quot;2718&quot; data-start=&quot;2704&quot; data-section-id=&quot;ajhupc&quot;&gt;결과 해석의 단순성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2784&quot; data-start=&quot;2720&quot; data-ke-size=&quot;size16&quot;&gt;만약 biomarker 측정에 고가의 장비나 복잡한 분석 과정이 필요하다면 실제 병원에서 사용되기 어려울 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2868&quot; data-start=&quot;2786&quot; data-ke-size=&quot;size16&quot;&gt;특히 LC-MS 기반 분석은 매우 높은 정확도를 제공하지만 병원 검사 환경에서는 자동화된 immunoassay 방식보다 도입 장벽이 높을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2909&quot; data-start=&quot;2875&quot; data-section-id=&quot;k4xu2e&quot; data-ke-size=&quot;size23&quot;&gt;7. 임상 의사결정에 영향을 주지 못하는 biomarker&lt;/h3&gt;
&lt;p data-end=&quot;2963&quot; data-start=&quot;2911&quot; data-ke-size=&quot;size16&quot;&gt;Biomarker가 임상에서 사용되기 위해서는 단순히 질병과 연관된다는 사실만으로는 부족하다.&lt;/p&gt;
&lt;p data-end=&quot;2983&quot; data-start=&quot;2965&quot; data-ke-size=&quot;size16&quot;&gt;가장 중요한 질문은 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;3020&quot; data-start=&quot;2985&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 biomarker가 의사의 치료 결정을 바꿀 수 있는가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;3095&quot; data-start=&quot;3022&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 이미 정확한 진단 방법이 존재하는 질병에서 새로운 biomarker가 추가되더라도 실제 임상적 가치는 제한적일 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3137&quot; data-start=&quot;3097&quot; data-ke-size=&quot;size16&quot;&gt;반면 다음과 같은 상황에서는 biomarker의 가치가 높아질 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3180&quot; data-start=&quot;3139&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3151&quot; data-start=&quot;3139&quot; data-section-id=&quot;1hldr4t&quot;&gt;질병 조기 진단&lt;/li&gt;
&lt;li data-end=&quot;3164&quot; data-start=&quot;3152&quot; data-section-id=&quot;j75jng&quot;&gt;치료 반응 예측&lt;/li&gt;
&lt;li data-end=&quot;3180&quot; data-start=&quot;3165&quot; data-section-id=&quot;7tdqdn&quot;&gt;환자 맞춤 치료 결정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3232&quot; data-start=&quot;3182&quot; data-ke-size=&quot;size16&quot;&gt;많은 biomarker 연구는 이러한 임상 질문과 충분히 연결되지 않은 상태에서 진행된다.&lt;/p&gt;
&lt;h3 data-end=&quot;3243&quot; data-start=&quot;3239&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3331&quot; data-start=&quot;3245&quot; data-ke-size=&quot;size16&quot;&gt;Biomarker 연구는 현대 생명과학에서 매우 중요한 분야이다. 새로운 biomarker는 질병 진단과 치료 전략을 크게 변화시킬 잠재력을 가지고 있다.&lt;/p&gt;
&lt;p data-end=&quot;3434&quot; data-start=&quot;3333&quot; data-ke-size=&quot;size16&quot;&gt;하지만 discovery 단계에서 유망해 보이는 biomarker 후보가 실제 임상으로 이어지지 못하는 경우가 훨씬 더 많다. 그 이유는 대부분 다음과 같은 반복적인 패턴 때문이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3532&quot; data-start=&quot;3436&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3457&quot; data-start=&quot;3436&quot; data-section-id=&quot;11f6wys&quot;&gt;특정 cohort에 특화된 결과&lt;/li&gt;
&lt;li data-end=&quot;3469&quot; data-start=&quot;3458&quot; data-section-id=&quot;102dk3w&quot;&gt;통계적 과적합&lt;/li&gt;
&lt;li data-end=&quot;3483&quot; data-start=&quot;3470&quot; data-section-id=&quot;1hhqebx&quot;&gt;실험 조건 의존성&lt;/li&gt;
&lt;li data-end=&quot;3496&quot; data-start=&quot;3484&quot; data-section-id=&quot;s02jqx&quot;&gt;생물학적 변동성&lt;/li&gt;
&lt;li data-end=&quot;3510&quot; data-start=&quot;3497&quot; data-section-id=&quot;1p2p38c&quot;&gt;질병 특이성 부족&lt;/li&gt;
&lt;li data-end=&quot;3532&quot; data-start=&quot;3511&quot; data-section-id=&quot;1g6hnoq&quot;&gt;임상 workflow와의 불일치&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3654&quot; data-start=&quot;3534&quot; data-ke-size=&quot;size16&quot;&gt;결국 biomarker 연구의 가장 중요한 목표는 단순히 &lt;b&gt;차이가 있는 분자를 찾는 것&lt;/b&gt;이 아니다. 그보다 중요한 것은 &lt;b&gt;실제 환자 치료에 의미 있는 정보를 제공할 수 있는 biomarker를 찾는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;3747&quot; data-start=&quot;3656&quot; data-ke-size=&quot;size16&quot;&gt;이러한 관점에서 biomarker 연구는 discovery 단계보다 &lt;b&gt;validation과 임상 적용 단계에서 더 많은 도전&lt;/b&gt;을 포함하는 분야라고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Biomarker</category>
      <category>LC-MS</category>
      <category>validation</category>
      <category>임상 적용</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/425</guid>
      <comments>https://info-tistory.tistory.com/425#entry425comment</comments>
      <pubDate>Thu, 2 Apr 2026 20:54:27 +0900</pubDate>
    </item>
    <item>
      <title>Metabolomics 결과가 임상 의사결정으로 이어지지 못하는 이유</title>
      <link>https://info-tistory.tistory.com/424</link>
      <description>&lt;p data-end=&quot;72&quot; data-start=&quot;43&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 데이터는 많지만 &amp;lsquo;의미 있는 기준&amp;rsquo;은 부족한 현실&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;676&quot; data-origin-height=&quot;472&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/BxjTE/dJMcabcnfVu/Ey91ki2kn5kWkkXNNT8IQ0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/BxjTE/dJMcabcnfVu/Ey91ki2kn5kWkkXNNT8IQ0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/BxjTE/dJMcabcnfVu/Ey91ki2kn5kWkkXNNT8IQ0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FBxjTE%2FdJMcabcnfVu%2FEy91ki2kn5kWkkXNNT8IQ0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;676&quot; height=&quot;472&quot; data-origin-width=&quot;676&quot; data-origin-height=&quot;472&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;72&quot; data-start=&quot;43&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;242&quot; data-start=&quot;74&quot; data-ke-size=&quot;size16&quot;&gt;지난 15년 동안 &lt;b&gt;metabolomics 연구는 폭발적으로 증가&lt;/b&gt;했다. 고해상도 LC-MS/MS, Orbitrap, QTOF 같은 장비가 보편화되면서 수백에서 수천 개의 대사체를 동시에 측정하는 것이 가능해졌고, 수많은 논문에서 새로운 metabolite biomarker 후보가 보고되었다.&lt;/p&gt;
&lt;p data-end=&quot;292&quot; data-start=&quot;244&quot; data-ke-size=&quot;size16&quot;&gt;특히 다음과 같은 분야에서 metabolomics 연구는 매우 활발하게 진행되고 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;386&quot; data-start=&quot;294&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;305&quot; data-start=&quot;294&quot; data-section-id=&quot;43y0cs&quot;&gt;암 대사 연구&lt;/li&gt;
&lt;li data-end=&quot;329&quot; data-start=&quot;306&quot; data-section-id=&quot;1lh5nab&quot;&gt;심혈관 질환 biomarker 탐색&lt;/li&gt;
&lt;li data-end=&quot;341&quot; data-start=&quot;330&quot; data-section-id=&quot;1g6irvc&quot;&gt;대사질환 진단&lt;/li&gt;
&lt;li data-end=&quot;354&quot; data-start=&quot;342&quot; data-section-id=&quot;1wz9dqh&quot;&gt;약물 반응 예측&lt;/li&gt;
&lt;li data-end=&quot;386&quot; data-start=&quot;355&quot; data-section-id=&quot;1fpki1j&quot;&gt;microbiome&amp;ndash;host interaction&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;543&quot; data-start=&quot;388&quot; data-ke-size=&quot;size16&quot;&gt;그러나 이러한 연구 성과에도 불구하고 &lt;b&gt;실제 임상 의사결정(clinical decision making)에 사용되는 metabolomics 기반 검사&lt;/b&gt;는 생각보다 많지 않다. 논문에서는 수많은 biomarker가 제안되지만, 실제 병원 진료에서 사용되는 사례는 제한적이다.&lt;/p&gt;
&lt;p data-end=&quot;700&quot; data-start=&quot;545&quot; data-ke-size=&quot;size16&quot;&gt;이 현상은 단순히 기술이 부족해서 발생하는 문제가 아니다. 오히려 metabolomics 데이터가 &lt;b&gt;임상 의사결정 구조와 맞지 않는 방식으로 생산되는 경우가 많기 때문&lt;/b&gt;이다. 이 글에서는 metabolomics 결과가 임상으로 이어지지 못하는 주요 이유들을 살펴보고자 한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;736&quot; data-start=&quot;707&quot; data-section-id=&quot;1aa2h0e&quot; data-ke-size=&quot;size23&quot;&gt;1. 통계적 차이가 임상적 의미를 보장하지 않는다&lt;/h3&gt;
&lt;p data-end=&quot;776&quot; data-start=&quot;738&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 가장 흔한 분석 방식은 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;852&quot; data-start=&quot;778&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;795&quot; data-start=&quot;778&quot; data-section-id=&quot;1f2cry9&quot;&gt;환자군 vs 대조군 비교&lt;/li&gt;
&lt;li data-end=&quot;826&quot; data-start=&quot;796&quot; data-section-id=&quot;avl7lg&quot;&gt;differential metabolite 탐색&lt;/li&gt;
&lt;li data-end=&quot;852&quot; data-start=&quot;827&quot; data-section-id=&quot;oj7kwq&quot;&gt;pathway enrichment 분석&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;973&quot; data-start=&quot;854&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 특정 metabolite가 통계적으로 유의하게 변화한 것으로 나타날 수 있다. 예를 들어 p-value &amp;lt; 0.05 수준의 차이가 발견되면 해당 metabolite는 biomarker 후보로 제시된다.&lt;/p&gt;
&lt;p data-end=&quot;1055&quot; data-start=&quot;975&quot; data-ke-size=&quot;size16&quot;&gt;하지만 &lt;b&gt;통계적 유의성(statistical significance)&lt;/b&gt;은 임상적 유용성(clinical utility)을 의미하지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;1084&quot; data-start=&quot;1057&quot; data-ke-size=&quot;size16&quot;&gt;임상에서는 다음과 같은 질문이 훨씬 더 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1166&quot; data-start=&quot;1086&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1121&quot; data-start=&quot;1086&quot; data-section-id=&quot;ox7ndj&quot;&gt;이 biomarker가 환자 치료 결정을 바꿀 수 있는가&lt;/li&gt;
&lt;li data-end=&quot;1140&quot; data-start=&quot;1122&quot; data-section-id=&quot;1iiw0uw&quot;&gt;기존 검사보다 더 정확한가&lt;/li&gt;
&lt;li data-end=&quot;1166&quot; data-start=&quot;1141&quot; data-section-id=&quot;thmm6o&quot;&gt;특정 환자군을 실제로 구분할 수 있는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1302&quot; data-start=&quot;1168&quot; data-ke-size=&quot;size16&quot;&gt;많은 metabolomics 연구는 이러한 질문을 충분히 고려하지 않은 상태에서 biomarker를 제안한다. 결과적으로 통계적으로 의미 있는 metabolite가 발견되더라도 임상적으로는 &lt;b&gt;판단 기준으로 사용하기 어려운 경우&lt;/b&gt;가 많다.&lt;/p&gt;
&lt;h3 data-end=&quot;1329&quot; data-start=&quot;1309&quot; data-section-id=&quot;r1pnve&quot; data-ke-size=&quot;size23&quot;&gt;2. 개인 간 변동성이 매우 크다&lt;/h3&gt;
&lt;p data-end=&quot;1402&quot; data-start=&quot;1331&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터의 가장 큰 특징 중 하나는 &lt;b&gt;individual variability가 매우 크다는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1438&quot; data-start=&quot;1404&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite 수준은 다양한 요인에 의해 영향을 받는다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1493&quot; data-start=&quot;1440&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1449&quot; data-start=&quot;1440&quot; data-section-id=&quot;19q7guc&quot;&gt;식사 상태&lt;/li&gt;
&lt;li data-end=&quot;1456&quot; data-start=&quot;1450&quot; data-section-id=&quot;ctnx39&quot;&gt;운동&lt;/li&gt;
&lt;li data-end=&quot;1463&quot; data-start=&quot;1457&quot; data-section-id=&quot;dfbpvo&quot;&gt;수면&lt;/li&gt;
&lt;li data-end=&quot;1474&quot; data-start=&quot;1464&quot; data-section-id=&quot;1uz7o1s&quot;&gt;장내 미생물&lt;/li&gt;
&lt;li data-end=&quot;1484&quot; data-start=&quot;1475&quot; data-section-id=&quot;1govqk5&quot;&gt;약물 복용&lt;/li&gt;
&lt;li data-end=&quot;1493&quot; data-start=&quot;1485&quot; data-section-id=&quot;f9jes8&quot;&gt;스트레스&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1556&quot; data-start=&quot;1495&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인은 환자의 질병 상태와 직접적인 관련이 없더라도 metabolite 농도를 크게 변화시킬 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1637&quot; data-start=&quot;1558&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolite가 질병 환자에서 평균적으로 증가했다고 하더라도, 실제 임상 환경에서는 다음과 같은 문제가 발생할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1688&quot; data-start=&quot;1639&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1665&quot; data-start=&quot;1639&quot; data-section-id=&quot;7784az&quot;&gt;건강한 사람 중 일부도 높은 농도를 가짐&lt;/li&gt;
&lt;li data-end=&quot;1688&quot; data-start=&quot;1666&quot; data-section-id=&quot;vra9e1&quot;&gt;환자 중 일부는 정상 범위에 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1754&quot; data-start=&quot;1690&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황에서는 해당 metabolite를 &lt;b&gt;diagnostic threshold&lt;/b&gt;로 사용하기가 매우 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;1804&quot; data-start=&quot;1761&quot; data-section-id=&quot;aiv1kc&quot; data-ke-size=&quot;size23&quot;&gt;3. Untargeted metabolomics의 annotation 문제&lt;/h3&gt;
&lt;p data-end=&quot;1920&quot; data-start=&quot;1806&quot; data-ke-size=&quot;size16&quot;&gt;많은 metabolomics 연구는 &lt;b&gt;untargeted 방식&lt;/b&gt;으로 진행된다. 이 접근은 가능한 많은 metabolite feature를 탐색할 수 있다는 장점이 있지만, 동시에 중요한 한계를 가진다.&lt;/p&gt;
&lt;p data-end=&quot;1989&quot; data-start=&quot;1922&quot; data-ke-size=&quot;size16&quot;&gt;Untargeted LC-MS 분석에서는 수천 개의 signal이 검출되지만 그 중 상당수는 다음과 같은 상태로 남는다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2063&quot; data-start=&quot;1991&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2021&quot; data-start=&quot;1991&quot; data-section-id=&quot;1gvynkb&quot;&gt;정확한 metabolite identity 불명&lt;/li&gt;
&lt;li data-end=&quot;2039&quot; data-start=&quot;2022&quot; data-section-id=&quot;1b1wrj6&quot;&gt;isomer 구분 불가능&lt;/li&gt;
&lt;li data-end=&quot;2063&quot; data-start=&quot;2040&quot; data-section-id=&quot;bwxxgl&quot;&gt;fragmentation 정보 부족&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2152&quot; data-start=&quot;2065&quot; data-ke-size=&quot;size16&quot;&gt;즉 연구 결과에서 &amp;ldquo;m/z 347.123 feature&amp;rdquo;가 biomarker로 제안될 수 있지만 실제 임상에서는 이러한 형태의 정보가 거의 사용될 수 없다.&lt;/p&gt;
&lt;p data-end=&quot;2183&quot; data-start=&quot;2154&quot; data-ke-size=&quot;size16&quot;&gt;임상 검사에서는 다음과 같은 요소가 반드시 필요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2252&quot; data-start=&quot;2185&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2210&quot; data-start=&quot;2185&quot; data-section-id=&quot;1v3pdcm&quot;&gt;명확한 chemical identity&lt;/li&gt;
&lt;li data-end=&quot;2225&quot; data-start=&quot;2211&quot; data-section-id=&quot;1hmixk1&quot;&gt;정량 가능한 분석법&lt;/li&gt;
&lt;li data-end=&quot;2252&quot; data-start=&quot;2226&quot; data-section-id=&quot;gak2y5&quot;&gt;재현 가능한 reference range&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2295&quot; data-start=&quot;2254&quot; data-ke-size=&quot;size16&quot;&gt;annotation이 불확실한 상태에서는 이러한 조건을 만족시키기 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;2320&quot; data-start=&quot;2302&quot; data-section-id=&quot;19uekmw&quot; data-ke-size=&quot;size23&quot;&gt;4. 분석 방법의 표준화 부족&lt;/h3&gt;
&lt;p data-end=&quot;2389&quot; data-start=&quot;2322&quot; data-ke-size=&quot;size16&quot;&gt;임상 진단에 사용되는 검사 방법은 매우 높은 수준의 표준화를 요구한다. 예를 들어 다음과 같은 요소가 엄격하게 관리된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2466&quot; data-start=&quot;2391&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2412&quot; data-start=&quot;2391&quot; data-section-id=&quot;2om8c8&quot;&gt;sample collection&lt;/li&gt;
&lt;li data-end=&quot;2427&quot; data-start=&quot;2413&quot; data-section-id=&quot;1khsc6t&quot;&gt;storage 조건&lt;/li&gt;
&lt;li data-end=&quot;2437&quot; data-start=&quot;2428&quot; data-section-id=&quot;1sgd831&quot;&gt;분석 방법&lt;/li&gt;
&lt;li data-end=&quot;2456&quot; data-start=&quot;2438&quot; data-section-id=&quot;nuvcxe&quot;&gt;calibration 기준&lt;/li&gt;
&lt;li data-end=&quot;2466&quot; data-start=&quot;2457&quot; data-section-id=&quot;1q4ppue&quot;&gt;QC 관리&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2514&quot; data-start=&quot;2468&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolomics 연구에서는 실험 조건이 연구마다 크게 다를 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2538&quot; data-start=&quot;2516&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 차이가 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2640&quot; data-start=&quot;2540&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2562&quot; data-start=&quot;2540&quot; data-section-id=&quot;1mnfu0k&quot;&gt;extraction solvent&lt;/li&gt;
&lt;li data-end=&quot;2584&quot; data-start=&quot;2563&quot; data-section-id=&quot;judc0o&quot;&gt;chromatography 조건&lt;/li&gt;
&lt;li data-end=&quot;2611&quot; data-start=&quot;2585&quot; data-section-id=&quot;wt9nzv&quot;&gt;mass spectrometer type&lt;/li&gt;
&lt;li data-end=&quot;2640&quot; data-start=&quot;2612&quot; data-section-id=&quot;gdhl4h&quot;&gt;data processing pipeline&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2750&quot; data-start=&quot;2642&quot; data-ke-size=&quot;size16&quot;&gt;이러한 차이 때문에 동일한 metabolite라도 연구마다 결과가 달라질 수 있다. 결과적으로 특정 metabolite biomarker가 여러 연구에서 일관되게 재현되지 않는 경우가 발생한다.&lt;/p&gt;
&lt;h3 data-end=&quot;2797&quot; data-start=&quot;2757&quot; data-section-id=&quot;1w517er&quot; data-ke-size=&quot;size23&quot;&gt;5. 임상 의사결정은 단일 biomarker보다 복합 기준을 요구한다&lt;/h3&gt;
&lt;p data-end=&quot;2860&quot; data-start=&quot;2799&quot; data-ke-size=&quot;size16&quot;&gt;임상 의사결정은 단순히 한 가지 수치에 기반하지 않는 경우가 많다. 의사는 보통 여러 정보를 동시에 고려한다.&lt;/p&gt;
&lt;p data-end=&quot;2888&quot; data-start=&quot;2862&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 요소들이 함께 사용된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2929&quot; data-start=&quot;2890&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2899&quot; data-start=&quot;2890&quot; data-section-id=&quot;6i9s58&quot;&gt;환자 증상&lt;/li&gt;
&lt;li data-end=&quot;2912&quot; data-start=&quot;2900&quot; data-section-id=&quot;19llq08&quot;&gt;영상 검사 결과&lt;/li&gt;
&lt;li data-end=&quot;2922&quot; data-start=&quot;2913&quot; data-section-id=&quot;1c0esh9&quot;&gt;혈액 검사&lt;/li&gt;
&lt;li data-end=&quot;2929&quot; data-start=&quot;2923&quot; data-section-id=&quot;1v0iy7w&quot;&gt;병력&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3009&quot; data-start=&quot;2931&quot; data-ke-size=&quot;size16&quot;&gt;따라서 metabolomics 연구에서 제안되는 단일 metabolite biomarker는 실제 임상 의사결정 구조와 맞지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3120&quot; data-start=&quot;3011&quot; data-ke-size=&quot;size16&quot;&gt;최근에는 여러 metabolite를 결합한 &lt;b&gt;metabolic signature&lt;/b&gt; 또는 &lt;b&gt;predictive model&lt;/b&gt;이 제안되기도 하지만, 이러한 모델 역시 다음과 같은 문제를 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3183&quot; data-start=&quot;3122&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3145&quot; data-start=&quot;3122&quot; data-section-id=&quot;jqwzcz&quot;&gt;다른 cohort에서 재현되지 않음&lt;/li&gt;
&lt;li data-end=&quot;3157&quot; data-start=&quot;3146&quot; data-section-id=&quot;vv43fp&quot;&gt;해석이 어려움&lt;/li&gt;
&lt;li data-end=&quot;3183&quot; data-start=&quot;3158&quot; data-section-id=&quot;1ucks8a&quot;&gt;임상 workflow에 통합하기 어려움&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 data-end=&quot;3211&quot; data-start=&quot;3190&quot; data-section-id=&quot;e6dldr&quot; data-ke-size=&quot;size23&quot;&gt;6. 임상 질문과 연구 질문의 차이&lt;/h3&gt;
&lt;p data-end=&quot;3258&quot; data-start=&quot;3213&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구와 임상 의학은 종종 &lt;b&gt;서로 다른 질문을 다룬다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;3285&quot; data-start=&quot;3260&quot; data-ke-size=&quot;size16&quot;&gt;연구자들은 다음과 같은 질문에 관심을 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3349&quot; data-start=&quot;3287&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3315&quot; data-start=&quot;3287&quot; data-section-id=&quot;w5tjdx&quot;&gt;질병에서 어떤 metabolite가 변하는가&lt;/li&gt;
&lt;li data-end=&quot;3349&quot; data-start=&quot;3316&quot; data-section-id=&quot;1r2rab&quot;&gt;어떤 metabolic pathway가 영향을 받는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3373&quot; data-start=&quot;3351&quot; data-ke-size=&quot;size16&quot;&gt;반면 임상의는 다음과 같은 질문을 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3441&quot; data-start=&quot;3375&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3399&quot; data-start=&quot;3375&quot; data-section-id=&quot;173imk7&quot;&gt;이 환자는 어떤 치료를 받아야 하는가&lt;/li&gt;
&lt;li data-end=&quot;3420&quot; data-start=&quot;3400&quot; data-section-id=&quot;vx2zjw&quot;&gt;치료 반응을 예측할 수 있는가&lt;/li&gt;
&lt;li data-end=&quot;3441&quot; data-start=&quot;3421&quot; data-section-id=&quot;h5udpx&quot;&gt;질병 진행을 예측할 수 있는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3528&quot; data-start=&quot;3443&quot; data-ke-size=&quot;size16&quot;&gt;즉 metabolomics 연구가 biological mechanism을 이해하는 데 집중하는 동안, 임상은 &lt;b&gt;의사결정을 돕는 정보&lt;/b&gt;를 필요로 한다.&lt;/p&gt;
&lt;p data-end=&quot;3593&quot; data-start=&quot;3530&quot; data-ke-size=&quot;size16&quot;&gt;이 두 질문 구조 사이의 차이가 metabolomics 결과가 임상으로 이어지지 못하는 중요한 이유 중 하나이다.&lt;/p&gt;
&lt;h3 data-end=&quot;3624&quot; data-start=&quot;3600&quot; data-section-id=&quot;1lgoohe&quot; data-ke-size=&quot;size23&quot;&gt;7. 임상 적용을 위해 필요한 추가 단계&lt;/h3&gt;
&lt;p data-end=&quot;3678&quot; data-start=&quot;3626&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 결과가 실제 임상으로 이어지기 위해서는 몇 가지 추가 단계가 필요하다.&lt;/p&gt;
&lt;p data-end=&quot;3770&quot; data-start=&quot;3680&quot; data-ke-size=&quot;size16&quot;&gt;첫째, &lt;b&gt;targeted validation&lt;/b&gt;이다. untargeted 분석에서 발견된 후보 metabolite는 정확한 정량 분석법을 통해 검증되어야 한다.&lt;/p&gt;
&lt;p data-end=&quot;3840&quot; data-start=&quot;3772&quot; data-ke-size=&quot;size16&quot;&gt;둘째, &lt;b&gt;대규모 cohort 검증&lt;/b&gt;이다. 다양한 환자군에서 biomarker 성능이 일관되게 유지되는지 확인해야 한다.&lt;/p&gt;
&lt;p data-end=&quot;3907&quot; data-start=&quot;3842&quot; data-ke-size=&quot;size16&quot;&gt;셋째, &lt;b&gt;임상 workflow 통합&lt;/b&gt;이다. 검사 결과가 실제 진료 과정에서 쉽게 해석되고 활용될 수 있어야 한다.&lt;/p&gt;
&lt;p data-end=&quot;3983&quot; data-start=&quot;3909&quot; data-ke-size=&quot;size16&quot;&gt;이러한 과정은 시간과 비용이 많이 들기 때문에 많은 metabolomics 연구가 초기 biomarker 발견 단계에서 멈추게 된다.&lt;/p&gt;
&lt;h3 data-end=&quot;3994&quot; data-start=&quot;3990&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4131&quot; data-start=&quot;3996&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구는 질병의 대사적 특성을 이해하는 데 매우 강력한 도구이다. 수많은 연구에서 새로운 metabolic biomarker 후보가 제안되고 있으며, 이러한 결과는 생물학적 메커니즘을 이해하는 데 중요한 정보를 제공한다.&lt;/p&gt;
&lt;p data-end=&quot;4230&quot; data-start=&quot;4133&quot; data-ke-size=&quot;size16&quot;&gt;하지만 &lt;b&gt;연구 결과가 임상 의사결정으로 이어지기 위해서는 추가적인 조건이 필요하다.&lt;/b&gt; biomarker는 단순히 통계적으로 유의한 차이를 보이는 것만으로는 충분하지 않다.&lt;/p&gt;
&lt;p data-end=&quot;4270&quot; data-start=&quot;4232&quot; data-ke-size=&quot;size16&quot;&gt;임상에서 사용되기 위해서는 다음과 같은 요소가 함께 충족되어야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4362&quot; data-start=&quot;4272&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4295&quot; data-start=&quot;4272&quot; data-section-id=&quot;7cntx9&quot;&gt;개인 간 변동성을 고려한 기준 설정&lt;/li&gt;
&lt;li data-end=&quot;4329&quot; data-start=&quot;4296&quot; data-section-id=&quot;1eyc31m&quot;&gt;명확한 metabolite identification&lt;/li&gt;
&lt;li data-end=&quot;4344&quot; data-start=&quot;4330&quot; data-section-id=&quot;1snl449&quot;&gt;표준화된 분석 방법&lt;/li&gt;
&lt;li data-end=&quot;4362&quot; data-start=&quot;4345&quot; data-section-id=&quot;1laqqp&quot;&gt;실제 임상 질문과의 연결&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4475&quot; data-start=&quot;4364&quot; data-ke-size=&quot;size16&quot;&gt;결국 metabolomics의 진정한 가치는 단순히 많은 metabolite를 측정하는 데 있는 것이 아니라, &lt;b&gt;그 정보를 실제 환자 치료에 의미 있는 방식으로 연결하는 데&lt;/b&gt; 있다고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>metabolomics</category>
      <category>targeted validation</category>
      <category>대규모 cohort</category>
      <category>임상 workflow 통합</category>
      <category>임상 의사결정</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/424</guid>
      <comments>https://info-tistory.tistory.com/424#entry424comment</comments>
      <pubDate>Wed, 1 Apr 2026 20:41:51 +0900</pubDate>
    </item>
    <item>
      <title>데이터 통합보다 중요한 &amp;lsquo;질문 설계&amp;rsquo;의 역할</title>
      <link>https://info-tistory.tistory.com/423</link>
      <description>&lt;p data-end=&quot;64&quot; data-start=&quot;29&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; Multi-omics 연구에서 가장 먼저 결정되어야 하는 것&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;844&quot; data-origin-height=&quot;506&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/zDSOY/dJMcaio36ac/HaKcSuKCltuDHyxkVHjxd0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/zDSOY/dJMcaio36ac/HaKcSuKCltuDHyxkVHjxd0/img.png&quot; data-alt=&quot;데이터 통합보다 중요한 &amp;amp;lsquo;질문 설계&amp;amp;rsquo;의 역할&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/zDSOY/dJMcaio36ac/HaKcSuKCltuDHyxkVHjxd0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FzDSOY%2FdJMcaio36ac%2FHaKcSuKCltuDHyxkVHjxd0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;데이터 통합보다 중요한 &amp;lsquo;질문 설계&amp;rsquo;의 역할&quot; loading=&quot;lazy&quot; width=&quot;844&quot; height=&quot;506&quot; data-origin-width=&quot;844&quot; data-origin-height=&quot;506&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;데이터 통합보다 중요한 &amp;lsquo;질문 설계&amp;rsquo;의 역할&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;277&quot; data-start=&quot;66&quot; data-ke-size=&quot;size16&quot;&gt;최근 생명과학 연구에서 &lt;b&gt;multi-omics 통합 분석&lt;/b&gt;은 하나의 표준 전략처럼 자리 잡았다. 유전체(genomics), 전사체(transcriptomics), 단백질체(proteomics), 대사체(metabolomics)를 함께 분석하면 생물학적 시스템을 훨씬 더 깊이 이해할 수 있을 것이라는 기대 때문이다. 실제로 많은 연구 프로젝트는 다음과 같은 구조로 설계된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;356&quot; data-start=&quot;279&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;297&quot; data-start=&quot;279&quot; data-section-id=&quot;1gp7je&quot;&gt;RNA-seq 데이터 확보&lt;/li&gt;
&lt;li data-end=&quot;319&quot; data-start=&quot;298&quot; data-section-id=&quot;1c806my&quot;&gt;Proteomics 데이터 확보&lt;/li&gt;
&lt;li data-end=&quot;343&quot; data-start=&quot;320&quot; data-section-id=&quot;j7r0ca&quot;&gt;Metabolomics 데이터 확보&lt;/li&gt;
&lt;li data-end=&quot;356&quot; data-start=&quot;344&quot; data-section-id=&quot;naxekc&quot;&gt;통합 분석 수행&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;523&quot; data-start=&quot;358&quot; data-ke-size=&quot;size16&quot;&gt;그리고 마지막 단계에서 network 분석이나 pathway 분석을 통해 biological insight를 도출한다. 이러한 연구 설계는 매우 자연스럽게 보인다. 그러나 실제 연구를 진행해 보면 한 가지 중요한 문제가 나타난다. &lt;b&gt;데이터는 많지만 질문이 모호한 상태&lt;/b&gt;가 만들어지기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;672&quot; data-start=&quot;525&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 연구가 기대만큼 강력한 결론을 만들어내지 못하는 이유 중 하나는 바로 이 지점에 있다. 연구 설계의 중심이 &amp;ldquo;어떤 데이터를 모을 것인가&amp;rdquo;에 맞춰지고, &amp;ldquo;어떤 질문을 해결할 것인가&amp;rdquo;는 상대적으로 뒤로 밀리는 경우가 많기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;817&quot; data-start=&quot;674&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제로는 그 반대에 가깝다. multi-omics 연구에서 가장 먼저 결정되어야 할 것은 데이터 종류가 아니라 &lt;b&gt;질문 구조(question architecture)&lt;/b&gt;이다. 질문이 명확하지 않으면 데이터가 많아질수록 해석은 오히려 더 어려워진다.&lt;/p&gt;
&lt;h3 data-end=&quot;859&quot; data-start=&quot;824&quot; data-section-id=&quot;164svq&quot; data-ke-size=&quot;size23&quot;&gt;1. Multi-omics 연구가 자주 빠지는 출발점의 오류&lt;/h3&gt;
&lt;p data-end=&quot;899&quot; data-start=&quot;861&quot; data-ke-size=&quot;size16&quot;&gt;많은 multi-omics 프로젝트는 다음과 같은 방식으로 시작된다.&lt;/p&gt;
&lt;p data-end=&quot;927&quot; data-start=&quot;901&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;가능한 많은 omics 데이터를 모아 보자.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;1040&quot; data-start=&quot;929&quot; data-ke-size=&quot;size16&quot;&gt;이 접근은 겉보기에는 합리적이다. 다양한 biological layer를 동시에 분석하면 더 많은 정보를 얻을 수 있기 때문이다. 하지만 이런 방식의 연구 설계는 종종 다음과 같은 상황으로 이어진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1142&quot; data-start=&quot;1042&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1083&quot; data-start=&quot;1042&quot; data-section-id=&quot;zigk42&quot;&gt;transcriptomics 결과와 proteomics 결과가 다름&lt;/li&gt;
&lt;li data-end=&quot;1117&quot; data-start=&quot;1084&quot; data-section-id=&quot;t06npb&quot;&gt;metabolomics 결과가 또 다른 방향을 가리킴&lt;/li&gt;
&lt;li data-end=&quot;1142&quot; data-start=&quot;1118&quot; data-section-id=&quot;s0xh3u&quot;&gt;pathway 분석 결과가 서로 충돌&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1230&quot; data-start=&quot;1144&quot; data-ke-size=&quot;size16&quot;&gt;결국 연구자는 수천 개의 feature와 수십 개의 pathway 결과를 가지고 있지만, &lt;b&gt;무엇을 설명해야 하는지 명확하지 않은 상태&lt;/b&gt;에 놓이게 된다.&lt;/p&gt;
&lt;p data-end=&quot;1285&quot; data-start=&quot;1232&quot; data-ke-size=&quot;size16&quot;&gt;이 문제의 핵심은 데이터가 부족한 것이 아니라 &lt;b&gt;질문이 충분히 구조화되지 않았다는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1315&quot; data-start=&quot;1292&quot; data-section-id=&quot;hvv5c5&quot; data-ke-size=&quot;size23&quot;&gt;2. 좋은 질문은 분석 구조를 결정한다&lt;/h3&gt;
&lt;p data-end=&quot;1373&quot; data-start=&quot;1317&quot; data-ke-size=&quot;size16&quot;&gt;연구 질문은 단순한 출발점 이상의 의미를 가진다. 질문은 다음과 같은 연구 요소들을 동시에 결정한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1483&quot; data-start=&quot;1375&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1400&quot; data-start=&quot;1375&quot; data-section-id=&quot;xld845&quot;&gt;어떤 omics 데이터를 사용할 것인가&lt;/li&gt;
&lt;li data-end=&quot;1422&quot; data-start=&quot;1401&quot; data-section-id=&quot;1bwxr3a&quot;&gt;어떤 실험 설계를 사용할 것인가&lt;/li&gt;
&lt;li data-end=&quot;1444&quot; data-start=&quot;1423&quot; data-section-id=&quot;oxuw1v&quot;&gt;어떤 통계 모델을 사용할 것인가&lt;/li&gt;
&lt;li data-end=&quot;1483&quot; data-start=&quot;1445&quot; data-section-id=&quot;1o4z7lz&quot;&gt;어떤 결과를 biological insight로 해석할 것인가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1660&quot; data-start=&quot;1485&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 &amp;ldquo;질병 환자에서 어떤 metabolite가 변하는가?&amp;rdquo;라는 질문은 metabolomics 중심 연구로 이어진다. 반면 &amp;ldquo;이 질병에서 metabolic pathway가 어떻게 조절되는가?&amp;rdquo;라는 질문은 transcriptomics, proteomics, metabolomics의 결합을 필요로 할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1703&quot; data-start=&quot;1662&quot; data-ke-size=&quot;size16&quot;&gt;즉 &lt;b&gt;질문 구조 자체가 multi-omics 통합의 방향을 결정한다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;1728&quot; data-start=&quot;1710&quot; data-section-id=&quot;w6hh6y&quot; data-ke-size=&quot;size23&quot;&gt;3. 데이터 중심 연구의 위험&lt;/h3&gt;
&lt;p data-end=&quot;1790&quot; data-start=&quot;1730&quot; data-ke-size=&quot;size16&quot;&gt;질문보다 데이터 확보가 먼저 이루어질 때 발생하는 가장 큰 문제는 &lt;b&gt;해석의 방향성이 사라진다는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1850&quot; data-start=&quot;1792&quot; data-ke-size=&quot;size16&quot;&gt;Omics 데이터는 기본적으로 매우 높은 차원을 가진다. 예를 들어 다음과 같은 규모의 데이터가 흔하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1965&quot; data-start=&quot;1852&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1883&quot; data-start=&quot;1852&quot; data-section-id=&quot;1ys005m&quot;&gt;RNA expression: 20,000 gene&lt;/li&gt;
&lt;li data-end=&quot;1920&quot; data-start=&quot;1884&quot; data-section-id=&quot;1so3a5q&quot;&gt;protein abundance: 5,000 protein&lt;/li&gt;
&lt;li data-end=&quot;1965&quot; data-start=&quot;1921&quot; data-section-id=&quot;aohg51&quot;&gt;metabolite feature: 1,000&amp;ndash;10,000 feature&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2060&quot; data-start=&quot;1967&quot; data-ke-size=&quot;size16&quot;&gt;이러한 데이터는 통계적으로 수많은 패턴을 만들어낼 수 있다. 그러나 이 패턴 중 상당수는 실제 biological mechanism과 직접적인 관련이 없을 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;2195&quot; data-start=&quot;2062&quot; data-ke-size=&quot;size16&quot;&gt;질문이 명확하지 않으면 연구자는 결국 데이터 안에서 &lt;b&gt;흥미로운 패턴을 찾는 작업&lt;/b&gt;을 하게 된다. 이 과정에서 발견된 결과는 통계적으로 의미가 있어 보일 수 있지만 실제 biological question과 연결되지 않을 가능성이 높다.&lt;/p&gt;
&lt;h3 data-end=&quot;2219&quot; data-start=&quot;2202&quot; data-section-id=&quot;pvy9o9&quot; data-ke-size=&quot;size23&quot;&gt;4. 질문 중심 연구의 특징&lt;/h3&gt;
&lt;p data-end=&quot;2259&quot; data-start=&quot;2221&quot; data-ke-size=&quot;size16&quot;&gt;질문 중심 연구는 데이터 중심 연구와 몇 가지 중요한 차이를 가진다.&lt;/p&gt;
&lt;p data-end=&quot;2343&quot; data-start=&quot;2261&quot; data-ke-size=&quot;size16&quot;&gt;첫째, &lt;b&gt;연구의 초점이 명확하다.&lt;/b&gt;&lt;br /&gt;어떤 biological mechanism을 이해하려는지 명확하기 때문에 데이터 해석의 방향이 분명하다.&lt;/p&gt;
&lt;p data-end=&quot;2423&quot; data-start=&quot;2345&quot; data-ke-size=&quot;size16&quot;&gt;둘째, &lt;b&gt;필요한 데이터만 수집한다.&lt;/b&gt;&lt;br /&gt;모든 omics 데이터를 동시에 확보하려 하기보다, 질문에 직접적으로 필요한 데이터에 집중한다.&lt;/p&gt;
&lt;p data-end=&quot;2500&quot; data-start=&quot;2425&quot; data-ke-size=&quot;size16&quot;&gt;셋째, &lt;b&gt;결과 해석이 일관성을 가진다.&lt;/b&gt;&lt;br /&gt;다양한 분석 결과가 동일한 biological hypothesis를 중심으로 연결된다.&lt;/p&gt;
&lt;p data-end=&quot;2576&quot; data-start=&quot;2502&quot; data-ke-size=&quot;size16&quot;&gt;이러한 구조에서는 multi-omics 데이터가 단순한 정보의 집합이 아니라 &lt;b&gt;특정 가설을 검증하기 위한 증거 체계&lt;/b&gt;로 작동한다.&lt;/p&gt;
&lt;h3 data-end=&quot;2607&quot; data-start=&quot;2583&quot; data-section-id=&quot;1gajxuf&quot; data-ke-size=&quot;size23&quot;&gt;5. 질문이 없을 때 나타나는 흔한 패턴&lt;/h3&gt;
&lt;p data-end=&quot;2661&quot; data-start=&quot;2609&quot; data-ke-size=&quot;size16&quot;&gt;질문 구조가 명확하지 않은 multi-omics 연구에서는 몇 가지 반복적인 패턴이 나타난다.&lt;/p&gt;
&lt;p data-end=&quot;2716&quot; data-start=&quot;2663&quot; data-ke-size=&quot;size16&quot;&gt;가장 흔한 것은 &lt;b&gt;pathway 중심 결론&lt;/b&gt;이다. 연구 결과는 다음과 같은 형태로 정리된다.&lt;/p&gt;
&lt;p data-end=&quot;2768&quot; data-start=&quot;2718&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;여러 omics 분석 결과 glycolysis pathway가 변화한 것으로 나타났다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;2866&quot; data-start=&quot;2770&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이러한 결론은 종종 구체적인 biological mechanism을 설명하지 못한다. pathway 분석 결과 자체가 연구 질문을 대신하는 상황이 발생하기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;2999&quot; data-start=&quot;2868&quot; data-ke-size=&quot;size16&quot;&gt;또 다른 패턴은 &lt;b&gt;feature 리스트 중심 결과&lt;/b&gt;이다. 수십 개 또는 수백 개의 gene, protein, metabolite가 변화했다는 결과가 제시되지만, 이 변화가 어떤 생물학적 의미를 가지는지는 명확하지 않은 경우가 많다.&lt;/p&gt;
&lt;h3 data-end=&quot;3027&quot; data-start=&quot;3006&quot; data-section-id=&quot;18t8e8i&quot; data-ke-size=&quot;size23&quot;&gt;6. 질문 설계가 특히 중요한 이유&lt;/h3&gt;
&lt;p data-end=&quot;3113&quot; data-start=&quot;3029&quot; data-ke-size=&quot;size16&quot;&gt;질문 설계는 단순히 연구 방향을 정하는 것 이상의 역할을 한다. 특히 multi-omics 연구에서는 다음과 같은 이유로 질문 구조가 더욱 중요해진다.&lt;/p&gt;
&lt;p data-end=&quot;3227&quot; data-start=&quot;3115&quot; data-ke-size=&quot;size16&quot;&gt;첫 번째 이유는 &lt;b&gt;데이터 해석의 복잡성&lt;/b&gt;이다. 서로 다른 omics 데이터는 서로 다른 시간 스케일과 생물학적 의미를 가진다. 따라서 명확한 질문이 없으면 데이터 간 관계를 해석하기가 매우 어렵다.&lt;/p&gt;
&lt;p data-end=&quot;3358&quot; data-start=&quot;3229&quot; data-ke-size=&quot;size16&quot;&gt;두 번째 이유는 &lt;b&gt;통계적 자유도&lt;/b&gt;이다. multi-omics 데이터는 변수 수가 매우 많기 때문에 다양한 분석 결과를 만들어낼 수 있다. 질문이 명확하지 않으면 연구자는 의도하지 않게 특정 결과만 선택적으로 해석할 위험이 있다.&lt;/p&gt;
&lt;p data-end=&quot;3465&quot; data-start=&quot;3360&quot; data-ke-size=&quot;size16&quot;&gt;세 번째 이유는 &lt;b&gt;재현성 문제&lt;/b&gt;이다. 질문 중심 연구는 다른 연구에서도 동일한 구조로 검증될 가능성이 높다. 반면 데이터 중심 연구는 특정 dataset에 특화된 패턴일 가능성이 크다.&lt;/p&gt;
&lt;h3 data-end=&quot;3486&quot; data-start=&quot;3472&quot; data-section-id=&quot;1b3swgg&quot; data-ke-size=&quot;size23&quot;&gt;7. 좋은 질문의 특징&lt;/h3&gt;
&lt;p data-end=&quot;3511&quot; data-start=&quot;3488&quot; data-ke-size=&quot;size16&quot;&gt;좋은 연구 질문은 몇 가지 특징을 가진다.&lt;/p&gt;
&lt;p data-end=&quot;3576&quot; data-start=&quot;3513&quot; data-ke-size=&quot;size16&quot;&gt;첫째, &lt;b&gt;생물학적 메커니즘을 포함한다.&lt;/b&gt;&lt;br /&gt;단순히 무엇이 변하는지를 묻기보다 왜 변화하는지를 설명하려 한다.&lt;/p&gt;
&lt;p data-end=&quot;3636&quot; data-start=&quot;3578&quot; data-ke-size=&quot;size16&quot;&gt;둘째, &lt;b&gt;측정 가능한 형태를 가진다.&lt;/b&gt;&lt;br /&gt;실험이나 데이터 분석을 통해 검증 가능한 질문이어야 한다.&lt;/p&gt;
&lt;p data-end=&quot;3771&quot; data-start=&quot;3638&quot; data-ke-size=&quot;size16&quot;&gt;셋째, &lt;b&gt;여러 omics 데이터를 연결할 수 있다.&lt;/b&gt;&lt;br /&gt;예를 들어 enzyme regulation, metabolic flux, signaling pathway와 같은 질문은 자연스럽게 multi-omics 데이터를 통합할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3782&quot; data-start=&quot;3778&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;3869&quot; data-start=&quot;3784&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 연구는 생물학적 시스템을 이해하는 강력한 접근 방법이다. 그러나 데이터의 양이 많아질수록 연구가 자동으로 더 깊어지는 것은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;3973&quot; data-start=&quot;3871&quot; data-ke-size=&quot;size16&quot;&gt;실제로 많은 연구에서 가장 큰 차이를 만드는 요소는 데이터 종류가 아니라 &lt;b&gt;질문 구조&lt;/b&gt;이다. 어떤 질문을 던지느냐에 따라 동일한 데이터에서도 완전히 다른 해석이 가능하기 때문이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4096&quot; data-start=&quot;3975&quot; data-ke-size=&quot;size16&quot;&gt;결국 multi-omics 통합 분석의 핵심은 데이터를 최대한 많이 모으는 것이 아니다. &lt;b&gt;어떤 질문을 해결하려는지 명확하게 정의하고, 그 질문을 중심으로 데이터를 해석하는 것&lt;/b&gt;이 훨씬 더 중요한 출발점이 된다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>multi-omics 통합 분석</category>
      <category>데이터 해석</category>
      <category>생물학적 메커니즘</category>
      <category>여러 omics 데이터</category>
      <category>질문 구조</category>
      <category>측정 가능한 형태</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/423</guid>
      <comments>https://info-tistory.tistory.com/423#entry423comment</comments>
      <pubDate>Tue, 31 Mar 2026 20:46:24 +0900</pubDate>
    </item>
    <item>
      <title>Multi-omics 통합에서 가장 먼저 무너지는 가정들</title>
      <link>https://info-tistory.tistory.com/422</link>
      <description>&lt;p data-end=&quot;64&quot; data-start=&quot;36&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 데이터가 많아질수록 해석이 쉬워질 것이라는 착각&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;570&quot; data-origin-height=&quot;406&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/RqCtu/dJMcac3pJ0B/ti0B2A9Cv2ujK4FS35UCfk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/RqCtu/dJMcac3pJ0B/ti0B2A9Cv2ujK4FS35UCfk/img.png&quot; data-alt=&quot;Multi-omics 통합에서 가장 먼저 무너지는 가정들&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/RqCtu/dJMcac3pJ0B/ti0B2A9Cv2ujK4FS35UCfk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FRqCtu%2FdJMcac3pJ0B%2Fti0B2A9Cv2ujK4FS35UCfk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Multi-omics 통합에서 가장 먼저 무너지는 가정들&quot; loading=&quot;lazy&quot; width=&quot;570&quot; height=&quot;406&quot; data-origin-width=&quot;570&quot; data-origin-height=&quot;406&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Multi-omics 통합에서 가장 먼저 무너지는 가정들&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;231&quot; data-start=&quot;66&quot; data-ke-size=&quot;size16&quot;&gt;최근 생명과학 연구에서 &lt;b&gt;multi-omics&lt;/b&gt;는 거의 하나의 표준 전략처럼 받아들여지고 있다. 유전체, 전사체, 단백질체, 대사체 데이터를 함께 분석하면 생물학적 시스템을 훨씬 더 정확하게 이해할 수 있을 것이라는 기대 때문이다. 실제로 많은 연구 설계는 다음과 같은 논리 위에서 출발한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;344&quot; data-start=&quot;233&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;258&quot; data-start=&quot;233&quot; data-section-id=&quot;tip244&quot;&gt;genomics &amp;rarr; 가능한 유전자 변화&lt;/li&gt;
&lt;li data-end=&quot;289&quot; data-start=&quot;259&quot; data-section-id=&quot;1stdcj&quot;&gt;transcriptomics &amp;rarr; 실제 발현 변화&lt;/li&gt;
&lt;li data-end=&quot;316&quot; data-start=&quot;290&quot; data-section-id=&quot;kvlu0x&quot;&gt;proteomics &amp;rarr; 기능 단백질 수준&lt;/li&gt;
&lt;li data-end=&quot;344&quot; data-start=&quot;317&quot; data-section-id=&quot;m3aur9&quot;&gt;metabolomics &amp;rarr; 최종 대사 상태&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;515&quot; data-start=&quot;346&quot; data-ke-size=&quot;size16&quot;&gt;이렇게 서로 다른 층위의 정보를 연결하면 질병 메커니즘을 보다 명확하게 설명할 수 있을 것처럼 보인다. 하지만 실제 연구를 진행해 보면 예상과는 다른 현실을 마주하게 되는 경우가 많다. 여러 omics 데이터를 통합했는데도 결과 해석이 더 명확해지기는커녕 오히려 더 복잡해지는 상황이 나타나기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;663&quot; data-start=&quot;517&quot; data-ke-size=&quot;size16&quot;&gt;그 이유는 multi-omics 연구가 몇 가지 &lt;b&gt;암묵적인 가정&lt;/b&gt; 위에서 진행되기 때문이다. 그리고 실제 데이터에서는 이 가정들이 생각보다 빠르게 무너진다. 이 글에서는 multi-omics 통합 분석에서 가장 먼저 깨지는 대표적인 가정들을 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;714&quot; data-start=&quot;670&quot; data-section-id=&quot;13s5kf3&quot; data-ke-size=&quot;size23&quot;&gt;1. &amp;ldquo;각 omics는 같은 생물학적 현상을 다른 각도에서 보여준다&amp;rdquo;는 가정&lt;/h3&gt;
&lt;p data-end=&quot;815&quot; data-start=&quot;716&quot; data-ke-size=&quot;size16&quot;&gt;multi-omics 연구의 가장 기본적인 가정은 이것이다. 서로 다른 omics 데이터는 동일한 biological process를 서로 다른 층위에서 보여준다는 생각이다.&lt;/p&gt;
&lt;p data-end=&quot;877&quot; data-start=&quot;817&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolic pathway가 활성화되었다면 다음과 같은 변화가 나타날 것으로 기대한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;938&quot; data-start=&quot;879&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;895&quot; data-start=&quot;879&quot; data-section-id=&quot;nk0981&quot;&gt;관련 유전자 발현 증가&lt;/li&gt;
&lt;li data-end=&quot;919&quot; data-start=&quot;896&quot; data-section-id=&quot;1s0y1ll&quot;&gt;관련 단백질 abundance 증가&lt;/li&gt;
&lt;li data-end=&quot;938&quot; data-start=&quot;920&quot; data-section-id=&quot;xg2gs0&quot;&gt;관련 metabolite 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1083&quot; data-start=&quot;940&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 데이터에서는 이러한 &lt;b&gt;일관된 패턴이 나타나는 경우가 생각보다 많지 않다.&lt;/b&gt; transcriptomics와 proteomics 사이의 상관관계는 일반적으로 0.3~0.5 수준에 불과하며 metabolomics와의 상관성은 더 낮아질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1232&quot; data-start=&quot;1085&quot; data-ke-size=&quot;size16&quot;&gt;그 이유는 각 omics가 반영하는 biological layer가 서로 다르기 때문이다. gene expression, protein abundance, metabolic activity는 서로 긴밀하게 연결되어 있지만 동시에 &lt;b&gt;독립적으로 조절&lt;/b&gt;되기도 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;1271&quot; data-start=&quot;1239&quot; data-section-id=&quot;1mz7w88&quot; data-ke-size=&quot;size23&quot;&gt;2. &amp;ldquo;데이터가 많을수록 해석은 더 정확해진다&amp;rdquo;는 가정&lt;/h3&gt;
&lt;p data-end=&quot;1385&quot; data-start=&quot;1273&quot; data-ke-size=&quot;size16&quot;&gt;multi-omics 연구에서 자주 등장하는 또 하나의 믿음은 데이터가 많아질수록 biological insight가 더 명확해질 것이라는 생각이다. 그러나 실제 분석에서는 종종 반대 현상이 나타난다.&lt;/p&gt;
&lt;p data-end=&quot;1446&quot; data-start=&quot;1387&quot; data-ke-size=&quot;size16&quot;&gt;각 omics 데이터는 이미 매우 높은 차원을 가진다. 예를 들어 일반적인 연구 규모를 보면 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1546&quot; data-start=&quot;1448&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1479&quot; data-start=&quot;1448&quot; data-section-id=&quot;ui4tfa&quot;&gt;transcriptomics: 수만 개의 gene&lt;/li&gt;
&lt;li data-end=&quot;1509&quot; data-start=&quot;1480&quot; data-section-id=&quot;1ccsy4u&quot;&gt;proteomics: 수천 개의 protein&lt;/li&gt;
&lt;li data-end=&quot;1546&quot; data-start=&quot;1510&quot; data-section-id=&quot;s04sas&quot;&gt;metabolomics: 수백에서 수천 개의 feature&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1628&quot; data-start=&quot;1548&quot; data-ke-size=&quot;size16&quot;&gt;이 세 가지 데이터를 통합하면 분석 변수는 수만 개 수준이 된다. 반면 실제 연구에서 사용되는 샘플 수는 수십에서 수백 개 정도인 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;1664&quot; data-start=&quot;1630&quot; data-ke-size=&quot;size16&quot;&gt;즉 multi-omics 데이터는 다음과 같은 구조를 갖는다.&lt;/p&gt;
&lt;p data-end=&quot;1677&quot; data-start=&quot;1666&quot; data-ke-size=&quot;size16&quot;&gt;변수 수 ≫ 샘플 수&lt;/p&gt;
&lt;p data-end=&quot;1796&quot; data-start=&quot;1679&quot; data-ke-size=&quot;size16&quot;&gt;이러한 환경에서는 통계 모델이 데이터에 과도하게 맞춰지는 &lt;b&gt;overfitting&lt;/b&gt; 문제가 쉽게 발생한다. 결국 데이터가 많아질수록 분석의 자유도는 늘어나지만, 동시에 잘못된 패턴을 발견할 가능성도 증가한다.&lt;/p&gt;
&lt;h3 data-end=&quot;1835&quot; data-start=&quot;1803&quot; data-section-id=&quot;1l5gujm&quot; data-ke-size=&quot;size23&quot;&gt;3. &amp;ldquo;각 omics 데이터의 품질은 비슷하다&amp;rdquo;는 가정&lt;/h3&gt;
&lt;p data-end=&quot;1919&quot; data-start=&quot;1837&quot; data-ke-size=&quot;size16&quot;&gt;multi-omics 분석에서는 서로 다른 플랫폼에서 생성된 데이터를 결합한다. 하지만 각 omics 데이터는 기술적 특성과 변동성이 매우 다르다.&lt;/p&gt;
&lt;p data-end=&quot;1943&quot; data-start=&quot;1921&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 차이가 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2061&quot; data-start=&quot;1945&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1972&quot; data-start=&quot;1945&quot; data-section-id=&quot;3j0636&quot;&gt;RNA-seq &amp;rarr; 비교적 높은 정량 정확도&lt;/li&gt;
&lt;li data-end=&quot;2017&quot; data-start=&quot;1973&quot; data-section-id=&quot;1aognf6&quot;&gt;shotgun proteomics &amp;rarr; missing value 문제 존재&lt;/li&gt;
&lt;li data-end=&quot;2061&quot; data-start=&quot;2018&quot; data-section-id=&quot;543reh&quot;&gt;untargeted metabolomics &amp;rarr; annotation 불확실성&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2227&quot; data-start=&quot;2063&quot; data-ke-size=&quot;size16&quot;&gt;이러한 차이 때문에 multi-omics 통합 분석에서는 일부 데이터가 다른 데이터보다 훨씬 큰 영향을 미칠 수 있다. 특히 metabolomics 데이터에서는 batch effect, instrument drift, peak annotation 오류 등이 결과 해석에 큰 영향을 줄 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2303&quot; data-start=&quot;2229&quot; data-ke-size=&quot;size16&quot;&gt;결국 multi-omics 데이터는 동일한 품질 수준의 정보가 아니라 &lt;b&gt;서로 다른 신뢰도를 가진 데이터의 조합&lt;/b&gt;일 가능성이 높다.&lt;/p&gt;
&lt;h3 data-end=&quot;2347&quot; data-start=&quot;2310&quot; data-section-id=&quot;bfm48p&quot; data-ke-size=&quot;size23&quot;&gt;4. &amp;ldquo;Pathway 수준에서는 결과가 일치할 것이다&amp;rdquo;라는 가정&lt;/h3&gt;
&lt;p data-end=&quot;2475&quot; data-start=&quot;2349&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구자들은 개별 feature 수준에서는 차이가 있더라도 pathway 수준에서는 결과가 일치할 것이라고 기대한다. 실제로 multi-omics 통합 분석의 상당수는 pathway enrichment 기반으로 이루어진다.&lt;/p&gt;
&lt;p data-end=&quot;2594&quot; data-start=&quot;2477&quot; data-ke-size=&quot;size16&quot;&gt;하지만 여기서도 문제가 발생한다. pathway 자체가 명확하게 구분된 단위가 아니기 때문이다. 실제 생물학적 네트워크에서는 하나의 단백질이나 metabolite가 여러 pathway에 동시에 관여할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2733&quot; data-start=&quot;2596&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 glycolysis, pentose phosphate pathway, TCA cycle은 서로 강하게 연결되어 있다. 이러한 네트워크 구조 때문에 서로 다른 omics 데이터에서 pathway 해석이 서로 다른 방향을 가리킬 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2772&quot; data-start=&quot;2740&quot; data-section-id=&quot;13daqjg&quot; data-ke-size=&quot;size23&quot;&gt;5. &amp;ldquo;시간적으로 동일한 상태를 측정하고 있다&amp;rdquo;는 가정&lt;/h3&gt;
&lt;p data-end=&quot;2833&quot; data-start=&quot;2774&quot; data-ke-size=&quot;size16&quot;&gt;multi-omics 연구에서 흔히 간과되는 요소 중 하나는 &lt;b&gt;시간 차이(time scale)&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2866&quot; data-start=&quot;2835&quot; data-ke-size=&quot;size16&quot;&gt;각 omics 데이터는 서로 다른 시간 단위를 반영한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2966&quot; data-start=&quot;2868&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2887&quot; data-start=&quot;2868&quot; data-section-id=&quot;18h631h&quot;&gt;DNA 변화 &amp;rarr; 장기적 변화&lt;/li&gt;
&lt;li data-end=&quot;2910&quot; data-start=&quot;2888&quot; data-section-id=&quot;p2355y&quot;&gt;RNA 발현 &amp;rarr; 비교적 빠른 변화&lt;/li&gt;
&lt;li data-end=&quot;2939&quot; data-start=&quot;2911&quot; data-section-id=&quot;1gdewbr&quot;&gt;단백질 abundance &amp;rarr; 중간 수준 변화&lt;/li&gt;
&lt;li data-end=&quot;2966&quot; data-start=&quot;2940&quot; data-section-id=&quot;13erv5b&quot;&gt;metabolite 농도 &amp;rarr; 매우 빠른 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3063&quot; data-start=&quot;2968&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 세포가 특정 자극에 반응하는 상황을 생각해 보면 metabolite 변화는 수 초 내에 나타날 수 있지만 RNA 발현 변화는 수 시간 이후에 나타날 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;3122&quot; data-start=&quot;3065&quot; data-ke-size=&quot;size16&quot;&gt;이러한 시간 차이를 고려하지 않으면 multi-omics 데이터는 서로 충돌하는 것처럼 보일 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3175&quot; data-start=&quot;3129&quot; data-section-id=&quot;jkcqp1&quot; data-ke-size=&quot;size23&quot;&gt;6. &amp;ldquo;통합 분석 모델이 biological truth를 찾을 수 있다&amp;rdquo;는 가정&lt;/h3&gt;
&lt;p data-end=&quot;3293&quot; data-start=&quot;3177&quot; data-ke-size=&quot;size16&quot;&gt;최근 multi-omics 연구에서는 machine learning이나 network 분석을 이용한 통합 모델이 많이 사용된다. 이러한 모델은 서로 다른 omics 데이터를 하나의 분석 구조 안에서 결합한다.&lt;/p&gt;
&lt;p data-end=&quot;3377&quot; data-start=&quot;3295&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이러한 모델 역시 몇 가지 한계를 가진다. 특히 모델이 학습하는 패턴이 반드시 biological mechanism을 반영하는 것은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;3426&quot; data-start=&quot;3379&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 machine learning 모델은 다음과 같은 신호도 학습할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3485&quot; data-start=&quot;3428&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3444&quot; data-start=&quot;3428&quot; data-section-id=&quot;145tz6r&quot;&gt;batch effect&lt;/li&gt;
&lt;li data-end=&quot;3469&quot; data-start=&quot;3445&quot; data-section-id=&quot;1nzxd89&quot;&gt;sample processing 차이&lt;/li&gt;
&lt;li data-end=&quot;3485&quot; data-start=&quot;3470&quot; data-section-id=&quot;1muohx1&quot;&gt;cohort 특이적 패턴&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3560&quot; data-start=&quot;3487&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인은 특정 dataset에서는 매우 강한 signal처럼 보일 수 있지만 다른 dataset에서는 재현되지 않을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3595&quot; data-start=&quot;3567&quot; data-section-id=&quot;q38vng&quot; data-ke-size=&quot;size23&quot;&gt;7. &amp;ldquo;모든 omics를 통합해야 한다&amp;rdquo;는 가정&lt;/h3&gt;
&lt;p data-end=&quot;3702&quot; data-start=&quot;3597&quot; data-ke-size=&quot;size16&quot;&gt;multi-omics 연구에서는 가능한 많은 데이터를 통합하는 것이 좋은 전략처럼 보인다. 하지만 실제 연구에서는 모든 omics 데이터를 동시에 통합하는 것이 항상 최선의 방법은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;3744&quot; data-start=&quot;3704&quot; data-ke-size=&quot;size16&quot;&gt;경우에 따라서는 다음과 같은 접근이 더 안정적인 결과를 제공할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3835&quot; data-start=&quot;3746&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3771&quot; data-start=&quot;3746&quot; data-section-id=&quot;1ulh7oa&quot;&gt;각 omics 데이터를 독립적으로 분석&lt;/li&gt;
&lt;li data-end=&quot;3795&quot; data-start=&quot;3772&quot; data-section-id=&quot;zss63e&quot;&gt;결과를 pathway 수준에서 비교&lt;/li&gt;
&lt;li data-end=&quot;3835&quot; data-start=&quot;3796&quot; data-section-id=&quot;13aup8j&quot;&gt;특정 biological question에 필요한 omics만 사용&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3892&quot; data-start=&quot;3837&quot; data-ke-size=&quot;size16&quot;&gt;이러한 전략은 통합 분석의 복잡성을 줄이면서도 biological insight를 유지할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3903&quot; data-start=&quot;3899&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4014&quot; data-start=&quot;3905&quot; data-ke-size=&quot;size16&quot;&gt;multi-omics 연구는 생명과학에서 매우 강력한 접근 방법이다. 서로 다른 biological layer의 데이터를 동시에 분석함으로써 복잡한 생명 현상을 더 깊이 이해할 수 있기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;4097&quot; data-start=&quot;4016&quot; data-ke-size=&quot;size16&quot;&gt;하지만 multi-omics 통합 분석은 몇 가지 중요한 가정 위에서 진행된다. 그리고 실제 데이터에서는 이러한 가정들이 예상보다 쉽게 무너진다.&lt;/p&gt;
&lt;p data-end=&quot;4243&quot; data-start=&quot;4099&quot; data-ke-size=&quot;size16&quot;&gt;각 omics 데이터는 서로 다른 시간 규모, 기술적 특성, 생물학적 의미를 가진다. 따라서 multi-omics 연구의 핵심은 모든 데이터를 하나의 일관된 이야기로 맞추는 것이 아니라 &lt;b&gt;각 데이터가 왜 서로 다른 신호를 보여주는지 이해하는 것&lt;/b&gt;에 있다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4367&quot; data-start=&quot;4245&quot; data-ke-size=&quot;size16&quot;&gt;결국 좋은 multi-omics 연구는 데이터의 양에 의존하지 않는다. 대신 서로 다른 데이터가 가진 한계와 의미를 이해하고, 그 사이에서 &lt;b&gt;가장 설득력 있는 생물학적 설명을 찾아가는 과정&lt;/b&gt;에 가깝다고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>biological layer</category>
      <category>multi-omics 연구</category>
      <category>overfitting</category>
      <category>데이터 조합</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/422</guid>
      <comments>https://info-tistory.tistory.com/422#entry422comment</comments>
      <pubDate>Mon, 30 Mar 2026 20:39:53 +0900</pubDate>
    </item>
    <item>
      <title>Pathway 분석이 과학적 사실처럼 오해되는 순간</title>
      <link>https://info-tistory.tistory.com/421</link>
      <description>&lt;p data-end=&quot;60&quot; data-start=&quot;33&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 데이터 해석 도구가 결론처럼 보이기 시작할 때&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;502&quot; data-origin-height=&quot;434&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/rQfvK/dJMcaibxvL4/iggjNzKvAGvieO83iaB4I0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/rQfvK/dJMcaibxvL4/iggjNzKvAGvieO83iaB4I0/img.png&quot; data-alt=&quot;Pathway 분석이 과학적 사실처럼 오해되는 순간&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/rQfvK/dJMcaibxvL4/iggjNzKvAGvieO83iaB4I0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrQfvK%2FdJMcaibxvL4%2FiggjNzKvAGvieO83iaB4I0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Pathway 분석이 과학적 사실처럼 오해되는 순간&quot; loading=&quot;lazy&quot; width=&quot;502&quot; height=&quot;434&quot; data-origin-width=&quot;502&quot; data-origin-height=&quot;434&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Pathway 분석이 과학적 사실처럼 오해되는 순간&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;145&quot; data-start=&quot;62&quot; data-ke-size=&quot;size16&quot;&gt;Omics 연구를 진행하다 보면 거의 모든 분석의 마지막 단계에서 등장하는 그림이 있다. 바로 &lt;b&gt;pathway enrichment 결과&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;239&quot; data-start=&quot;147&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics, proteomics, metabolomics, 심지어 multi-omics 연구에서도 분석이 끝나면 흔히 다음과 같은 결과가 등장한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;377&quot; data-start=&quot;241&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;274&quot; data-start=&quot;241&quot; data-section-id=&quot;9luqqp&quot;&gt;Glycolysis pathway enrichment&lt;/li&gt;
&lt;li data-end=&quot;299&quot; data-start=&quot;275&quot; data-section-id=&quot;1nhyvbx&quot;&gt;TCA cycle alteration&lt;/li&gt;
&lt;li data-end=&quot;339&quot; data-start=&quot;300&quot; data-section-id=&quot;1rh3mc2&quot;&gt;Amino acid metabolism dysregulation&lt;/li&gt;
&lt;li data-end=&quot;377&quot; data-start=&quot;340&quot; data-section-id=&quot;fn2v65&quot;&gt;Lipid metabolism pathway activation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;416&quot; data-start=&quot;379&quot; data-ke-size=&quot;size16&quot;&gt;그리고 많은 논문에서 이러한 결과는 다음과 같은 문장으로 이어진다.&lt;/p&gt;
&lt;p data-end=&quot;472&quot; data-start=&quot;418&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;본 연구 결과는 해당 질병에서 glycolysis pathway가 활성화되어 있음을 시사한다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;518&quot; data-start=&quot;474&quot; data-ke-size=&quot;size16&quot;&gt;문장은 자연스럽고 설득력 있게 들린다. 하지만 여기서 중요한 질문이 하나 있다.&lt;/p&gt;
&lt;p data-end=&quot;555&quot; data-start=&quot;520&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;Pathway 분석 결과는 과연 실제 생물학적 사실일까?&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;733&quot; data-start=&quot;557&quot; data-ke-size=&quot;size16&quot;&gt;현실적으로 말하면 대부분의 경우 그렇지 않다. Pathway 분석은 &lt;b&gt;데이터를 해석하기 위한 통계적 도구&lt;/b&gt;일 뿐이며, 그 자체가 생물학적 사실을 직접 증명하는 것은 아니다. 그러나 많은 연구에서 pathway 분석 결과가 마치 실험적으로 검증된 biological mechanism처럼 해석되는 순간이 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;812&quot; data-start=&quot;735&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 pathway 분석이 왜 과학적 사실처럼 보이게 되는지, 그리고 그 과정에서 어떤 해석상의 위험이 발생하는지 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;850&quot; data-start=&quot;819&quot; data-section-id=&quot;ks8v2a&quot; data-ke-size=&quot;size23&quot;&gt;1. Pathway 분석은 기본적으로 통계적 요약이다&lt;/h3&gt;
&lt;p data-end=&quot;893&quot; data-start=&quot;852&quot; data-ke-size=&quot;size16&quot;&gt;Pathway enrichment 분석의 기본 원리는 비교적 단순하다.&lt;/p&gt;
&lt;p data-end=&quot;1023&quot; data-start=&quot;895&quot; data-ke-size=&quot;size16&quot;&gt;먼저 differential analysis를 통해 변화가 있는 gene, protein, 또는 metabolite 리스트를 만든다. 그 다음 해당 리스트에 특정 pathway 관련 요소가 얼마나 많이 포함되어 있는지를 계산한다.&lt;/p&gt;
&lt;p data-end=&quot;1059&quot; data-start=&quot;1025&quot; data-ke-size=&quot;size16&quot;&gt;즉 pathway 분석은 다음 질문에 답하는 통계적 절차이다.&lt;/p&gt;
&lt;p data-end=&quot;1103&quot; data-start=&quot;1061&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 pathway에 속한 요소들이 우연히 모였을 가능성은 얼마나 낮은가?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;1135&quot; data-start=&quot;1105&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 계산되는 것은 보통 다음과 같은 값들이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1219&quot; data-start=&quot;1137&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1157&quot; data-start=&quot;1137&quot; data-section-id=&quot;uzp0bt&quot;&gt;enrichment score&lt;/li&gt;
&lt;li data-end=&quot;1169&quot; data-start=&quot;1158&quot; data-section-id=&quot;3p0ovy&quot;&gt;p-value&lt;/li&gt;
&lt;li data-end=&quot;1190&quot; data-start=&quot;1170&quot; data-section-id=&quot;13elwi&quot;&gt;adjusted p-value&lt;/li&gt;
&lt;li data-end=&quot;1219&quot; data-start=&quot;1191&quot; data-section-id=&quot;94tj8s&quot;&gt;false discovery rate (FDR)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1349&quot; data-start=&quot;1221&quot; data-ke-size=&quot;size16&quot;&gt;하지만 여기서 중요한 점은 pathway 분석이 &lt;b&gt;pathway의 실제 활성도를 측정하는 것이 아니라는 것&lt;/b&gt;이다. 단지 특정 pathway와 관련된 feature들이 데이터에서 상대적으로 많이 나타났다는 사실을 보여줄 뿐이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1383&quot; data-start=&quot;1356&quot; data-section-id=&quot;1r4ewh3&quot; data-ke-size=&quot;size23&quot;&gt;2. Pathway 정의 자체가 완전하지 않다&lt;/h3&gt;
&lt;p data-end=&quot;1485&quot; data-start=&quot;1385&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구자들이 간과하는 부분 중 하나는 &lt;b&gt;pathway database 자체의 한계&lt;/b&gt;이다. 우리가 사용하는 대부분의 pathway 정보는 특정 데이터베이스에서 가져온 것이다.&lt;/p&gt;
&lt;p data-end=&quot;1516&quot; data-start=&quot;1487&quot; data-ke-size=&quot;size16&quot;&gt;대표적으로 다음과 같은 데이터베이스가 널리 사용된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1566&quot; data-start=&quot;1518&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1526&quot; data-start=&quot;1518&quot; data-section-id=&quot;1p8g4fa&quot;&gt;KEGG&lt;/li&gt;
&lt;li data-end=&quot;1539&quot; data-start=&quot;1527&quot; data-section-id=&quot;z6j5xq&quot;&gt;Reactome&lt;/li&gt;
&lt;li data-end=&quot;1556&quot; data-start=&quot;1540&quot; data-section-id=&quot;1htw7s5&quot;&gt;WikiPathways&lt;/li&gt;
&lt;li data-end=&quot;1566&quot; data-start=&quot;1557&quot; data-section-id=&quot;uskca4&quot;&gt;MetaCyc&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1631&quot; data-start=&quot;1568&quot; data-ke-size=&quot;size16&quot;&gt;이러한 데이터베이스는 생물학적 지식을 체계적으로 정리한 중요한 자원이지만, 동시에 몇 가지 중요한 제한을 가진다.&lt;/p&gt;
&lt;p data-end=&quot;1719&quot; data-start=&quot;1633&quot; data-ke-size=&quot;size16&quot;&gt;첫 번째는 &lt;b&gt;pathway 경계가 명확하지 않다는 점&lt;/b&gt;이다. 실제 생물학적 시스템에서는 하나의 대사 반응이 여러 pathway에 동시에 속할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1818&quot; data-start=&quot;1721&quot; data-ke-size=&quot;size16&quot;&gt;두 번째는 &lt;b&gt;데이터베이스가 지속적으로 업데이트된다는 점&lt;/b&gt;이다. 즉 동일한 데이터를 분석하더라도 database version에 따라 pathway 결과가 달라질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1917&quot; data-start=&quot;1820&quot; data-ke-size=&quot;size16&quot;&gt;세 번째는 &lt;b&gt;특정 organism 중심으로 정리된 정보가 많다는 점&lt;/b&gt;이다. 인간 데이터에서도 일부 pathway 정보는 incomplete하거나 간접적인 경우가 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;1979&quot; data-start=&quot;1919&quot; data-ke-size=&quot;size16&quot;&gt;이러한 이유로 pathway 분석 결과는 항상 &lt;b&gt;현재 데이터베이스가 정의한 틀 안에서의 해석&lt;/b&gt;일 뿐이다.&lt;/p&gt;
&lt;h3 data-end=&quot;2020&quot; data-start=&quot;1986&quot; data-section-id=&quot;10mvqmk&quot; data-ke-size=&quot;size23&quot;&gt;3. 작은 변화가 큰 pathway 신호처럼 보일 수 있다&lt;/h3&gt;
&lt;p data-end=&quot;2109&quot; data-start=&quot;2022&quot; data-ke-size=&quot;size16&quot;&gt;Pathway enrichment 분석에서 자주 발생하는 현상 중 하나는 &lt;b&gt;몇 개의 feature 변화가 전체 pathway 변화처럼 보이는 상황&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2214&quot; data-start=&quot;2111&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 pathway에 속한 metabolite가 20개 있다고 가정해 보자. 이 중 2~3개만 유의하게 변해도 통계적으로 pathway enrichment가 나타날 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2262&quot; data-start=&quot;2216&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 biological system에서는 다음과 같은 질문이 더 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2344&quot; data-start=&quot;2264&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2289&quot; data-start=&quot;2264&quot; data-section-id=&quot;nijsta&quot;&gt;pathway의 핵심 반응이 변화했는가&lt;/li&gt;
&lt;li data-end=&quot;2319&quot; data-start=&quot;2290&quot; data-section-id=&quot;99qx24&quot;&gt;rate-limiting step이 변화했는가&lt;/li&gt;
&lt;li data-end=&quot;2344&quot; data-start=&quot;2320&quot; data-section-id=&quot;15m3b79&quot;&gt;pathway flux가 실제로 변했는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2409&quot; data-start=&quot;2346&quot; data-ke-size=&quot;size16&quot;&gt;단순히 몇 개의 구성 요소가 변화했다는 사실만으로 해당 pathway 전체가 활성화되었다고 결론 내리기는 어렵다.&lt;/p&gt;
&lt;h3 data-end=&quot;2457&quot; data-start=&quot;2416&quot; data-section-id=&quot;es2fmg&quot; data-ke-size=&quot;size23&quot;&gt;4. Omics 데이터는 pathway flux를 직접 측정하지 않는다&lt;/h3&gt;
&lt;p data-end=&quot;2575&quot; data-start=&quot;2459&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics 연구에서 pathway 해석이 과도해지는 경우가 많다. 그 이유는 metabolomics 데이터가 &lt;b&gt;metabolite 농도(concentration)&lt;/b&gt;를 측정하기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;2656&quot; data-start=&quot;2577&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolic pathway의 실제 활성도를 나타내는 것은 metabolite 농도가 아니라 &lt;b&gt;metabolic flux&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2817&quot; data-start=&quot;2658&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 glycolysis pathway를 생각해 보자. glycolytic flux가 증가하더라도 intermediate metabolite 농도는 크게 변하지 않을 수 있다. 반대로 metabolite 농도가 증가했다고 해서 반드시 pathway flux가 증가한 것은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;2908&quot; data-start=&quot;2819&quot; data-ke-size=&quot;size16&quot;&gt;즉 metabolomics 기반 pathway 분석은 실제 metabolic activity를 직접 측정하는 것이 아니라 &lt;b&gt;간접적인 힌트&lt;/b&gt;를 제공할 뿐이다.&lt;/p&gt;
&lt;h3 data-end=&quot;2942&quot; data-start=&quot;2915&quot; data-section-id=&quot;mkl9ii&quot; data-ke-size=&quot;size23&quot;&gt;5. Visualization이 확신을 만든다&lt;/h3&gt;
&lt;p data-end=&quot;2994&quot; data-start=&quot;2944&quot; data-ke-size=&quot;size16&quot;&gt;Pathway 분석이 과학적 사실처럼 보이게 되는 또 다른 이유는 &lt;b&gt;시각화 방식&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;3036&quot; data-start=&quot;2996&quot; data-ke-size=&quot;size16&quot;&gt;많은 분석 도구들은 pathway 결과를 다음과 같은 방식으로 보여준다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3135&quot; data-start=&quot;3038&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3077&quot; data-start=&quot;3038&quot; data-section-id=&quot;58z906&quot;&gt;pathway diagram에 색깔로 표시된 metabolite&lt;/li&gt;
&lt;li data-end=&quot;3105&quot; data-start=&quot;3078&quot; data-section-id=&quot;x01krd&quot;&gt;network 형태의 pathway map&lt;/li&gt;
&lt;li data-end=&quot;3135&quot; data-start=&quot;3106&quot; data-section-id=&quot;bpf2kr&quot;&gt;heatmap 기반 pathway activity&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3210&quot; data-start=&quot;3137&quot; data-ke-size=&quot;size16&quot;&gt;이러한 그림은 매우 직관적이다. 특정 pathway가 붉은색으로 강조되어 있으면 연구자는 자연스럽게 다음과 같은 인상을 받게 된다.&lt;/p&gt;
&lt;p data-end=&quot;3237&quot; data-start=&quot;3212&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 pathway가 실제로 활성화되었구나.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;3347&quot; data-start=&quot;3239&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제로는 단순한 통계적 enrichment 결과가 시각적으로 강조된 것일 뿐이다. 인간의 인지 특성상 이러한 visualization은 &lt;b&gt;데이터보다 강한 확신을 만들어 낼 수 있다.&lt;/b&gt;&lt;/p&gt;
&lt;h3 data-end=&quot;3381&quot; data-start=&quot;3354&quot; data-section-id=&quot;boa8ph&quot; data-ke-size=&quot;size23&quot;&gt;6. Pathway 분석은 가설 생성 도구이다&lt;/h3&gt;
&lt;p data-end=&quot;3442&quot; data-start=&quot;3383&quot; data-ke-size=&quot;size16&quot;&gt;Pathway 분석의 가장 중요한 역할은 &lt;b&gt;biological hypothesis를 생성하는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;3539&quot; data-start=&quot;3444&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 metabolomics 데이터에서 amino acid metabolism pathway가 enrichment 되었다면 이는 다음과 같은 질문을 제기할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3656&quot; data-start=&quot;3541&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3577&quot; data-start=&quot;3541&quot; data-section-id=&quot;1egnmqm&quot;&gt;해당 pathway의 핵심 enzyme이 실제로 변화했는가&lt;/li&gt;
&lt;li data-end=&quot;3607&quot; data-start=&quot;3578&quot; data-section-id=&quot;10bcgf8&quot;&gt;flux analysis에서 변화가 확인되는가&lt;/li&gt;
&lt;li data-end=&quot;3656&quot; data-start=&quot;3608&quot; data-section-id=&quot;xazce1&quot;&gt;isotope tracing 실험에서 pathway activity가 증가하는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3726&quot; data-start=&quot;3658&quot; data-ke-size=&quot;size16&quot;&gt;즉 pathway 분석은 연구 방향을 제시하는 &lt;b&gt;출발점&lt;/b&gt;일 뿐이며, 그 자체가 결론이 되는 순간 해석의 위험이 커진다.&lt;/p&gt;
&lt;h3 data-end=&quot;3775&quot; data-start=&quot;3733&quot; data-section-id=&quot;12y65na&quot; data-ke-size=&quot;size23&quot;&gt;7. Multi-omics에서 pathway 해석이 더욱 복잡해지는 이유&lt;/h3&gt;
&lt;p data-end=&quot;3912&quot; data-start=&quot;3777&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 연구에서는 pathway 해석이 더 복잡해진다. transcriptomics, proteomics, metabolomics 데이터를 동시에 분석하면 동일한 pathway에 대해 서로 다른 결과가 나타날 수 있기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;3936&quot; data-start=&quot;3914&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 상황이 가능하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4008&quot; data-start=&quot;3938&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3959&quot; data-start=&quot;3938&quot; data-section-id=&quot;5zj9p6&quot;&gt;RNA expression 증가&lt;/li&gt;
&lt;li data-end=&quot;3987&quot; data-start=&quot;3960&quot; data-section-id=&quot;mwrl4o&quot;&gt;protein abundance 변화 없음&lt;/li&gt;
&lt;li data-end=&quot;4008&quot; data-start=&quot;3988&quot; data-section-id=&quot;sntb89&quot;&gt;metabolite 농도 감소&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4118&quot; data-start=&quot;4010&quot; data-ke-size=&quot;size16&quot;&gt;이러한 경우 pathway 분석 결과는 서로 다른 omics에서 상충될 수 있다. 하지만 이는 데이터 오류라기보다 &lt;b&gt;biological regulation의 복잡성&lt;/b&gt;을 반영하는 경우가 많다.&lt;/p&gt;
&lt;h3 data-end=&quot;4147&quot; data-start=&quot;4125&quot; data-section-id=&quot;qjnjz8&quot; data-ke-size=&quot;size23&quot;&gt;8. 좋은 pathway 해석의 특징&lt;/h3&gt;
&lt;p data-end=&quot;4197&quot; data-start=&quot;4149&quot; data-ke-size=&quot;size16&quot;&gt;Pathway 분석 결과를 해석할 때 몇 가지 중요한 질문을 던지는 것이 도움이 된다.&lt;/p&gt;
&lt;p data-end=&quot;4217&quot; data-start=&quot;4199&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 질문이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4330&quot; data-start=&quot;4219&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4245&quot; data-start=&quot;4219&quot; data-section-id=&quot;i0g00i&quot;&gt;pathway 내 핵심 반응이 변화했는가&lt;/li&gt;
&lt;li data-end=&quot;4277&quot; data-start=&quot;4246&quot; data-section-id=&quot;ydnb6&quot;&gt;precursor-product 관계가 일관적인가&lt;/li&gt;
&lt;li data-end=&quot;4310&quot; data-start=&quot;4278&quot; data-section-id=&quot;1wxhxry&quot;&gt;여러 omics 데이터에서 동일한 신호가 나타나는가&lt;/li&gt;
&lt;li data-end=&quot;4330&quot; data-start=&quot;4311&quot; data-section-id=&quot;1jbwlzx&quot;&gt;독립적인 실험에서 재현되는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4372&quot; data-start=&quot;4332&quot; data-ke-size=&quot;size16&quot;&gt;이러한 질문을 통해 pathway 결과를 보다 신중하게 해석할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4383&quot; data-start=&quot;4379&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4474&quot; data-start=&quot;4385&quot; data-ke-size=&quot;size16&quot;&gt;Pathway 분석은 omics 데이터 해석에서 매우 강력한 도구이다. 복잡한 feature 리스트를 생물학적 맥락 안에서 이해할 수 있도록 도와주기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;4559&quot; data-start=&quot;4476&quot; data-ke-size=&quot;size16&quot;&gt;하지만 pathway 분석 결과가 &lt;b&gt;곧바로 생물학적 사실을 의미하는 것은 아니다.&lt;/b&gt; 대부분의 경우 이는 단지 통계적 패턴을 요약한 결과일 뿐이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4709&quot; data-start=&quot;4561&quot; data-ke-size=&quot;size16&quot;&gt;좋은 연구는 pathway 분석 결과를 최종 결론으로 사용하지 않는다. 대신 그 결과를 출발점으로 삼아 새로운 생물학적 질문을 만들어 낸다. 결국 pathway 분석의 진짜 가치는 &lt;b&gt;정답을 제공하는 데 있는 것이 아니라, 더 좋은 질문을 만들어 내는 데 있다.&lt;/b&gt;&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>biological regulation</category>
      <category>metabolomics</category>
      <category>Multi-omics</category>
      <category>pathway 해석</category>
      <category>Proteomics</category>
      <category>Transcriptomics</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/421</guid>
      <comments>https://info-tistory.tistory.com/421#entry421comment</comments>
      <pubDate>Sun, 29 Mar 2026 20:31:49 +0900</pubDate>
    </item>
    <item>
      <title>Proteomics&amp;ndash;Metabolomics 불일치가 의미하는 생물학적 메시지</title>
      <link>https://info-tistory.tistory.com/420</link>
      <description>&lt;p data-end=&quot;83&quot; data-start=&quot;47&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 단백질 abundance와 대사 상태가 다른 방향을 가리킬 때&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;756&quot; data-origin-height=&quot;424&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/uoHq3/dJMcacCnOyi/v8meKJkFFYNZHCFZOU0iek/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/uoHq3/dJMcacCnOyi/v8meKJkFFYNZHCFZOU0iek/img.png&quot; data-alt=&quot;Proteomics&amp;amp;ndash;Metabolomics 불일치가 의미하는 생물학적 메시지&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/uoHq3/dJMcacCnOyi/v8meKJkFFYNZHCFZOU0iek/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FuoHq3%2FdJMcacCnOyi%2Fv8meKJkFFYNZHCFZOU0iek%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Proteomics&amp;ndash;Metabolomics 불일치가 의미하는 생물학적 메시지&quot; loading=&quot;lazy&quot; width=&quot;756&quot; height=&quot;424&quot; data-origin-width=&quot;756&quot; data-origin-height=&quot;424&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Proteomics&amp;ndash;Metabolomics 불일치가 의미하는 생물학적 메시지&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;83&quot; data-start=&quot;47&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;189&quot; data-start=&quot;85&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 연구를 진행하다 보면 자주 등장하는 상황이 있다. &lt;b&gt;Proteomics 데이터와 metabolomics 데이터가 서로 다른 방향의 결과를 보여주는 경우&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;412&quot; data-start=&quot;191&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 proteomics 분석에서는 특정 metabolic enzyme의 abundance가 증가한 것으로 나타났는데, metabolomics 데이터에서는 해당 pathway의 metabolite 농도가 거의 변하지 않거나 오히려 감소하는 경우가 나타날 수 있다. 반대로 metabolite 변화는 크게 나타나지만 관련 enzyme 단백질 수준에서는 뚜렷한 변화가 보이지 않는 경우도 있다.&lt;/p&gt;
&lt;p data-end=&quot;561&quot; data-start=&quot;414&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황을 처음 접하면 연구자는 자연스럽게 데이터의 신뢰성부터 의심하게 된다. 하지만 실제 생물학에서는 proteomics와 metabolomics 결과가 일치하지 않는 경우가 오히려 &lt;b&gt;대사 조절 메커니즘을 이해할 수 있는 중요한 단서&lt;/b&gt;가 되기도 한다.&lt;/p&gt;
&lt;p data-end=&quot;722&quot; data-start=&quot;563&quot; data-ke-size=&quot;size16&quot;&gt;그 이유는 간단하다. 단백질 abundance와 metabolite 농도는 서로 다른 층위의 정보를 반영하기 때문이다. 이 글에서는 proteomics&amp;ndash;metabolomics 불일치가 왜 발생하는지, 그리고 이러한 불일치가 어떤 생물학적 메시지를 담고 있을 수 있는지 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;764&quot; data-start=&quot;729&quot; data-section-id=&quot;ge1086&quot; data-ke-size=&quot;size23&quot;&gt;1. 단백질 abundance는 효소 활성을 의미하지 않는다&lt;/h3&gt;
&lt;p data-end=&quot;844&quot; data-start=&quot;766&quot; data-ke-size=&quot;size16&quot;&gt;Proteomics 데이터에서 측정되는 것은 기본적으로 &lt;b&gt;단백질의 양&lt;/b&gt;이다. 즉 특정 효소가 세포 내에 얼마나 존재하는지를 보여준다.&lt;/p&gt;
&lt;p data-end=&quot;934&quot; data-start=&quot;846&quot; data-ke-size=&quot;size16&quot;&gt;하지만 효소의 존재량이 곧바로 &lt;b&gt;효소 활성(enzyme activity)&lt;/b&gt;을 의미하는 것은 아니다. 많은 효소들은 다음과 같은 다양한 방식으로 조절된다.&lt;/p&gt;
&lt;p data-end=&quot;951&quot; data-start=&quot;936&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 예는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1065&quot; data-start=&quot;953&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;978&quot; data-start=&quot;953&quot; data-section-id=&quot;1lddfd4&quot;&gt;allosteric regulation&lt;/li&gt;
&lt;li data-end=&quot;1003&quot; data-start=&quot;979&quot; data-section-id=&quot;1tvhi54&quot;&gt;substrate inhibition&lt;/li&gt;
&lt;li data-end=&quot;1029&quot; data-start=&quot;1004&quot; data-section-id=&quot;17eur4o&quot;&gt;cofactor availability&lt;/li&gt;
&lt;li data-end=&quot;1065&quot; data-start=&quot;1030&quot; data-section-id=&quot;isfr9h&quot;&gt;post-translational modification&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1145&quot; data-start=&quot;1067&quot; data-ke-size=&quot;size16&quot;&gt;이러한 조절 메커니즘 때문에 단백질 abundance가 증가하더라도 실제 catalytic activity는 거의 변하지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1290&quot; data-start=&quot;1147&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 proteomics 데이터에서 glycolytic enzyme abundance가 증가했더라도, 해당 효소가 억제 상태에 있다면 metabolomics 데이터에서는 glycolysis 관련 metabolite 변화가 거의 나타나지 않을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1337&quot; data-start=&quot;1297&quot; data-section-id=&quot;1umyiyz&quot; data-ke-size=&quot;size23&quot;&gt;2. Metabolite pool과 metabolic flux의 차이&lt;/h3&gt;
&lt;p data-end=&quot;1475&quot; data-start=&quot;1339&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터는 보통 &lt;b&gt;metabolite concentration&lt;/b&gt;을 측정한다. 그러나 metabolic pathway의 실제 활성도를 결정하는 것은 metabolite 농도가 아니라 &lt;b&gt;metabolic flux&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1584&quot; data-start=&quot;1477&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 어떤 pathway에서 flux가 증가하더라도 intermediate metabolite 농도는 크게 변하지 않을 수 있다. 그 이유는 다음과 같은 균형이 동시에 유지되기 때문이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1633&quot; data-start=&quot;1586&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1609&quot; data-start=&quot;1586&quot; data-section-id=&quot;1pol0us&quot;&gt;metabolite 생성 속도 증가&lt;/li&gt;
&lt;li data-end=&quot;1633&quot; data-start=&quot;1610&quot; data-section-id=&quot;zgomhc&quot;&gt;metabolite 소비 속도 증가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1703&quot; data-start=&quot;1635&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 pathway activity는 실제로 증가했지만 metabolite pool size는 거의 일정하게 유지된다.&lt;/p&gt;
&lt;p data-end=&quot;1823&quot; data-start=&quot;1705&quot; data-ke-size=&quot;size16&quot;&gt;따라서 proteomics에서 enzyme abundance 증가가 관찰되었지만 metabolomics에서 metabolite 농도 변화가 크지 않은 경우, 이는 pathway flux 증가를 의미할 수도 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1851&quot; data-start=&quot;1830&quot; data-section-id=&quot;1v4zpvq&quot; data-ke-size=&quot;size23&quot;&gt;3. 대사 네트워크의 보상 메커니즘&lt;/h3&gt;
&lt;p data-end=&quot;1976&quot; data-start=&quot;1853&quot; data-ke-size=&quot;size16&quot;&gt;생물학적 대사 시스템은 매우 강력한 &lt;b&gt;homeostasis 유지 능력&lt;/b&gt;을 가지고 있다. 특정 metabolic enzyme의 abundance가 변하면 시스템은 균형을 유지하기 위해 다양한 보상 메커니즘을 활성화한다.&lt;/p&gt;
&lt;p data-end=&quot;2004&quot; data-start=&quot;1978&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 상황이 발생할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2090&quot; data-start=&quot;2006&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2028&quot; data-start=&quot;2006&quot; data-section-id=&quot;1s9wr8s&quot;&gt;upstream enzyme 증가&lt;/li&gt;
&lt;li data-end=&quot;2055&quot; data-start=&quot;2029&quot; data-section-id=&quot;cgvpfh&quot;&gt;downstream pathway 활성화&lt;/li&gt;
&lt;li data-end=&quot;2090&quot; data-start=&quot;2056&quot; data-section-id=&quot;1yoa7h&quot;&gt;alternative metabolic route 사용&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2164&quot; data-start=&quot;2092&quot; data-ke-size=&quot;size16&quot;&gt;이러한 조절 메커니즘 때문에 proteomics에서는 변화가 관찰되지만 metabolite 농도는 거의 일정하게 유지될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2261&quot; data-start=&quot;2166&quot; data-ke-size=&quot;size16&quot;&gt;즉 proteomics 변화는 시스템이 &lt;b&gt;대사 상태를 조정하고 있다는 신호&lt;/b&gt;일 수 있지만 metabolomics 데이터는 여전히 안정된 상태를 반영하고 있을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2295&quot; data-start=&quot;2268&quot; data-section-id=&quot;ijgr2a&quot; data-ke-size=&quot;size23&quot;&gt;4. Metabolite turnover 속도&lt;/h3&gt;
&lt;p data-end=&quot;2382&quot; data-start=&quot;2297&quot; data-ke-size=&quot;size16&quot;&gt;Metabolite는 세포 내에서 매우 빠르게 생성되고 소비된다. 일부 metabolite의 turnover time은 &lt;b&gt;초 단위&lt;/b&gt;일 정도로 빠르다.&lt;/p&gt;
&lt;p data-end=&quot;2448&quot; data-start=&quot;2384&quot; data-ke-size=&quot;size16&quot;&gt;반면 단백질 abundance는 보통 더 느리게 변화한다. 단백질 합성과 분해에는 상당한 시간이 필요하기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;2510&quot; data-start=&quot;2450&quot; data-ke-size=&quot;size16&quot;&gt;이러한 차이 때문에 proteomics와 metabolomics 데이터는 서로 다른 시간 스케일을 반영한다.&lt;/p&gt;
&lt;p data-end=&quot;2536&quot; data-start=&quot;2512&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 시나리오가 가능하다.&lt;/p&gt;
&lt;p data-end=&quot;2545&quot; data-start=&quot;2538&quot; data-ke-size=&quot;size16&quot;&gt;초기 단계&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2569&quot; data-start=&quot;2546&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2569&quot; data-start=&quot;2546&quot; data-section-id=&quot;k86zyo&quot;&gt;metabolite 농도 변화 발생&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2578&quot; data-start=&quot;2571&quot; data-ke-size=&quot;size16&quot;&gt;후기 단계&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2605&quot; data-start=&quot;2579&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2605&quot; data-start=&quot;2579&quot; data-section-id=&quot;e4m8ko&quot;&gt;enzyme abundance 변화 발생&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2665&quot; data-start=&quot;2607&quot; data-ke-size=&quot;size16&quot;&gt;또는 그 반대의 경우도 가능하다. 이러한 시간 차이는 두 데이터 간 불일치를 만드는 중요한 원인이 된다.&lt;/p&gt;
&lt;h3 data-end=&quot;2697&quot; data-start=&quot;2672&quot; data-section-id=&quot;offi1g&quot; data-ke-size=&quot;size23&quot;&gt;5. Substrate limitation&lt;/h3&gt;
&lt;p data-end=&quot;2796&quot; data-start=&quot;2699&quot; data-ke-size=&quot;size16&quot;&gt;Proteomics 데이터에서 enzyme abundance가 증가했더라도 실제 metabolic flux는 substrate availability에 의해 제한될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2898&quot; data-start=&quot;2798&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 enzyme abundance가 증가했지만 해당 pathway에 필요한 substrate가 충분하지 않다면 metabolite 변화는 거의 나타나지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2931&quot; data-start=&quot;2900&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황은 특히 다음과 같은 경우에서 자주 나타난다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2989&quot; data-start=&quot;2933&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2956&quot; data-start=&quot;2933&quot; data-section-id=&quot;19iz9cb&quot;&gt;nutrient limitation&lt;/li&gt;
&lt;li data-end=&quot;2968&quot; data-start=&quot;2957&quot; data-section-id=&quot;doc52&quot;&gt;hypoxia&lt;/li&gt;
&lt;li data-end=&quot;2989&quot; data-start=&quot;2969&quot; data-section-id=&quot;1ytwdbi&quot;&gt;metabolic stress&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3098&quot; data-start=&quot;2991&quot; data-ke-size=&quot;size16&quot;&gt;즉 proteomics 데이터는 시스템이 특정 pathway를 활성화하려는 준비 상태를 보여주지만 metabolomics 데이터는 실제 metabolic limitation을 반영할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3130&quot; data-start=&quot;3105&quot; data-section-id=&quot;jzvs0p&quot; data-ke-size=&quot;size23&quot;&gt;6. Compartmentalization&lt;/h3&gt;
&lt;p data-end=&quot;3181&quot; data-start=&quot;3132&quot; data-ke-size=&quot;size16&quot;&gt;세포 내 대사 반응은 다양한 &lt;b&gt;세포 소기관(compartment)&lt;/b&gt;에서 이루어진다.&lt;/p&gt;
&lt;p data-end=&quot;3205&quot; data-start=&quot;3183&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 구분이 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3274&quot; data-start=&quot;3207&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3218&quot; data-start=&quot;3207&quot; data-section-id=&quot;1k5but5&quot;&gt;cytosol&lt;/li&gt;
&lt;li data-end=&quot;3235&quot; data-start=&quot;3219&quot; data-section-id=&quot;g5aco3&quot;&gt;mitochondria&lt;/li&gt;
&lt;li data-end=&quot;3250&quot; data-start=&quot;3236&quot; data-section-id=&quot;1442eed&quot;&gt;peroxisome&lt;/li&gt;
&lt;li data-end=&quot;3274&quot; data-start=&quot;3251&quot; data-section-id=&quot;18nm2i1&quot;&gt;endoplasmic reticulum&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3395&quot; data-start=&quot;3276&quot; data-ke-size=&quot;size16&quot;&gt;Proteomics 데이터에서는 특정 compartment의 enzyme abundance 변화가 관찰될 수 있지만 metabolomics 데이터는 전체 세포의 metabolite pool을 반영하는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;3435&quot; data-start=&quot;3397&quot; data-ke-size=&quot;size16&quot;&gt;이러한 공간적 차이는 두 데이터 사이의 불일치를 만들어 낼 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3482&quot; data-start=&quot;3442&quot; data-section-id=&quot;kywxgn&quot; data-ke-size=&quot;size23&quot;&gt;7. Post-translational modification의 역할&lt;/h3&gt;
&lt;p data-end=&quot;3546&quot; data-start=&quot;3484&quot; data-ke-size=&quot;size16&quot;&gt;효소 활성은 종종 &lt;b&gt;post-translational modification (PTM)&lt;/b&gt;에 의해 조절된다.&lt;/p&gt;
&lt;p data-end=&quot;3568&quot; data-start=&quot;3548&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 PTM 예시는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3624&quot; data-start=&quot;3570&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3589&quot; data-start=&quot;3570&quot; data-section-id=&quot;1717ibl&quot;&gt;phosphorylation&lt;/li&gt;
&lt;li data-end=&quot;3605&quot; data-start=&quot;3590&quot; data-section-id=&quot;su7mmr&quot;&gt;acetylation&lt;/li&gt;
&lt;li data-end=&quot;3624&quot; data-start=&quot;3606&quot; data-section-id=&quot;qqn2ut&quot;&gt;ubiquitination&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3756&quot; data-start=&quot;3626&quot; data-ke-size=&quot;size16&quot;&gt;이러한 modification은 enzyme activity를 크게 변화시킬 수 있다. 하지만 일반적인 shotgun proteomics 분석에서는 단백질 abundance만 측정되고 PTM 상태는 충분히 반영되지 않는 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;3838&quot; data-start=&quot;3758&quot; data-ke-size=&quot;size16&quot;&gt;따라서 proteomics 데이터에서는 변화가 없지만 metabolomics 데이터에서는 pathway activity 변화가 나타날 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3870&quot; data-start=&quot;3845&quot; data-section-id=&quot;4ypp8q&quot; data-ke-size=&quot;size23&quot;&gt;8. Microbiome과 외부 대사 영향&lt;/h3&gt;
&lt;p data-end=&quot;3941&quot; data-start=&quot;3872&quot; data-ke-size=&quot;size16&quot;&gt;특히 혈액이나 장 관련 metabolomics 연구에서는 &lt;b&gt;microbiome metabolism&lt;/b&gt;의 영향이 매우 크다.&lt;/p&gt;
&lt;p data-end=&quot;4021&quot; data-start=&quot;3943&quot; data-ke-size=&quot;size16&quot;&gt;Proteomics 데이터는 보통 host protein을 반영하지만 metabolomics 데이터에는 다음과 같은 요소가 포함될 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4109&quot; data-start=&quot;4023&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4056&quot; data-start=&quot;4023&quot; data-section-id=&quot;1eiobru&quot;&gt;microbiome-derived metabolite&lt;/li&gt;
&lt;li data-end=&quot;4084&quot; data-start=&quot;4057&quot; data-section-id=&quot;55w1g0&quot;&gt;diet-derived metabolite&lt;/li&gt;
&lt;li data-end=&quot;4109&quot; data-start=&quot;4085&quot; data-section-id=&quot;1ecjqs&quot;&gt;environmental chemical&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4174&quot; data-start=&quot;4111&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인 때문에 proteomics와 metabolomics 데이터가 서로 다른 방향의 변화를 보일 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4201&quot; data-start=&quot;4181&quot; data-section-id=&quot;nwx7n5&quot; data-ke-size=&quot;size23&quot;&gt;9. 불일치가 의미하는 연구 기회&lt;/h3&gt;
&lt;p data-end=&quot;4312&quot; data-start=&quot;4203&quot; data-ke-size=&quot;size16&quot;&gt;Proteomics와 metabolomics 데이터가 서로 맞지 않는 상황은 단순한 분석 오류로 볼 수도 있지만, 실제로는 &lt;b&gt;대사 조절 메커니즘을 이해할 수 있는 중요한 기회&lt;/b&gt;가 될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;4349&quot; data-start=&quot;4314&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 이러한 불일치는 다음과 같은 질문을 제기할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4473&quot; data-start=&quot;4351&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4374&quot; data-start=&quot;4351&quot; data-section-id=&quot;vb5ta6&quot;&gt;효소 활성은 어떻게 조절되고 있는가&lt;/li&gt;
&lt;li data-end=&quot;4410&quot; data-start=&quot;4375&quot; data-section-id=&quot;8sflvy&quot;&gt;metabolic flux는 실제로 어떻게 변하고 있는가&lt;/li&gt;
&lt;li data-end=&quot;4440&quot; data-start=&quot;4411&quot; data-section-id=&quot;pekwz0&quot;&gt;시스템은 어떤 보상 메커니즘을 사용하고 있는가&lt;/li&gt;
&lt;li data-end=&quot;4473&quot; data-start=&quot;4441&quot; data-section-id=&quot;jzepj1&quot;&gt;substrate availability는 충분한가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4538&quot; data-start=&quot;4475&quot; data-ke-size=&quot;size16&quot;&gt;이러한 질문을 통해 연구자는 단순한 correlation 분석을 넘어 보다 깊은 생물학적 이해에 도달할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4549&quot; data-start=&quot;4545&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4684&quot; data-start=&quot;4551&quot; data-ke-size=&quot;size16&quot;&gt;Proteomics와 metabolomics 데이터가 서로 다른 결과를 보여주는 것은 multi-omics 연구에서 매우 흔한 현상이다. 이는 데이터 오류라기보다 &lt;b&gt;생물학적 시스템의 복잡성을 반영하는 자연스러운 결과&lt;/b&gt;일 가능성이 높다.&lt;/p&gt;
&lt;p data-end=&quot;4809&quot; data-start=&quot;4686&quot; data-ke-size=&quot;size16&quot;&gt;단백질 abundance, 효소 활성, metabolic flux, metabolite 농도는 서로 다른 수준의 정보를 제공한다. 따라서 이들이 항상 동일한 방향으로 변화할 것이라고 기대하는 것은 현실적인 접근이 아니다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;5014&quot; data-start=&quot;4811&quot; data-ke-size=&quot;size16&quot;&gt;오히려 이러한 불일치를 이해하는 과정에서 연구자는 &lt;b&gt;효소 조절, metabolic network dynamics, 대사 항상성&lt;/b&gt;과 같은 중요한 생물학적 메커니즘을 발견할 수 있다. 결국 multi-omics 연구의 가치는 서로 다른 데이터가 완전히 일치하는 순간보다, &lt;b&gt;서로 다른 이야기를 하는 이유를 이해하는 과정&lt;/b&gt;에서 더 크게 드러난다고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>metabolomics</category>
      <category>Proteomics</category>
      <category>생물학적 시스템의 복잡성</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/420</guid>
      <comments>https://info-tistory.tistory.com/420#entry420comment</comments>
      <pubDate>Sat, 28 Mar 2026 20:26:58 +0900</pubDate>
    </item>
    <item>
      <title>Transcriptomics와 Metabolomics 결과가 충돌할 때 어떻게 해석할 것인가</title>
      <link>https://info-tistory.tistory.com/419</link>
      <description>&lt;p data-end=&quot;84&quot; data-start=&quot;56&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 서로 다른 생물학적 층위가 다른 이야기를 할 때&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;558&quot; data-origin-height=&quot;406&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/biMi1w/dJMcagY3K2z/vWFH8og5bnmBNL7psHB6tK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/biMi1w/dJMcagY3K2z/vWFH8og5bnmBNL7psHB6tK/img.png&quot; data-alt=&quot;Transcriptomics와 Metabolomics 결과가 충돌할 때 어떻게 해석할 것인가&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/biMi1w/dJMcagY3K2z/vWFH8og5bnmBNL7psHB6tK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbiMi1w%2FdJMcagY3K2z%2FvWFH8og5bnmBNL7psHB6tK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Transcriptomics와 Metabolomics 결과가 충돌할 때 어떻게 해석할 것인가&quot; loading=&quot;lazy&quot; width=&quot;558&quot; height=&quot;406&quot; data-origin-width=&quot;558&quot; data-origin-height=&quot;406&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Transcriptomics와 Metabolomics 결과가 충돌할 때 어떻게 해석할 것인가&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;84&quot; data-start=&quot;56&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;200&quot; data-start=&quot;86&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 연구를 진행하다 보면 연구자들이 가장 당황하는 순간 중 하나가 있다. &lt;b&gt;Transcriptomics 결과와 metabolomics 결과가 서로 다른 방향을 가리키는 상황&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;387&quot; data-start=&quot;202&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 RNA-seq 분석에서는 특정 metabolic pathway 관련 유전자들이 강하게 up-regulated 되어 있는데, metabolomics 데이터에서는 해당 pathway의 metabolite 농도가 거의 변하지 않거나 오히려 감소하는 경우가 나타날 수 있다. 연구자는 자연스럽게 다음과 같은 질문을 던지게 된다.&lt;/p&gt;
&lt;p data-end=&quot;410&quot; data-start=&quot;389&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;둘 중 어느 데이터가 맞는 것일까?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;614&quot; data-start=&quot;412&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 생물학에서는 이 질문 자체가 조금 잘못된 경우가 많다. transcriptomics와 metabolomics는 &lt;b&gt;같은 현상을 서로 다른 층위에서 관찰하는 데이터&lt;/b&gt;이기 때문에 반드시 동일한 방향의 변화를 보여야 하는 것은 아니다. 오히려 두 데이터가 서로 충돌하는 순간은 &lt;b&gt;생물학적 조절 메커니즘을 이해할 수 있는 중요한 단서&lt;/b&gt;가 되기도 한다.&lt;/p&gt;
&lt;p data-end=&quot;716&quot; data-start=&quot;616&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 transcriptomics와 metabolomics 결과가 서로 맞지 않을 때 어떤 관점으로 해석해야 하는지, 그리고 이러한 불일치가 왜 발생하는지 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;750&quot; data-start=&quot;723&quot; data-section-id=&quot;i41t9&quot; data-ke-size=&quot;size23&quot;&gt;1. RNA 발현은 &amp;lsquo;가능성&amp;rsquo;을 의미할 뿐이다&lt;/h3&gt;
&lt;p data-end=&quot;842&quot; data-start=&quot;752&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics 데이터에서 측정되는 것은 기본적으로 &lt;b&gt;mRNA abundance&lt;/b&gt;이다. 즉 특정 유전자가 얼마나 많이 전사되고 있는지를 보여준다.&lt;/p&gt;
&lt;p data-end=&quot;984&quot; data-start=&quot;844&quot; data-ke-size=&quot;size16&quot;&gt;하지만 mRNA 수준의 변화가 곧바로 metabolic activity로 이어지는 것은 아니다. 유전자 발현은 단지 &lt;b&gt;효소가 만들어질 가능성이 높아졌다는 신호&lt;/b&gt;일 뿐이며, 실제 metabolic flux는 다음과 같은 다양한 요소에 의해 결정된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1065&quot; data-start=&quot;986&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;999&quot; data-start=&quot;986&quot; data-section-id=&quot;qvlmu4&quot;&gt;단백질 번역 효율&lt;/li&gt;
&lt;li data-end=&quot;1011&quot; data-start=&quot;1000&quot; data-section-id=&quot;z6a1kl&quot;&gt;단백질 안정성&lt;/li&gt;
&lt;li data-end=&quot;1024&quot; data-start=&quot;1012&quot; data-section-id=&quot;imeam1&quot;&gt;효소 활성 조절&lt;/li&gt;
&lt;li data-end=&quot;1051&quot; data-start=&quot;1025&quot; data-section-id=&quot;1kb0plk&quot;&gt;substrate availability&lt;/li&gt;
&lt;li data-end=&quot;1065&quot; data-start=&quot;1052&quot; data-section-id=&quot;l96x9c&quot;&gt;cofactor 농도&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1179&quot; data-start=&quot;1067&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 transcriptomics 데이터만으로 metabolic pathway의 실제 활성도를 판단하기는 어렵다. metabolomics 데이터와 충돌하는 것처럼 보이는 이유도 바로 여기에 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1201&quot; data-start=&quot;1186&quot; data-section-id=&quot;d1l39j&quot; data-ke-size=&quot;size23&quot;&gt;2. 단백질 단계의 조절&lt;/h3&gt;
&lt;p data-end=&quot;1285&quot; data-start=&quot;1203&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics와 metabolomics 사이에는 중요한 중간 단계가 존재한다. 바로 &lt;b&gt;proteomics&lt;/b&gt;, 즉 단백질 수준이다.&lt;/p&gt;
&lt;p data-end=&quot;1378&quot; data-start=&quot;1287&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구에서 mRNA와 단백질 abundance 사이의 상관관계는 생각보다 낮은 것으로 알려져 있다. 그 이유는 단백질 수준에서 다양한 조절이 발생하기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;1395&quot; data-start=&quot;1380&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 예는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1519&quot; data-start=&quot;1397&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1426&quot; data-start=&quot;1397&quot; data-section-id=&quot;tgw6tk&quot;&gt;translation efficiency 차이&lt;/li&gt;
&lt;li data-end=&quot;1450&quot; data-start=&quot;1427&quot; data-section-id=&quot;1yoyjen&quot;&gt;protein degradation&lt;/li&gt;
&lt;li data-end=&quot;1486&quot; data-start=&quot;1451&quot; data-section-id=&quot;isfr9h&quot;&gt;post-translational modification&lt;/li&gt;
&lt;li data-end=&quot;1519&quot; data-start=&quot;1487&quot; data-section-id=&quot;9pwfgg&quot;&gt;enzyme activation/inactivation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1629&quot; data-start=&quot;1521&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 metabolic enzyme의 mRNA가 증가하더라도, 해당 단백질이 빠르게 분해되거나 활성화되지 않는다면 실제 metabolic pathway는 거의 변화하지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1695&quot; data-start=&quot;1631&quot; data-ke-size=&quot;size16&quot;&gt;이러한 경우 transcriptomics와 metabolomics 결과는 자연스럽게 서로 다른 방향을 보이게 된다.&lt;/p&gt;
&lt;h3 data-end=&quot;1731&quot; data-start=&quot;1702&quot; data-section-id=&quot;1geyf94&quot; data-ke-size=&quot;size23&quot;&gt;3. 대사 시스템의 항상성(homeostasis)&lt;/h3&gt;
&lt;p data-end=&quot;1828&quot; data-start=&quot;1733&quot; data-ke-size=&quot;size16&quot;&gt;대사 시스템의 가장 중요한 특징 중 하나는 &lt;b&gt;항상성 유지 능력&lt;/b&gt;이다. 생체는 metabolic imbalance가 발생하지 않도록 다양한 보상 메커니즘을 가지고 있다.&lt;/p&gt;
&lt;p data-end=&quot;1897&quot; data-start=&quot;1830&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 어떤 metabolic pathway의 enzyme 발현이 증가하면 다음과 같은 일이 동시에 발생할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1979&quot; data-start=&quot;1899&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1922&quot; data-start=&quot;1899&quot; data-section-id=&quot;twhgs0&quot;&gt;feedback inhibition&lt;/li&gt;
&lt;li data-end=&quot;1946&quot; data-start=&quot;1923&quot; data-section-id=&quot;176vux9&quot;&gt;substrate depletion&lt;/li&gt;
&lt;li data-end=&quot;1979&quot; data-start=&quot;1947&quot; data-section-id=&quot;9c13qp&quot;&gt;alternative pathway activation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2053&quot; data-start=&quot;1981&quot; data-ke-size=&quot;size16&quot;&gt;이러한 조절 메커니즘 때문에 pathway 관련 유전자 발현이 증가하더라도 metabolite 농도는 거의 변하지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2165&quot; data-start=&quot;2055&quot; data-ke-size=&quot;size16&quot;&gt;즉 transcriptomics 데이터는 &amp;ldquo;시스템이 변화를 시도하고 있다&amp;rdquo;는 신호일 수 있지만, metabolomics 데이터는 &amp;ldquo;시스템이 여전히 균형을 유지하고 있다&amp;rdquo;는 상태를 보여줄 수도 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2211&quot; data-start=&quot;2172&quot; data-section-id=&quot;ax8kqo&quot; data-ke-size=&quot;size23&quot;&gt;4. Metabolite 농도와 metabolic flux는 다르다&lt;/h3&gt;
&lt;p data-end=&quot;2352&quot; data-start=&quot;2213&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터는 보통 &lt;b&gt;metabolite concentration&lt;/b&gt;을 측정한다. 하지만 metabolic pathway의 실제 활성도는 metabolite 농도보다 &lt;b&gt;metabolic flux&lt;/b&gt;와 더 밀접하게 관련되어 있다.&lt;/p&gt;
&lt;p data-end=&quot;2452&quot; data-start=&quot;2354&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 glycolysis pathway를 생각해 보자. pathway flux가 증가하더라도 intermediate metabolite 농도는 크게 변하지 않을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2478&quot; data-start=&quot;2454&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황은 다음과 같이 설명할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2539&quot; data-start=&quot;2480&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2499&quot; data-start=&quot;2480&quot; data-section-id=&quot;whcht4&quot;&gt;substrate 공급 증가&lt;/li&gt;
&lt;li data-end=&quot;2512&quot; data-start=&quot;2500&quot; data-section-id=&quot;imrri4&quot;&gt;효소 활성 증가&lt;/li&gt;
&lt;li data-end=&quot;2539&quot; data-start=&quot;2513&quot; data-section-id=&quot;c2tvhw&quot;&gt;downstream pathway 활성 증가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2696&quot; data-start=&quot;2541&quot; data-ke-size=&quot;size16&quot;&gt;이 세 가지가 동시에 일어나면 metabolite pool size는 거의 일정하게 유지될 수 있다. 이 경우 transcriptomics 데이터에서는 enzyme 발현 증가가 나타나지만 metabolomics에서는 metabolite 농도 변화가 거의 나타나지 않을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2723&quot; data-start=&quot;2703&quot; data-section-id=&quot;il3o87&quot; data-ke-size=&quot;size23&quot;&gt;5. 시간 차이(time lag)&lt;/h3&gt;
&lt;p data-end=&quot;2783&quot; data-start=&quot;2725&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics와 metabolomics 데이터는 &lt;b&gt;서로 다른 시간 스케일&lt;/b&gt;을 반영한다.&lt;/p&gt;
&lt;p data-end=&quot;2906&quot; data-start=&quot;2785&quot; data-ke-size=&quot;size16&quot;&gt;mRNA 발현 변화는 비교적 빠르게 나타나지만, metabolic state 변화는 더 느리게 나타날 수도 있다. 반대로 metabolite 농도는 매우 빠르게 변할 수 있지만 RNA 발현은 느리게 반응할 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;2944&quot; data-start=&quot;2908&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 어떤 stimulus가 세포에 가해졌다고 가정해 보자.&lt;/p&gt;
&lt;p data-end=&quot;2953&quot; data-start=&quot;2946&quot; data-ke-size=&quot;size16&quot;&gt;초기 단계&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2977&quot; data-start=&quot;2954&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2977&quot; data-start=&quot;2954&quot; data-section-id=&quot;1tf1yx1&quot;&gt;metabolite 변화 먼저 발생&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2986&quot; data-start=&quot;2979&quot; data-ke-size=&quot;size16&quot;&gt;후기 단계&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3012&quot; data-start=&quot;2987&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3012&quot; data-start=&quot;2987&quot; data-section-id=&quot;ckchza&quot;&gt;gene expression 변화 발생&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3088&quot; data-start=&quot;3014&quot; data-ke-size=&quot;size16&quot;&gt;이러한 시간 차이를 고려하지 않으면 transcriptomics와 metabolomics 결과가 서로 충돌하는 것처럼 보일 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3113&quot; data-start=&quot;3095&quot; data-section-id=&quot;1cd84gv&quot; data-ke-size=&quot;size23&quot;&gt;6. 세포 유형과 조직 이질성&lt;/h3&gt;
&lt;p data-end=&quot;3233&quot; data-start=&quot;3115&quot; data-ke-size=&quot;size16&quot;&gt;특히 조직 샘플을 분석할 때 중요한 문제는 &lt;b&gt;cellular heterogeneity&lt;/b&gt;이다. transcriptomics와 metabolomics 데이터는 서로 다른 세포 집단의 영향을 다르게 받을 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3248&quot; data-start=&quot;3235&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 특정 조직에서&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3325&quot; data-start=&quot;3250&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3282&quot; data-start=&quot;3250&quot; data-section-id=&quot;12jzfkd&quot;&gt;RNA-seq &amp;rarr; 특정 세포 유형의 발현 변화 반영&lt;/li&gt;
&lt;li data-end=&quot;3325&quot; data-start=&quot;3283&quot; data-section-id=&quot;6cvp6t&quot;&gt;metabolomics &amp;rarr; 전체 조직의 metabolite pool 반영&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3379&quot; data-start=&quot;3327&quot; data-ke-size=&quot;size16&quot;&gt;이러한 차이 때문에 두 데이터가 서로 다른 biological signal을 나타낼 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3404&quot; data-start=&quot;3386&quot; data-section-id=&quot;1x3vclp&quot; data-ke-size=&quot;size23&quot;&gt;7. Microbiome 영향&lt;/h3&gt;
&lt;p data-end=&quot;3521&quot; data-start=&quot;3406&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터는 종종 &lt;b&gt;microbiome 대사&lt;/b&gt;의 영향을 크게 받는다. 특히 혈액이나 장 관련 샘플에서는 microbiome-derived metabolite가 상당한 비율을 차지한다.&lt;/p&gt;
&lt;p data-end=&quot;3577&quot; data-start=&quot;3523&quot; data-ke-size=&quot;size16&quot;&gt;반면 transcriptomics 데이터는 보통 host gene expression을 반영한다.&lt;/p&gt;
&lt;p data-end=&quot;3735&quot; data-start=&quot;3579&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 metabolomics 변화가 host gene expression과 직접 연결되지 않을 수 있다. 예를 들어 특정 metabolite 변화가 microbiome metabolism 때문이라면 transcriptomics 데이터에서는 관련 변화가 나타나지 않을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3758&quot; data-start=&quot;3742&quot; data-section-id=&quot;1v9ycg1&quot; data-ke-size=&quot;size23&quot;&gt;8. 기술적 요인의 가능성&lt;/h3&gt;
&lt;p data-end=&quot;3845&quot; data-start=&quot;3760&quot; data-ke-size=&quot;size16&quot;&gt;물론 transcriptomics와 metabolomics 데이터 충돌이 항상 생물학적 이유 때문만은 아니다. 다음과 같은 기술적 요인도 고려해야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3940&quot; data-start=&quot;3847&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3875&quot; data-start=&quot;3847&quot; data-section-id=&quot;f1ycif&quot;&gt;metabolite annotation 오류&lt;/li&gt;
&lt;li data-end=&quot;3892&quot; data-start=&quot;3876&quot; data-section-id=&quot;145tz6r&quot;&gt;batch effect&lt;/li&gt;
&lt;li data-end=&quot;3918&quot; data-start=&quot;3893&quot; data-section-id=&quot;fqj7nv&quot;&gt;sample preparation 차이&lt;/li&gt;
&lt;li data-end=&quot;3940&quot; data-start=&quot;3919&quot; data-section-id=&quot;2rbrw5&quot;&gt;normalization 방법 차이&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4047&quot; data-start=&quot;3942&quot; data-ke-size=&quot;size16&quot;&gt;특히 untargeted metabolomics에서는 일부 metabolite identification이 불확실할 수 있기 때문에 데이터 해석 전에 이러한 부분을 확인하는 것이 중요하다.&lt;/p&gt;
&lt;h3 data-end=&quot;4079&quot; data-start=&quot;4054&quot; data-section-id=&quot;1azcaj9&quot; data-ke-size=&quot;size23&quot;&gt;9. 데이터 충돌을 해석하는 현실적인 접근&lt;/h3&gt;
&lt;p data-end=&quot;4173&quot; data-start=&quot;4081&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics와 metabolomics 결과가 서로 맞지 않을 때 가장 중요한 것은 &lt;b&gt;어느 데이터가 맞는지를 판단하려는 접근에서 벗어나는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;4203&quot; data-start=&quot;4175&quot; data-ke-size=&quot;size16&quot;&gt;대신 다음과 같은 질문을 던지는 것이 도움이 된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4352&quot; data-start=&quot;4205&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4245&quot; data-start=&quot;4205&quot; data-section-id=&quot;bo8klx&quot;&gt;이 pathway에서 실제 flux 변화가 있었을 가능성은 있는가&lt;/li&gt;
&lt;li data-end=&quot;4276&quot; data-start=&quot;4246&quot; data-section-id=&quot;bdbfjq&quot;&gt;관련 enzyme 단백질 수준은 어떻게 변했는가&lt;/li&gt;
&lt;li data-end=&quot;4329&quot; data-start=&quot;4277&quot; data-section-id=&quot;3iedg1&quot;&gt;metabolite ratio나 precursor-product 관계는 어떻게 변했는가&lt;/li&gt;
&lt;li data-end=&quot;4352&quot; data-start=&quot;4330&quot; data-section-id=&quot;1nniaug&quot;&gt;시간에 따른 변화 패턴은 어떠한가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4395&quot; data-start=&quot;4354&quot; data-ke-size=&quot;size16&quot;&gt;이러한 질문을 통해 두 데이터 사이의 관계를 더 정확하게 이해할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4406&quot; data-start=&quot;4402&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4545&quot; data-start=&quot;4408&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics와 metabolomics 데이터가 서로 충돌하는 상황은 multi-omics 연구에서 매우 흔하게 나타난다. 하지만 이러한 불일치는 단순한 오류라기보다 &lt;b&gt;생물학적 시스템의 복잡성을 반영하는 신호&lt;/b&gt;일 가능성이 높다.&lt;/p&gt;
&lt;p data-end=&quot;4637&quot; data-start=&quot;4547&quot; data-ke-size=&quot;size16&quot;&gt;RNA 발현, 단백질 수준, 대사체 농도는 각각 서로 다른 층위에서 생물학적 상태를 반영한다. 따라서 이들이 항상 동일한 방향의 변화를 보여야 하는 것은 아니다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4845&quot; data-start=&quot;4639&quot; data-ke-size=&quot;size16&quot;&gt;오히려 이러한 차이를 이해하는 과정에서 연구자는 &lt;b&gt;효소 조절, metabolic flux, feedback regulation&lt;/b&gt;과 같은 중요한 생물학적 메커니즘을 발견할 수 있다. 결국 multi-omics 연구의 핵심은 서로 다른 데이터가 동일한 이야기를 하기를 기대하는 것이 아니라, &lt;b&gt;왜 서로 다른 이야기를 하고 있는지를 이해하는 것&lt;/b&gt;이라고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>metabolomics</category>
      <category>Multi-omics</category>
      <category>Transcriptomics</category>
      <category>생물학적 시스템의 복잡성</category>
      <category>효소 조절</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/419</guid>
      <comments>https://info-tistory.tistory.com/419#entry419comment</comments>
      <pubDate>Fri, 27 Mar 2026 20:59:03 +0900</pubDate>
    </item>
    <item>
      <title>Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유</title>
      <link>https://info-tistory.tistory.com/418</link>
      <description>&lt;p data-end=&quot;67&quot; data-start=&quot;39&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 데이터가 많아질수록 오히려 결과가 흔들리는 이유&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;498&quot; data-origin-height=&quot;418&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b3hBxq/dJMcadVxeAy/OgYLKfV09PKdIIL9L2Y2B1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b3hBxq/dJMcadVxeAy/OgYLKfV09PKdIIL9L2Y2B1/img.png&quot; data-alt=&quot;Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b3hBxq/dJMcadVxeAy/OgYLKfV09PKdIIL9L2Y2B1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb3hBxq%2FdJMcadVxeAy%2FOgYLKfV09PKdIIL9L2Y2B1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유&quot; loading=&quot;lazy&quot; width=&quot;498&quot; height=&quot;418&quot; data-origin-width=&quot;498&quot; data-origin-height=&quot;418&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;232&quot; data-start=&quot;69&quot; data-ke-size=&quot;size16&quot;&gt;최근 생명과학 연구에서 가장 많이 등장하는 단어 중 하나가 &lt;b&gt;multi-omics&lt;/b&gt;이다.&lt;br /&gt;유전체, 전사체, 단백질체, 대사체 데이터를 함께 분석하면 생물학적 시스템을 더 정확하게 이해할 수 있을 것이라는 기대가 자연스럽게 따라온다. 실제로 많은 연구에서는 다음과 같은 구도를 제시한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;361&quot; data-start=&quot;234&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;268&quot; data-start=&quot;234&quot; data-section-id=&quot;rq188x&quot;&gt;&lt;b&gt;Genomics &amp;rarr; 가능성(가능한 유전자 변이)&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;300&quot; data-start=&quot;269&quot; data-section-id=&quot;i0icqz&quot;&gt;&lt;b&gt;Transcriptomics &amp;rarr; 발현 변화&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;331&quot; data-start=&quot;301&quot; data-section-id=&quot;nbceb0&quot;&gt;&lt;b&gt;Proteomics &amp;rarr; 실제 단백질 수준&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;361&quot; data-start=&quot;332&quot; data-section-id=&quot;qw76j9&quot;&gt;&lt;b&gt;Metabolomics &amp;rarr; 최종 대사 상태&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;478&quot; data-start=&quot;363&quot; data-ke-size=&quot;size16&quot;&gt;이 네 가지 층위를 연결하면 질병의 메커니즘을 훨씬 명확하게 설명할 수 있을 것처럼 보인다. 그래서 multi-omics 통합 분석은 종종 &amp;ldquo;systems biology의 완성 단계&amp;rdquo;처럼 이야기되기도 한다.&lt;/p&gt;
&lt;p data-end=&quot;670&quot; data-start=&quot;480&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 연구 현장에서는 조금 다른 현상이 나타난다. multi-omics 데이터로 매우 인상적인 결과를 얻었다고 생각했지만, &lt;b&gt;다른 cohort에서 동일한 분석을 수행하면 결과가 재현되지 않는 경우&lt;/b&gt;가 적지 않다. 동일한 분석 파이프라인을 적용했음에도 불구하고 biomarker 패턴이 바뀌거나, 모델 성능이 크게 떨어지기도 한다.&lt;/p&gt;
&lt;p data-end=&quot;797&quot; data-start=&quot;672&quot; data-ke-size=&quot;size16&quot;&gt;이러한 현상은 단순히 데이터 품질 문제라기보다 multi-omics 데이터 구조 자체에서 비롯되는 경우가 많다. 이 글에서는 multi-omics 통합 분석이 기대만큼 재현되지 않는 이유를 몇 가지 관점에서 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;841&quot; data-start=&quot;804&quot; data-section-id=&quot;cjigcy&quot; data-ke-size=&quot;size23&quot;&gt;1. 서로 다른 omics는 서로 다른 생물학적 시간을 반영한다&lt;/h3&gt;
&lt;p data-end=&quot;915&quot; data-start=&quot;843&quot; data-ke-size=&quot;size16&quot;&gt;가장 근본적인 이유 중 하나는 각 omics 데이터가 &lt;b&gt;서로 다른 biological timescale&lt;/b&gt;을 반영한다는 점이다.&lt;/p&gt;
&lt;p data-end=&quot;947&quot; data-start=&quot;917&quot; data-ke-size=&quot;size16&quot;&gt;생물학적 정보 흐름은 일반적으로 다음과 같이 설명된다.&lt;/p&gt;
&lt;p data-end=&quot;981&quot; data-start=&quot;949&quot; data-ke-size=&quot;size16&quot;&gt;DNA &amp;rarr; RNA &amp;rarr; Protein &amp;rarr; Metabolite&lt;/p&gt;
&lt;p data-end=&quot;1033&quot; data-start=&quot;983&quot; data-ke-size=&quot;size16&quot;&gt;하지만 이 과정은 단순한 선형 흐름이 아니다. 각 단계는 서로 다른 시간적 특성을 가진다.&lt;/p&gt;
&lt;p data-end=&quot;1041&quot; data-start=&quot;1035&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어,&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1180&quot; data-start=&quot;1043&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1075&quot; data-start=&quot;1043&quot; data-section-id=&quot;wt0adb&quot;&gt;유전자 변이는 비교적 &lt;b&gt;장기적으로 안정적&lt;/b&gt;이다.&lt;/li&gt;
&lt;li data-end=&quot;1108&quot; data-start=&quot;1076&quot; data-section-id=&quot;1ajrrb&quot;&gt;RNA 발현은 &lt;b&gt;분 단위에서 변화&lt;/b&gt;할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;1149&quot; data-start=&quot;1109&quot; data-section-id=&quot;7ge527&quot;&gt;단백질 abundance는 &lt;b&gt;시간에 따라 점진적으로 변한다.&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;1180&quot; data-start=&quot;1150&quot; data-section-id=&quot;1esc3dn&quot;&gt;대사체 농도는 &lt;b&gt;초 단위에서도 변할 수 있다.&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1297&quot; data-start=&quot;1182&quot; data-ke-size=&quot;size16&quot;&gt;즉 동일한 샘플을 분석하더라도 각 omics가 반영하는 생물학적 상태는 서로 다른 시간 지점을 반영할 수 있다. 이러한 시간 차이는 multi-omics 통합 분석에서 예상보다 약한 상관관계를 만들어 낸다.&lt;/p&gt;
&lt;h3 data-end=&quot;1330&quot; data-start=&quot;1304&quot; data-section-id=&quot;r9jofm&quot; data-ke-size=&quot;size23&quot;&gt;2. Omics 간 상관관계는 생각보다 낮다&lt;/h3&gt;
&lt;p data-end=&quot;1425&quot; data-start=&quot;1332&quot; data-ke-size=&quot;size16&quot;&gt;많은 연구자들은 RNA, 단백질, 대사체 데이터가 서로 강하게 연결되어 있을 것이라고 기대한다. 그러나 실제 데이터에서는 이러한 상관관계가 생각보다 낮은 경우가 많다.&lt;/p&gt;
&lt;p data-end=&quot;1560&quot; data-start=&quot;1427&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 transcriptomics와 proteomics 사이의 상관계수는 일반적으로 &lt;b&gt;0.3~0.5 정도&lt;/b&gt;에 불과하다. 이는 상당수의 유전자에서 RNA 발현 변화가 단백질 abundance 변화로 직접 이어지지 않는다는 의미이다.&lt;/p&gt;
&lt;p data-end=&quot;1595&quot; data-start=&quot;1562&quot; data-ke-size=&quot;size16&quot;&gt;그 이유는 다음과 같은 여러 조절 단계가 존재하기 때문이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1700&quot; data-start=&quot;1597&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1615&quot; data-start=&quot;1597&quot; data-section-id=&quot;1iv5ozh&quot;&gt;mRNA stability&lt;/li&gt;
&lt;li data-end=&quot;1642&quot; data-start=&quot;1616&quot; data-section-id=&quot;1qv4bxw&quot;&gt;translation efficiency&lt;/li&gt;
&lt;li data-end=&quot;1666&quot; data-start=&quot;1643&quot; data-section-id=&quot;1yoyjen&quot;&gt;protein degradation&lt;/li&gt;
&lt;li data-end=&quot;1700&quot; data-start=&quot;1667&quot; data-section-id=&quot;1h6cgxx&quot;&gt;post-translational modification&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1857&quot; data-start=&quot;1702&quot; data-ke-size=&quot;size16&quot;&gt;이러한 과정 때문에 RNA 수준의 변화가 단백질 수준에서 그대로 나타나지 않는 경우가 많다. metabolomics에서는 이러한 차이가 더욱 크게 나타난다. 대사체 농도는 효소 활성, substrate availability, 세포 환경 등 다양한 요인의 영향을 받기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;1923&quot; data-start=&quot;1859&quot; data-ke-size=&quot;size16&quot;&gt;결과적으로 multi-omics 데이터를 단순히 결합한다고 해서 항상 일관된 생물학적 패턴이 나타나는 것은 아니다.&lt;/p&gt;
&lt;h3 data-end=&quot;1950&quot; data-start=&quot;1930&quot; data-section-id=&quot;93p5h6&quot; data-ke-size=&quot;size23&quot;&gt;3. 데이터 차원의 폭발적인 증가&lt;/h3&gt;
&lt;p data-end=&quot;2035&quot; data-start=&quot;1952&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 통합 분석에서 또 하나 중요한 문제는 &lt;b&gt;데이터 차원의 증가&lt;/b&gt;이다. 각각의 omics 데이터는 이미 매우 높은 차원을 가진다.&lt;/p&gt;
&lt;p data-end=&quot;2065&quot; data-start=&quot;2037&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 일반적인 분석 규모를 보면 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2159&quot; data-start=&quot;2067&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2099&quot; data-start=&quot;2067&quot; data-section-id=&quot;cvb0s8&quot;&gt;transcriptomics: 20,000 gene&lt;/li&gt;
&lt;li data-end=&quot;2129&quot; data-start=&quot;2100&quot; data-section-id=&quot;14vu2br&quot;&gt;proteomics: 5,000 protein&lt;/li&gt;
&lt;li data-end=&quot;2159&quot; data-start=&quot;2130&quot; data-section-id=&quot;1l1jwbw&quot;&gt;metabolomics: 1,000 feature&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2242&quot; data-start=&quot;2161&quot; data-ke-size=&quot;size16&quot;&gt;이 세 가지 데이터를 결합하면 분석 변수의 수는 수만 개 수준이 된다. 반면 연구에서 사용되는 sample 수는 보통 수십에서 수백 개 정도이다.&lt;/p&gt;
&lt;p data-end=&quot;2281&quot; data-start=&quot;2244&quot; data-ke-size=&quot;size16&quot;&gt;즉 multi-omics 분석에서는 다음과 같은 구조가 만들어진다.&lt;/p&gt;
&lt;p data-end=&quot;2294&quot; data-start=&quot;2283&quot; data-ke-size=&quot;size16&quot;&gt;변수 수 ≫ 샘플 수&lt;/p&gt;
&lt;p data-end=&quot;2419&quot; data-start=&quot;2296&quot; data-ke-size=&quot;size16&quot;&gt;이러한 상황에서는 통계 모델이 데이터에 과도하게 맞춰지는 &lt;b&gt;overfitting&lt;/b&gt; 문제가 쉽게 발생한다. 한 dataset에서는 매우 좋은 결과가 나오지만, 다른 dataset에서는 재현되지 않는 이유가 여기에 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2449&quot; data-start=&quot;2426&quot; data-section-id=&quot;wdww92&quot; data-ke-size=&quot;size23&quot;&gt;4. Omics 간 기술적 변동성 차이&lt;/h3&gt;
&lt;p data-end=&quot;2487&quot; data-start=&quot;2451&quot; data-ke-size=&quot;size16&quot;&gt;각 omics 플랫폼은 서로 다른 수준의 기술적 변동성을 가진다.&lt;/p&gt;
&lt;p data-end=&quot;2494&quot; data-start=&quot;2489&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2642&quot; data-start=&quot;2496&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2529&quot; data-start=&quot;2496&quot; data-section-id=&quot;n5q3ez&quot;&gt;RNA-seq 데이터는 비교적 높은 재현성을 가진다.&lt;/li&gt;
&lt;li data-end=&quot;2577&quot; data-start=&quot;2530&quot; data-section-id=&quot;di1tqa&quot;&gt;shotgun proteomics는 missing value 문제가 존재한다.&lt;/li&gt;
&lt;li data-end=&quot;2642&quot; data-start=&quot;2578&quot; data-section-id=&quot;1u9wfzh&quot;&gt;untargeted metabolomics는 instrument drift와 batch effect에 민감하다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2772&quot; data-start=&quot;2644&quot; data-ke-size=&quot;size16&quot;&gt;이러한 차이는 multi-omics 통합 분석에서 중요한 문제를 만든다. 서로 다른 노이즈 구조를 가진 데이터를 결합하면 분석 모델이 &lt;b&gt;실제 biological signal보다 기술적 변동성에 더 크게 영향을 받을 수 있다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2893&quot; data-start=&quot;2774&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics 데이터에서는 batch effect나 instrument drift가 결과에 큰 영향을 줄 수 있기 때문에 multi-omics 통합 분석에서 불안정성을 증가시키는 요인이 되기도 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;2922&quot; data-start=&quot;2900&quot; data-section-id=&quot;pn6js6&quot; data-ke-size=&quot;size23&quot;&gt;5. Annotation 수준의 차이&lt;/h3&gt;
&lt;p data-end=&quot;2985&quot; data-start=&quot;2924&quot; data-ke-size=&quot;size16&quot;&gt;또 하나 자주 간과되는 문제는 각 omics 데이터의 &lt;b&gt;annotation 수준이 서로 다르다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;3071&quot; data-start=&quot;2987&quot; data-ke-size=&quot;size16&quot;&gt;Transcriptomics에서는 대부분의 gene이 잘 정의되어 있다.&lt;br /&gt;Proteomics에서도 상당수 단백질이 database에 정리되어 있다.&lt;/p&gt;
&lt;p data-end=&quot;3171&quot; data-start=&quot;3073&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolomics에서는 상황이 다르다. untargeted metabolomics 데이터에서는 상당수 feature가 정확히 identification되지 않는다.&lt;/p&gt;
&lt;p data-end=&quot;3213&quot; data-start=&quot;3173&quot; data-ke-size=&quot;size16&quot;&gt;즉 multi-omics 통합 분석에서는 다음과 같은 불균형이 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3310&quot; data-start=&quot;3215&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3274&quot; data-start=&quot;3215&quot; data-section-id=&quot;1udgqco&quot;&gt;genomics / transcriptomics &amp;rarr; 높은 annotation completeness&lt;/li&gt;
&lt;li data-end=&quot;3310&quot; data-start=&quot;3275&quot; data-section-id=&quot;1b8edv3&quot;&gt;metabolomics &amp;rarr; 많은 unknown feature&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3418&quot; data-start=&quot;3312&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 pathway analysis나 network analysis를 수행할 때 일부 데이터만 해석에 사용되는 경우가 많다. 이러한 불균형은 결과의 재현성을 낮추는 원인이 될 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3443&quot; data-start=&quot;3425&quot; data-section-id=&quot;1oe5d3i&quot; data-ke-size=&quot;size23&quot;&gt;6. 서로 다른 데이터 스케일&lt;/h3&gt;
&lt;p data-end=&quot;3477&quot; data-start=&quot;3445&quot; data-ke-size=&quot;size16&quot;&gt;각 omics 데이터는 서로 다른 스케일과 분포를 가진다.&lt;/p&gt;
&lt;p data-end=&quot;3484&quot; data-start=&quot;3479&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3572&quot; data-start=&quot;3486&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3512&quot; data-start=&quot;3486&quot; data-section-id=&quot;ryrkz6&quot;&gt;RNA-seq 데이터 &amp;rarr; count 기반&lt;/li&gt;
&lt;li data-end=&quot;3542&quot; data-start=&quot;3513&quot; data-section-id=&quot;143dvtm&quot;&gt;proteomics &amp;rarr; intensity 기반&lt;/li&gt;
&lt;li data-end=&quot;3572&quot; data-start=&quot;3543&quot; data-section-id=&quot;1pypz19&quot;&gt;metabolomics &amp;rarr; peak area 기반&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3681&quot; data-start=&quot;3574&quot; data-ke-size=&quot;size16&quot;&gt;이러한 데이터는 분포 특성이 서로 다르기 때문에 통합 분석 전에 normalization이나 transformation이 필요하다. 하지만 어떤 방식이 가장 적절한지는 연구마다 다를 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3781&quot; data-start=&quot;3683&quot; data-ke-size=&quot;size16&quot;&gt;Normalization 방식이 조금만 달라져도 multi-omics 통합 결과가 크게 달라질 수 있기 때문에, 동일한 데이터라도 분석 방법에 따라 다른 결과가 나올 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3817&quot; data-start=&quot;3788&quot; data-section-id=&quot;e47kpg&quot; data-ke-size=&quot;size23&quot;&gt;7. Biological heterogeneity&lt;/h3&gt;
&lt;p data-end=&quot;3908&quot; data-start=&quot;3819&quot; data-ke-size=&quot;size16&quot;&gt;실제 생물학적 시스템 자체도 매우 이질적이다. 특히 인간 cohort 연구에서는 다음과 같은 요인이 metabolome과 proteome에 영향을 줄 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3962&quot; data-start=&quot;3910&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3919&quot; data-start=&quot;3910&quot; data-section-id=&quot;1e7htro&quot;&gt;식이 습관&lt;/li&gt;
&lt;li data-end=&quot;3934&quot; data-start=&quot;3920&quot; data-section-id=&quot;19m8n32&quot;&gt;microbiome&lt;/li&gt;
&lt;li data-end=&quot;3944&quot; data-start=&quot;3935&quot; data-section-id=&quot;1govqk5&quot;&gt;약물 복용&lt;/li&gt;
&lt;li data-end=&quot;3954&quot; data-start=&quot;3945&quot; data-section-id=&quot;1v7jh3w&quot;&gt;생활 습관&lt;/li&gt;
&lt;li data-end=&quot;3962&quot; data-start=&quot;3955&quot; data-section-id=&quot;1ndf86h&quot;&gt;환경 노출&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4082&quot; data-start=&quot;3964&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인들은 유전자 수준보다 대사체 수준에서 더 크게 나타난다. 따라서 metabolomics 데이터를 포함한 multi-omics 분석에서는 biological variability가 크게 증가할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;4110&quot; data-start=&quot;4084&quot; data-ke-size=&quot;size16&quot;&gt;이 역시 결과 재현성을 낮추는 중요한 요인이다.&lt;/p&gt;
&lt;h3 data-end=&quot;4137&quot; data-start=&quot;4117&quot; data-section-id=&quot;lzgguy&quot; data-ke-size=&quot;size23&quot;&gt;8. Network 해석의 복잡성&lt;/h3&gt;
&lt;p data-end=&quot;4255&quot; data-start=&quot;4139&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 분석의 궁극적인 목표는 biological network를 이해하는 것이다. 그러나 실제 metabolic network와 signaling network는 매우 복잡하게 연결되어 있다.&lt;/p&gt;
&lt;p data-end=&quot;4350&quot; data-start=&quot;4257&quot; data-ke-size=&quot;size16&quot;&gt;하나의 metabolite는 여러 pathway에 동시에 참여할 수 있으며, 하나의 protein 역시 여러 biological process에서 역할을 할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;4487&quot; data-start=&quot;4352&quot; data-ke-size=&quot;size16&quot;&gt;이러한 네트워크 구조 때문에 multi-omics 데이터에서 관찰되는 패턴을 단순한 인과 관계로 해석하기는 어렵다. 결과적으로 서로 다른 dataset에서 약간의 변화가 생기면 network interpretation도 크게 달라질 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4522&quot; data-start=&quot;4494&quot; data-section-id=&quot;129qyyj&quot; data-ke-size=&quot;size23&quot;&gt;9. Multi-omics 분석의 현실적인 접근&lt;/h3&gt;
&lt;p data-end=&quot;4584&quot; data-start=&quot;4524&quot; data-ke-size=&quot;size16&quot;&gt;이러한 이유로 최근에는 multi-omics 통합 분석을 수행할 때 조금 더 현실적인 접근이 강조되고 있다.&lt;/p&gt;
&lt;p data-end=&quot;4608&quot; data-start=&quot;4586&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 전략이 사용된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4744&quot; data-start=&quot;4610&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4649&quot; data-start=&quot;4610&quot; data-section-id=&quot;m9o57q&quot;&gt;각 omics 데이터를 &lt;b&gt;독립적으로 분석&lt;/b&gt;한 뒤 결과를 비교&lt;/li&gt;
&lt;li data-end=&quot;4669&quot; data-start=&quot;4650&quot; data-section-id=&quot;1v5sdeq&quot;&gt;pathway 수준에서 통합&lt;/li&gt;
&lt;li data-end=&quot;4713&quot; data-start=&quot;4670&quot; data-section-id=&quot;10hv4kb&quot;&gt;machine learning 기반 feature integration&lt;/li&gt;
&lt;li data-end=&quot;4744&quot; data-start=&quot;4714&quot; data-section-id=&quot;cxm268&quot;&gt;network-based interpretation&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4801&quot; data-start=&quot;4746&quot; data-ke-size=&quot;size16&quot;&gt;이러한 접근은 모든 데이터를 하나의 모델로 통합하려는 시도보다 더 안정적인 결과를 제공할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4812&quot; data-start=&quot;4808&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4913&quot; data-start=&quot;4814&quot; data-ke-size=&quot;size16&quot;&gt;Multi-omics 통합 분석은 분명 매우 강력한 연구 도구이다. 서로 다른 생물학적 층위를 동시에 분석함으로써 복잡한 생명 현상을 더 깊이 이해할 수 있는 가능성을 제공한다.&lt;/p&gt;
&lt;p data-end=&quot;5022&quot; data-start=&quot;4915&quot; data-ke-size=&quot;size16&quot;&gt;하지만 데이터가 많아질수록 결과가 자동으로 더 정확해지는 것은 아니다. 오히려 서로 다른 시간 규모, 기술적 변동성, 데이터 구조 차이 등이 결합되면서 &lt;b&gt;결과의 재현성이 낮아질 수 있다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;5205&quot; data-start=&quot;5024&quot; data-ke-size=&quot;size16&quot;&gt;따라서 multi-omics 연구에서 중요한 것은 가능한 많은 데이터를 결합하는 것이 아니라, &lt;b&gt;각 데이터가 무엇을 의미하는지 이해하면서 신중하게 통합하는 것&lt;/b&gt;이다. 결국 좋은 multi-omics 분석은 복잡한 데이터를 단순하게 만들기보다는, 그 복잡성을 이해하고 해석 가능한 수준으로 정리하는 과정이라고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Biological heterogeneity</category>
      <category>multi-omics 통합 분석</category>
      <category>Network 해석</category>
      <category>Systems biology</category>
      <category>재현성</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/418</guid>
      <comments>https://info-tistory.tistory.com/418#entry418comment</comments>
      <pubDate>Thu, 26 Mar 2026 20:37:12 +0900</pubDate>
    </item>
    <item>
      <title>동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유</title>
      <link>https://info-tistory.tistory.com/417</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;letter-spacing: 0px;&quot;&gt;&amp;ndash; LC-MS 기반 metabolomics 해석에서 가장 자주 발생하는 오해&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;404&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cH11vD/dJMcahwVv4Y/QBqAM57gP5n5D1SvcpMxQk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cH11vD/dJMcahwVv4Y/QBqAM57gP5n5D1SvcpMxQk/img.png&quot; data-alt=&quot;동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cH11vD/dJMcahwVv4Y/QBqAM57gP5n5D1SvcpMxQk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcH11vD%2FdJMcahwVv4Y%2FQBqAM57gP5n5D1SvcpMxQk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유&quot; loading=&quot;lazy&quot; width=&quot;600&quot; height=&quot;404&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;404&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;div&gt;
&lt;div data-message-model-slug=&quot;gpt-5-3&quot; data-message-id=&quot;c8de4e73-b4e6-4777-813a-c7301efb5bcd&quot; data-message-author-role=&quot;assistant&quot;&gt;
&lt;p data-end=&quot;147&quot; data-start=&quot;83&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS 기반 metabolomics 데이터를 처음 분석하는 연구자들이 가장 자주 하는 질문 중 하나는 이것이다.&lt;/p&gt;
&lt;p data-end=&quot;179&quot; data-start=&quot;149&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;같은 m/z라면 같은 metabolite 아닌가요?&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;376&quot; data-start=&quot;181&quot; data-ke-size=&quot;size16&quot;&gt;표면적으로 보면 이 질문은 매우 합리적으로 보인다. 질량분석기에서 측정되는 값은 mass-to-charge ratio(m/z)이기 때문에, 동일한 m/z가 검출된다면 동일한 분자를 의미할 것처럼 보이기 때문이다. 실제로 metabolomics 데이터 처리 과정에서도 feature는 보통 &lt;b&gt;m/z와 retention time 조합&lt;/b&gt;으로 정의된다.&lt;/p&gt;
&lt;p data-end=&quot;558&quot; data-start=&quot;378&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제 LC-MS 데이터 해석에서는 동일한 m/z 값이 &lt;b&gt;완전히 다른 생물학적 의미를 가진 신호&lt;/b&gt;일 수 있다. 심지어 같은 샘플에서 검출된 신호라도 그 해석이 완전히 달라질 수 있다. 이 현상은 metabolomics 연구에서 매우 중요한 문제이며, 잘 이해하지 못하면 데이터 해석에서 큰 오류로 이어질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;658&quot; data-start=&quot;560&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 LC-MS 기반 metabolomics에서 동일한 m/z가 서로 다른 의미를 가질 수 있는 이유를 분석하고, 이러한 문제를 어떻게 이해해야 하는지 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;698&quot; data-start=&quot;665&quot; data-section-id=&quot;1htp8e4&quot; data-ke-size=&quot;size23&quot;&gt;1. 구조 이성질체 (Structural Isomers)&lt;/h3&gt;
&lt;p data-end=&quot;789&quot; data-start=&quot;700&quot; data-ke-size=&quot;size16&quot;&gt;동일한 m/z가 다른 의미를 가질 수 있는 가장 대표적인 이유는 &lt;b&gt;구조 이성질체&lt;/b&gt; 때문이다. 구조 이성질체는 분자식은 같지만 구조가 다른 화합물을 의미한다.&lt;/p&gt;
&lt;p data-end=&quot;850&quot; data-start=&quot;791&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 분자식 C6H12O6을 생각해 보자. 이 분자식은 다음과 같은 다양한 화합물을 포함할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;890&quot; data-start=&quot;852&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;863&quot; data-start=&quot;852&quot; data-section-id=&quot;1h9cvik&quot;&gt;glucose&lt;/li&gt;
&lt;li data-end=&quot;876&quot; data-start=&quot;864&quot; data-section-id=&quot;1xdvvs7&quot;&gt;fructose&lt;/li&gt;
&lt;li data-end=&quot;890&quot; data-start=&quot;877&quot; data-section-id=&quot;1ar28ml&quot;&gt;galactose&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;972&quot; data-start=&quot;892&quot; data-ke-size=&quot;size16&quot;&gt;이 화합물들은 동일한 정확 질량을 가지기 때문에 MS 분석에서는 동일한 m/z로 나타날 수 있다. 그러나 이들의 생물학적 역할은 상당히 다르다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1062&quot; data-start=&quot;974&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;998&quot; data-start=&quot;974&quot; data-section-id=&quot;1rwbb8i&quot;&gt;glucose &amp;rarr; 주요 에너지 공급원&lt;/li&gt;
&lt;li data-end=&quot;1022&quot; data-start=&quot;999&quot; data-section-id=&quot;26mt3p&quot;&gt;fructose &amp;rarr; 간 대사와 관련&lt;/li&gt;
&lt;li data-end=&quot;1062&quot; data-start=&quot;1023&quot; data-section-id=&quot;8sfdww&quot;&gt;galactose &amp;rarr; glycosylation pathway와 관련&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1114&quot; data-start=&quot;1064&quot; data-ke-size=&quot;size16&quot;&gt;즉 동일한 m/z가 &lt;b&gt;완전히 다른 metabolic context&lt;/b&gt;를 의미할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1154&quot; data-start=&quot;1121&quot; data-section-id=&quot;dc7fue&quot; data-ke-size=&quot;size23&quot;&gt;2. 위치 이성질체 (Positional Isomers)&lt;/h3&gt;
&lt;p data-end=&quot;1249&quot; data-start=&quot;1156&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics에서 특히 중요한 것은 &lt;b&gt;위치 이성질체&lt;/b&gt;이다. 이는 분자 구조는 유사하지만 특정 functional group의 위치가 다른 경우를 의미한다.&lt;/p&gt;
&lt;p data-end=&quot;1354&quot; data-start=&quot;1251&quot; data-ke-size=&quot;size16&quot;&gt;Lipid metabolomics에서 이러한 문제는 매우 흔하게 나타난다. 예를 들어 동일한 phospholipid라도 fatty acid chain의 위치가 다르면 다른 분자가 된다.&lt;/p&gt;
&lt;p data-end=&quot;1359&quot; data-start=&quot;1356&quot; data-ke-size=&quot;size16&quot;&gt;예시:&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1394&quot; data-start=&quot;1361&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1378&quot; data-start=&quot;1361&quot; data-section-id=&quot;r8k2sa&quot;&gt;PC(16:0/18:1)&lt;/li&gt;
&lt;li data-end=&quot;1394&quot; data-start=&quot;1379&quot; data-section-id=&quot;170wtoa&quot;&gt;PC(18:1/16:0)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1477&quot; data-start=&quot;1396&quot; data-ke-size=&quot;size16&quot;&gt;이 두 화합물은 분자식이 동일하며 MS에서 동일한 m/z를 보일 수 있다. 하지만 세포막 구조나 대사 경로에서는 서로 다른 의미를 가질 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1512&quot; data-start=&quot;1484&quot; data-section-id=&quot;b1dehg&quot; data-ke-size=&quot;size23&quot;&gt;3. 입체 이성질체 (Stereoisomers)&lt;/h3&gt;
&lt;p data-end=&quot;1587&quot; data-start=&quot;1514&quot; data-ke-size=&quot;size16&quot;&gt;또 다른 중요한 경우는 &lt;b&gt;입체 이성질체&lt;/b&gt;이다. 입체 이성질체는 동일한 분자식과 연결 구조를 가지지만 공간 배열이 다른 분자이다.&lt;/p&gt;
&lt;p data-end=&quot;1604&quot; data-start=&quot;1589&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 예는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1633&quot; data-start=&quot;1606&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1619&quot; data-start=&quot;1606&quot; data-section-id=&quot;1gw3o6b&quot;&gt;L-lactate&lt;/li&gt;
&lt;li data-end=&quot;1633&quot; data-start=&quot;1620&quot; data-section-id=&quot;1uroi7f&quot;&gt;D-lactate&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1709&quot; data-start=&quot;1635&quot; data-ke-size=&quot;size16&quot;&gt;두 화합물은 동일한 질량을 가지며 LC-MS 분석에서는 구분이 어려운 경우도 있다. 하지만 생물학적으로는 완전히 다른 의미를 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1774&quot; data-start=&quot;1711&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1742&quot; data-start=&quot;1711&quot; data-section-id=&quot;9eicjt&quot;&gt;L-lactate &amp;rarr; 인간 세포 대사의 주요 산물&lt;/li&gt;
&lt;li data-end=&quot;1774&quot; data-start=&quot;1743&quot; data-section-id=&quot;71cuj&quot;&gt;D-lactate &amp;rarr; microbiome 대사와 관련&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1864&quot; data-start=&quot;1776&quot; data-ke-size=&quot;size16&quot;&gt;즉 동일한 m/z 신호가 &lt;b&gt;host metabolism과 microbiome metabolism 중 어떤 것을 의미하는지&lt;/b&gt;에 따라 해석이 달라질 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1885&quot; data-start=&quot;1871&quot; data-section-id=&quot;1vf57p7&quot; data-ke-size=&quot;size23&quot;&gt;4. Adduct 형성&lt;/h3&gt;
&lt;p data-end=&quot;1999&quot; data-start=&quot;1887&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS 분석에서는 하나의 metabolite가 여러 가지 &lt;b&gt;adduct 형태&lt;/b&gt;로 검출될 수 있다. 이는 electrospray ionization 과정에서 다양한 이온 형태가 생성되기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;2043&quot; data-start=&quot;2001&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 하나의 metabolite가 다음과 같은 형태로 나타날 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2091&quot; data-start=&quot;2045&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2055&quot; data-start=&quot;2045&quot; data-section-id=&quot;1ma74wb&quot;&gt;[M+H]+&lt;/li&gt;
&lt;li data-end=&quot;2067&quot; data-start=&quot;2056&quot; data-section-id=&quot;6ov9u4&quot;&gt;[M+Na]+&lt;/li&gt;
&lt;li data-end=&quot;2078&quot; data-start=&quot;2068&quot; data-section-id=&quot;1mdolc8&quot;&gt;[M+K]+&lt;/li&gt;
&lt;li data-end=&quot;2091&quot; data-start=&quot;2079&quot; data-section-id=&quot;ndsjn5&quot;&gt;[M+NH4]+&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2195&quot; data-start=&quot;2093&quot; data-ke-size=&quot;size16&quot;&gt;이러한 경우 서로 다른 m/z 값이 생성되지만, 반대로 다른 화합물이 동일한 adduct를 형성하면 &lt;b&gt;같은 m/z 근처에서 overlapping signal&lt;/b&gt;이 나타날 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;2233&quot; data-start=&quot;2197&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 m/z 값만으로 화합물을 확정하는 것은 매우 위험하다.&lt;/p&gt;
&lt;h3 data-end=&quot;2268&quot; data-start=&quot;2240&quot; data-section-id=&quot;1c15szb&quot; data-ke-size=&quot;size23&quot;&gt;5. In-source fragmentation&lt;/h3&gt;
&lt;p data-end=&quot;2352&quot; data-start=&quot;2270&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS 분석에서는 ion source에서 일부 분자가 이미 분해될 수 있다. 이를 &lt;b&gt;in-source fragmentation&lt;/b&gt;이라고 한다.&lt;/p&gt;
&lt;p data-end=&quot;2399&quot; data-start=&quot;2354&quot; data-ke-size=&quot;size16&quot;&gt;이 경우 하나의 metabolite는 다음과 같은 신호를 동시에 생성할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2430&quot; data-start=&quot;2401&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2415&quot; data-start=&quot;2401&quot; data-section-id=&quot;yk5hj9&quot;&gt;intact ion&lt;/li&gt;
&lt;li data-end=&quot;2430&quot; data-start=&quot;2416&quot; data-section-id=&quot;wwge80&quot;&gt;fragment ion&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2500&quot; data-start=&quot;2432&quot; data-ke-size=&quot;size16&quot;&gt;문제는 이러한 fragment ion이 &lt;b&gt;다른 metabolite의 분자량과 동일한 m/z를 가질 수 있다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2553&quot; data-start=&quot;2502&quot; data-ke-size=&quot;size16&quot;&gt;즉 분석 데이터에서 동일한 m/z가 실제로는 다음 두 가지 가능성을 동시에 포함할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2600&quot; data-start=&quot;2555&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2574&quot; data-start=&quot;2555&quot; data-section-id=&quot;1qqdfbh&quot;&gt;독립적인 metabolite&lt;/li&gt;
&lt;li data-end=&quot;2600&quot; data-start=&quot;2575&quot; data-section-id=&quot;gcoxzc&quot;&gt;다른 metabolite의 fragment&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2631&quot; data-start=&quot;2602&quot; data-ke-size=&quot;size16&quot;&gt;이 차이는 생물학적 해석에서 매우 큰 영향을 미친다.&lt;/p&gt;
&lt;h3 data-end=&quot;2655&quot; data-start=&quot;2638&quot; data-section-id=&quot;bgysey&quot; data-ke-size=&quot;size23&quot;&gt;6. Isotope peak&lt;/h3&gt;
&lt;p data-end=&quot;2737&quot; data-start=&quot;2657&quot; data-ke-size=&quot;size16&quot;&gt;질량분석에서는 자연적으로 존재하는 동위원소 때문에 여러 isotope peak가 생성된다. 예를 들어 탄소에는 다음과 같은 동위원소가 존재한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2752&quot; data-start=&quot;2739&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2746&quot; data-start=&quot;2739&quot; data-section-id=&quot;15b5e3s&quot;&gt;12C&lt;/li&gt;
&lt;li data-end=&quot;2752&quot; data-start=&quot;2747&quot; data-section-id=&quot;1o2h6x&quot;&gt;13C&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2791&quot; data-start=&quot;2754&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 하나의 metabolite는 다음과 같은 패턴을 보인다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2827&quot; data-start=&quot;2793&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2803&quot; data-start=&quot;2793&quot; data-section-id=&quot;5b3aca&quot;&gt;M peak&lt;/li&gt;
&lt;li data-end=&quot;2816&quot; data-start=&quot;2804&quot; data-section-id=&quot;14xfi00&quot;&gt;M+1 peak&lt;/li&gt;
&lt;li data-end=&quot;2827&quot; data-start=&quot;2817&quot; data-section-id=&quot;1jg5r7n&quot;&gt;M+2 peak&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2937&quot; data-start=&quot;2829&quot; data-ke-size=&quot;size16&quot;&gt;이러한 isotope peak는 다른 metabolite의 monoisotopic peak와 겹칠 수 있다. 결과적으로 동일한 m/z 위치에서 서로 다른 화합물의 신호가 동시에 존재할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;2971&quot; data-start=&quot;2944&quot; data-section-id=&quot;10wwu7b&quot; data-ke-size=&quot;size23&quot;&gt;7. Retention time이 중요한 이유&lt;/h3&gt;
&lt;p data-end=&quot;3036&quot; data-start=&quot;2973&quot; data-ke-size=&quot;size16&quot;&gt;이러한 문제를 해결하기 위해 LC-MS 분석에서는 &lt;b&gt;retention time(RT)&lt;/b&gt; 정보가 매우 중요하다.&lt;/p&gt;
&lt;p data-end=&quot;3144&quot; data-start=&quot;3038&quot; data-ke-size=&quot;size16&quot;&gt;m/z만으로는 화합물을 구분하기 어렵지만, RT 정보가 추가되면 분리 가능성이 높아진다. 서로 다른 구조의 화합물은 보통 다른 chromatographic behavior를 보이기 때문이다.&lt;/p&gt;
&lt;p data-end=&quot;3194&quot; data-start=&quot;3146&quot; data-ke-size=&quot;size16&quot;&gt;따라서 metabolomics 데이터에서는 feature를 보통 다음과 같이 정의한다.&lt;/p&gt;
&lt;p data-end=&quot;3216&quot; data-start=&quot;3196&quot; data-ke-size=&quot;size16&quot;&gt;m/z + retention time&lt;/p&gt;
&lt;p data-end=&quot;3280&quot; data-start=&quot;3218&quot; data-ke-size=&quot;size16&quot;&gt;그러나 이 방법도 완벽하지는 않다. 매우 유사한 구조를 가진 화합물은 RT도 비슷하게 나타날 수 있기 때문이다.&lt;/p&gt;
&lt;h3 data-end=&quot;3325&quot; data-start=&quot;3287&quot; data-section-id=&quot;6gbtel&quot; data-ke-size=&quot;size23&quot;&gt;8. 동일한 m/z가 다른 biological story를 만든다&lt;/h3&gt;
&lt;p data-end=&quot;3416&quot; data-start=&quot;3327&quot; data-ke-size=&quot;size16&quot;&gt;이러한 이유들 때문에 metabolomics 데이터에서 동일한 m/z는 여러 가지 서로 다른 biological interpretation으로 이어질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3469&quot; data-start=&quot;3418&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 동일한 m/z feature가 다음 두 가지 후보를 가질 수 있다고 가정해 보자.&lt;/p&gt;
&lt;p data-end=&quot;3478&quot; data-start=&quot;3471&quot; data-ke-size=&quot;size16&quot;&gt;가능성 1&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3508&quot; data-start=&quot;3479&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3508&quot; data-start=&quot;3479&quot; data-section-id=&quot;7ebf4w&quot;&gt;inflammatory lipid mediator&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3517&quot; data-start=&quot;3510&quot; data-ke-size=&quot;size16&quot;&gt;가능성 2&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3545&quot; data-start=&quot;3518&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3545&quot; data-start=&quot;3518&quot; data-section-id=&quot;kegnqq&quot;&gt;membrane structural lipid&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3604&quot; data-start=&quot;3547&quot; data-ke-size=&quot;size16&quot;&gt;두 화합물은 질량이 동일할 수 있지만 biological interpretation은 완전히 달라진다.&lt;/p&gt;
&lt;p data-end=&quot;3679&quot; data-start=&quot;3606&quot; data-ke-size=&quot;size16&quot;&gt;첫 번째 해석은 염증 반응 활성화를 의미할 수 있고, 두 번째 해석은 단순한 membrane remodeling을 의미할 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3718&quot; data-start=&quot;3686&quot; data-section-id=&quot;vd0s4y&quot; data-ke-size=&quot;size23&quot;&gt;9. Metabolomics 해석에서 중요한 사고 방식&lt;/h3&gt;
&lt;p data-end=&quot;3770&quot; data-start=&quot;3720&quot; data-ke-size=&quot;size16&quot;&gt;이러한 이유로 metabolomics 데이터 해석에서는 다음과 같은 사고 방식이 중요하다.&lt;/p&gt;
&lt;p data-end=&quot;3919&quot; data-start=&quot;3772&quot; data-ke-size=&quot;size16&quot;&gt;첫째, m/z는 화합물의 정체가 아니라 &lt;b&gt;단서&lt;/b&gt;라는 점을 인식해야 한다.&lt;br /&gt;둘째, 하나의 feature는 여러 chemical identity 가능성을 가질 수 있다.&lt;br /&gt;셋째, metabolite annotation은 항상 일정 수준의 불확실성을 포함한다.&lt;/p&gt;
&lt;p data-end=&quot;3958&quot; data-start=&quot;3921&quot; data-ke-size=&quot;size16&quot;&gt;이러한 관점을 가지면 데이터 해석에서 과도한 확신을 줄일 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3969&quot; data-start=&quot;3965&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4165&quot; data-start=&quot;3971&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS 기반 metabolomics에서 동일한 m/z 값이 항상 동일한 metabolite를 의미하는 것은 아니다. 구조 이성질체, 입체 이성질체, adduct 형성, in-source fragmentation, isotope peak 등 다양한 요인 때문에 하나의 m/z 신호는 여러 chemical identity 가능성을 포함할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;4282&quot; data-start=&quot;4167&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 metabolomics 데이터 해석에서는 m/z 값만으로 결론을 내리는 것이 아니라 &lt;b&gt;chromatography, MS/MS 패턴, biological context&lt;/b&gt;를 함께 고려해야 한다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4385&quot; data-start=&quot;4284&quot; data-ke-size=&quot;size16&quot;&gt;결국 metabolomics 분석에서 중요한 것은 &amp;ldquo;이 m/z가 무엇인가?&amp;rdquo;라는 질문뿐 아니라, &amp;ldquo;이 신호가 어떤 가능성을 포함하고 있는가?&amp;rdquo;라는 질문을 함께 던지는 것이다.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;</description>
      <category>제약산업</category>
      <category>biological context</category>
      <category>chromatography</category>
      <category>LC-MS</category>
      <category>metabolomics</category>
      <category>MS/MS</category>
      <category>Structural Isomers</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/417</guid>
      <comments>https://info-tistory.tistory.com/417#entry417comment</comments>
      <pubDate>Wed, 25 Mar 2026 20:22:25 +0900</pubDate>
    </item>
    <item>
      <title>Metabolomics에서 false discovery를 줄이는 사고 방식</title>
      <link>https://info-tistory.tistory.com/416</link>
      <description>&lt;p data-end=&quot;79&quot; data-start=&quot;46&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ndash; 통계적 유의성과 생물학적 의미 사이에서 균형을 잡는 방법&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;666&quot; data-origin-height=&quot;476&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cnpOww/dJMcag5QHN9/R8p5SJo2CRMUbWzGvw5XAk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cnpOww/dJMcag5QHN9/R8p5SJo2CRMUbWzGvw5XAk/img.png&quot; data-alt=&quot;Metabolomics에서 false discovery를 줄이는 사고 방식&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cnpOww/dJMcag5QHN9/R8p5SJo2CRMUbWzGvw5XAk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcnpOww%2FdJMcag5QHN9%2FR8p5SJo2CRMUbWzGvw5XAk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;Metabolomics에서 false discovery를 줄이는 사고 방식&quot; loading=&quot;lazy&quot; width=&quot;666&quot; height=&quot;476&quot; data-origin-width=&quot;666&quot; data-origin-height=&quot;476&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;Metabolomics에서 false discovery를 줄이는 사고 방식&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;329&quot; data-start=&quot;81&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구를 진행하다 보면 매우 흥미로운 순간을 맞이하게 된다. 수천 개의 feature를 분석한 뒤 통계 분석을 수행하면 여러 metabolite가 통계적으로 유의한 차이를 보이기 시작한다. volcano plot이나 heatmap을 보면 질병군과 대조군이 분명하게 분리되고, 특정 metabolite들은 매우 낮은 p-value를 나타낸다. 연구자는 자연스럽게 이러한 결과를 기반으로 새로운 생물학적 해석을 시도하게 된다.&lt;/p&gt;
&lt;p data-end=&quot;532&quot; data-start=&quot;331&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolomics 연구에서는 바로 이 지점에서 중요한 위험이 존재한다. &lt;b&gt;false discovery&lt;/b&gt;, 즉 실제로는 의미 없는 신호를 중요한 생물학적 변화로 해석하는 오류가 매우 쉽게 발생할 수 있기 때문이다. 특히 untargeted metabolomics에서는 분석되는 변수의 수가 매우 많기 때문에 이러한 문제가 더욱 심각해질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;670&quot; data-start=&quot;534&quot; data-ke-size=&quot;size16&quot;&gt;실제로 metabolomics 연구에서 보고되는 통계적으로 유의한 metabolite 중 상당수는 이후 독립적인 실험에서 재현되지 않는 경우도 있다. 이는 분석 기술의 문제라기보다 &lt;b&gt;데이터 해석 과정에서의 사고 방식&lt;/b&gt;과 깊이 관련되어 있다.&lt;/p&gt;
&lt;p data-end=&quot;761&quot; data-start=&quot;672&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 metabolomics 연구에서 false discovery가 왜 발생하는지, 그리고 이를 줄이기 위해 어떤 사고 방식이 필요한지 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;815&quot; data-start=&quot;768&quot; data-section-id=&quot;1oukzpp&quot; data-ke-size=&quot;size23&quot;&gt;1. Metabolomics에서 false discovery가 쉽게 발생하는 이유&lt;/h3&gt;
&lt;p data-end=&quot;907&quot; data-start=&quot;817&quot; data-ke-size=&quot;size16&quot;&gt;Untargeted metabolomics 데이터는 매우 높은 차원의 정보를 포함하고 있다. 일반적인 LC-MS 분석에서는 다음과 같은 규모의 데이터가 생성된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;961&quot; data-start=&quot;909&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;931&quot; data-start=&quot;909&quot; data-section-id=&quot;cxagqs&quot;&gt;수천에서 수만 개의 feature&lt;/li&gt;
&lt;li data-end=&quot;948&quot; data-start=&quot;932&quot; data-section-id=&quot;1cl1f1b&quot;&gt;수십 개의 sample&lt;/li&gt;
&lt;li data-end=&quot;961&quot; data-start=&quot;949&quot; data-section-id=&quot;1p84g6d&quot;&gt;다양한 통계적 비교&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1086&quot; data-start=&quot;963&quot; data-ke-size=&quot;size16&quot;&gt;이 구조에서는 통계적으로 유의한 결과가 우연히 나타날 가능성이 높아진다. 예를 들어 10,000개의 feature를 동시에 비교하면 단순한 확률 계산만으로도 상당수의 feature가 p-value 기준을 통과할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1251&quot; data-start=&quot;1088&quot; data-ke-size=&quot;size16&quot;&gt;이 문제는 흔히 &lt;b&gt;multiple testing problem&lt;/b&gt;으로 설명된다. 많은 변수에 대해 동시에 검정을 수행하면 우연히 유의한 결과가 나타나는 확률이 증가한다. 따라서 metabolomics 데이터에서는 통계적으로 유의한 결과가 반드시 실제 생물학적 변화를 의미한다고 볼 수 없다.&lt;/p&gt;
&lt;h3 data-end=&quot;1283&quot; data-start=&quot;1258&quot; data-section-id=&quot;qp7irm&quot; data-ke-size=&quot;size23&quot;&gt;2. 통계적 유의성과 생물학적 의미의 차이&lt;/h3&gt;
&lt;p data-end=&quot;1350&quot; data-start=&quot;1285&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 가장 흔한 오해 중 하나는 통계적 유의성과 생물학적 의미를 동일하게 생각하는 것이다.&lt;/p&gt;
&lt;p data-end=&quot;1396&quot; data-start=&quot;1352&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 어떤 metabolite가 다음과 같은 결과를 보였다고 가정해 보자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1441&quot; data-start=&quot;1398&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1418&quot; data-start=&quot;1398&quot; data-section-id=&quot;gb95ko&quot;&gt;p-value = 0.0005&lt;/li&gt;
&lt;li data-end=&quot;1441&quot; data-start=&quot;1419&quot; data-section-id=&quot;12sx3ft&quot;&gt;fold change = 1.15&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1553&quot; data-start=&quot;1443&quot; data-ke-size=&quot;size16&quot;&gt;통계적으로는 매우 유의해 보이지만, 실제 생물학적 시스템에서 이러한 변화가 의미 있는지는 별도의 문제이다. 생체 시스템은 다양한 변동성을 가지기 때문에 작은 변화는 단순한 생리적 변동일 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;1696&quot; data-start=&quot;1555&quot; data-ke-size=&quot;size16&quot;&gt;특히 metabolomics 데이터에서는 sample preparation, instrument variation, batch effect 등 다양한 요인이 신호에 영향을 줄 수 있다. 이러한 기술적 요인이 통계적 차이로 나타날 가능성도 항상 존재한다.&lt;/p&gt;
&lt;p data-end=&quot;1761&quot; data-start=&quot;1698&quot; data-ke-size=&quot;size16&quot;&gt;따라서 metabolomics 연구에서 중요한 것은 &lt;b&gt;p-value 자체보다 변화의 맥락을 이해하는 것&lt;/b&gt;이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1804&quot; data-start=&quot;1768&quot; data-section-id=&quot;1cqpzvq&quot; data-ke-size=&quot;size23&quot;&gt;3. 하나의 metabolite로 생물학적 결론을 내리는 위험&lt;/h3&gt;
&lt;p data-end=&quot;1886&quot; data-start=&quot;1806&quot; data-ke-size=&quot;size16&quot;&gt;False discovery가 발생하는 또 하나의 이유는 연구자가 &lt;b&gt;단일 metabolite 변화에 지나치게 큰 의미를 부여하는 경우&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2046&quot; data-start=&quot;1888&quot; data-ke-size=&quot;size16&quot;&gt;대사 네트워크는 매우 복잡하게 연결되어 있다. 하나의 metabolite는 여러 metabolic pathway와 동시에 연결되어 있으며, 다양한 효소 반응에 참여한다. 따라서 단일 metabolite 변화만으로 특정 pathway의 활성화나 억제를 결론 내리는 것은 매우 위험하다.&lt;/p&gt;
&lt;p data-end=&quot;2153&quot; data-start=&quot;2048&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 lactate 증가가 관찰되었다고 해서 반드시 glycolysis가 활성화되었다고 단정할 수는 없다. lactate 농도는 다음과 같은 다양한 요인에 의해 영향을 받을 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2219&quot; data-start=&quot;2155&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2167&quot; data-start=&quot;2155&quot; data-section-id=&quot;1exb6k5&quot;&gt;산소 공급 상태&lt;/li&gt;
&lt;li data-end=&quot;2194&quot; data-start=&quot;2168&quot; data-section-id=&quot;1ahlpoi&quot;&gt;mitochondrial activity&lt;/li&gt;
&lt;li data-end=&quot;2204&quot; data-start=&quot;2195&quot; data-section-id=&quot;swusk8&quot;&gt;세포 밀도&lt;/li&gt;
&lt;li data-end=&quot;2219&quot; data-start=&quot;2205&quot; data-section-id=&quot;1dgx6gj&quot;&gt;sample 처리 과정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2302&quot; data-start=&quot;2221&quot; data-ke-size=&quot;size16&quot;&gt;따라서 metabolomics 데이터를 해석할 때는 &lt;b&gt;단일 metabolite보다 metabolite 패턴 전체를 고려하는 접근&lt;/b&gt;이 필요하다.&lt;/p&gt;
&lt;h3 data-end=&quot;2343&quot; data-start=&quot;2309&quot; data-section-id=&quot;1jfdjp0&quot; data-ke-size=&quot;size23&quot;&gt;4. Feature 수준과 metabolite 수준의 차이&lt;/h3&gt;
&lt;p data-end=&quot;2425&quot; data-start=&quot;2345&quot; data-ke-size=&quot;size16&quot;&gt;Untargeted metabolomics 데이터에서 또 하나 중요한 점은 feature와 metabolite가 반드시 동일하지 않다는 것이다.&lt;/p&gt;
&lt;p data-end=&quot;2478&quot; data-start=&quot;2427&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS 데이터에서 하나의 metabolite는 다음과 같은 여러 형태로 나타날 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2553&quot; data-start=&quot;2480&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2501&quot; data-start=&quot;2480&quot; data-section-id=&quot;1r2j2jh&quot;&gt;different adducts&lt;/li&gt;
&lt;li data-end=&quot;2518&quot; data-start=&quot;2502&quot; data-section-id=&quot;33e1l8&quot;&gt;isotope peak&lt;/li&gt;
&lt;li data-end=&quot;2541&quot; data-start=&quot;2519&quot; data-section-id=&quot;g9kt4v&quot;&gt;in-source fragment&lt;/li&gt;
&lt;li data-end=&quot;2553&quot; data-start=&quot;2542&quot; data-section-id=&quot;ldyliv&quot;&gt;dimer ion&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2651&quot; data-start=&quot;2555&quot; data-ke-size=&quot;size16&quot;&gt;반대로 하나의 feature가 여러 metabolite 후보를 가질 수도 있다. 특히 구조 이성질체가 많은 metabolite class에서는 이러한 문제가 자주 발생한다.&lt;/p&gt;
&lt;p data-end=&quot;2775&quot; data-start=&quot;2653&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 feature 수준에서 통계적으로 유의한 차이가 나타났다고 해서 그것이 반드시 특정 metabolite의 변화라고 단정하기는 어렵다. annotation 과정 자체도 일정한 불확실성을 포함하고 있기 때문이다.&lt;/p&gt;
&lt;h3 data-end=&quot;2808&quot; data-start=&quot;2782&quot; data-section-id=&quot;1rm8je7&quot; data-ke-size=&quot;size23&quot;&gt;5. ㅊ와 기술적 변동성&lt;/h3&gt;
&lt;p data-end=&quot;2942&quot; data-start=&quot;2810&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터에서 false discovery를 유발하는 가장 흔한 원인 중 하나는 &lt;b&gt;batch effect&lt;/b&gt;이다. LC-MS 분석은 매우 민감한 기술이기 때문에 분석 조건의 작은 변화도 데이터에 영향을 줄 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2967&quot; data-start=&quot;2944&quot; data-ke-size=&quot;size16&quot;&gt;대표적인 예로는 다음과 같은 것들이 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3069&quot; data-start=&quot;2969&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2985&quot; data-start=&quot;2969&quot; data-section-id=&quot;9rnwew&quot;&gt;column aging&lt;/li&gt;
&lt;li data-end=&quot;3014&quot; data-start=&quot;2986&quot; data-section-id=&quot;otomfx&quot;&gt;ion source contamination&lt;/li&gt;
&lt;li data-end=&quot;3041&quot; data-start=&quot;3015&quot; data-section-id=&quot;16btmqf&quot;&gt;sample injection order&lt;/li&gt;
&lt;li data-end=&quot;3069&quot; data-start=&quot;3042&quot; data-section-id=&quot;1uhrl8q&quot;&gt;instrument calibration 상태&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3220&quot; data-start=&quot;3071&quot; data-ke-size=&quot;size16&quot;&gt;이러한 요인들은 특정 feature의 intensity를 변화시킬 수 있으며, 경우에 따라 biological group 간 차이처럼 보일 수도 있다. 따라서 metabolomics 데이터에서는 항상 &lt;b&gt;기술적 변동성과 생물학적 변이를 구분하려는 노력&lt;/b&gt;이 필요하다.&lt;/p&gt;
&lt;h3 data-end=&quot;3263&quot; data-start=&quot;3227&quot; data-section-id=&quot;1auprrd&quot; data-ke-size=&quot;size23&quot;&gt;6. 재현성(reproducibility)을 중심으로 생각하기&lt;/h3&gt;
&lt;p data-end=&quot;3372&quot; data-start=&quot;3265&quot; data-ke-size=&quot;size16&quot;&gt;False discovery를 줄이기 위한 가장 중요한 기준 중 하나는 재현성이다. 어떤 metabolite 변화가 실제 biological signal이라면 다음과 같은 특징을 보여야 한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3448&quot; data-start=&quot;3374&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3400&quot; data-start=&quot;3374&quot; data-section-id=&quot;sbsqfs&quot;&gt;독립적인 experiment에서도 관찰됨&lt;/li&gt;
&lt;li data-end=&quot;3424&quot; data-start=&quot;3401&quot; data-section-id=&quot;x21nrk&quot;&gt;다른 cohort에서도 동일한 경향&lt;/li&gt;
&lt;li data-end=&quot;3448&quot; data-start=&quot;3425&quot; data-section-id=&quot;1lmg4jc&quot;&gt;관련 metabolite들과 함께 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3563&quot; data-start=&quot;3450&quot; data-ke-size=&quot;size16&quot;&gt;즉 하나의 dataset에서만 나타나는 변화는 항상 신중하게 해석해야 한다. metabolomics 연구에서는 특히 &lt;b&gt;validation experiment의 중요성&lt;/b&gt;이 강조되는 이유가 여기에 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;3602&quot; data-start=&quot;3570&quot; data-section-id=&quot;1rfmq0a&quot; data-ke-size=&quot;size23&quot;&gt;7. Metabolic network 관점에서 해석하기&lt;/h3&gt;
&lt;p data-end=&quot;3671&quot; data-start=&quot;3604&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터를 해석할 때 도움이 되는 또 하나의 사고 방식은 metabolic network 관점이다.&lt;/p&gt;
&lt;p data-end=&quot;3772&quot; data-start=&quot;3673&quot; data-ke-size=&quot;size16&quot;&gt;대사 반응은 개별 화합물이 아니라 &lt;b&gt;연결된 네트워크&lt;/b&gt;로 작동한다. 따라서 실제 biological perturbation이 발생하면 다음과 같은 패턴이 나타나는 경우가 많다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3862&quot; data-start=&quot;3774&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3811&quot; data-start=&quot;3774&quot; data-section-id=&quot;1op18or&quot;&gt;같은 pathway에 속한 metabolite들의 동시 변화&lt;/li&gt;
&lt;li data-end=&quot;3840&quot; data-start=&quot;3812&quot; data-section-id=&quot;1501tw5&quot;&gt;precursor&amp;ndash;product 관계의 변화&lt;/li&gt;
&lt;li data-end=&quot;3862&quot; data-start=&quot;3841&quot; data-section-id=&quot;1qrd2op&quot;&gt;metabolite ratio 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3976&quot; data-start=&quot;3864&quot; data-ke-size=&quot;size16&quot;&gt;이러한 패턴이 관찰되면 해당 변화가 실제 biological signal일 가능성이 높아진다. 반대로 단일 metabolite만 변화하는 경우에는 false discovery일 가능성도 고려해야 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;4004&quot; data-start=&quot;3983&quot; data-section-id=&quot;1r700jd&quot; data-ke-size=&quot;size23&quot;&gt;8. 데이터 해석에서의 보수적 접근&lt;/h3&gt;
&lt;p data-end=&quot;4088&quot; data-start=&quot;4006&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서는 종종 매우 흥미로운 결과가 나타난다. 하지만 바로 그 이유 때문에 연구자는 결과를 해석할 때 더욱 신중해야 한다.&lt;/p&gt;
&lt;p data-end=&quot;4198&quot; data-start=&quot;4090&quot; data-ke-size=&quot;size16&quot;&gt;False discovery를 줄이기 위한 한 가지 중요한 원칙은 &lt;b&gt;보수적 해석&lt;/b&gt;이다. 이는 데이터를 과소평가하라는 의미가 아니라, 결과가 의미하는 범위를 정확하게 인식하라는 의미에 가깝다.&lt;/p&gt;
&lt;p data-end=&quot;4236&quot; data-start=&quot;4200&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 다음과 같은 표현은 서로 다른 수준의 확신을 나타낸다.&lt;/p&gt;
&lt;p data-end=&quot;4287&quot; data-start=&quot;4238&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이 pathway가 활성화되었다.&amp;rdquo;&lt;br /&gt;&amp;ldquo;이 pathway가 변화했을 가능성이 있다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;4320&quot; data-start=&quot;4289&quot; data-ke-size=&quot;size16&quot;&gt;두 문장은 비슷해 보이지만, 해석의 범위는 크게 다르다.&lt;/p&gt;
&lt;h3 data-end=&quot;4358&quot; data-start=&quot;4327&quot; data-section-id=&quot;1i9gi56&quot; data-ke-size=&quot;size23&quot;&gt;9. Metabolomics 데이터 해석의 핵심 질문&lt;/h3&gt;
&lt;p data-end=&quot;4440&quot; data-start=&quot;4360&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 false discovery를 줄이기 위해서는 데이터를 볼 때 다음과 같은 질문을 반복적으로 던질 필요가 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4579&quot; data-start=&quot;4442&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4470&quot; data-start=&quot;4442&quot; data-section-id=&quot;137ndsg&quot;&gt;이 변화가 기술적 요인으로 설명될 수 있는가&lt;/li&gt;
&lt;li data-end=&quot;4509&quot; data-start=&quot;4471&quot; data-section-id=&quot;1kjsb5j&quot;&gt;동일 pathway의 다른 metabolite도 함께 변하는가&lt;/li&gt;
&lt;li data-end=&quot;4541&quot; data-start=&quot;4510&quot; data-section-id=&quot;116oln3&quot;&gt;다른 dataset에서도 동일한 결과가 나타나는가&lt;/li&gt;
&lt;li data-end=&quot;4579&quot; data-start=&quot;4542&quot; data-section-id=&quot;a4scfp&quot;&gt;biological mechanism과 논리적으로 연결되는가&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4620&quot; data-start=&quot;4581&quot; data-ke-size=&quot;size16&quot;&gt;이러한 질문을 통해 데이터 해석 과정에서 과도한 확신을 줄일 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4631&quot; data-start=&quot;4627&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;4770&quot; data-start=&quot;4633&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 false discovery는 피하기 어려운 문제이다. 높은 차원의 데이터와 복잡한 생물학적 시스템이 결합되어 있기 때문에, 통계적으로 유의한 결과가 항상 실제 biological signal을 의미하지는 않는다.&lt;/p&gt;
&lt;p data-end=&quot;4877&quot; data-start=&quot;4772&quot; data-ke-size=&quot;size16&quot;&gt;따라서 metabolomics 데이터를 해석할 때 중요한 것은 더 많은 metabolite를 발견하는 것이 아니라, &lt;b&gt;어떤 결과가 신뢰할 수 있는지 판단하는 사고 방식&lt;/b&gt;을 갖는 것이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;4982&quot; data-start=&quot;4879&quot; data-ke-size=&quot;size16&quot;&gt;결국 좋은 metabolomics 연구는 단순히 많은 결과를 제시하는 연구가 아니라, 데이터의 불확실성을 이해하면서도 &lt;b&gt;재현 가능한 생물학적 가설을 제시하는 연구&lt;/b&gt;라고 할 수 있다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>Batch effect</category>
      <category>biological signal</category>
      <category>false discovery</category>
      <category>metabolomics</category>
      <category>생물학적 가설</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/416</guid>
      <comments>https://info-tistory.tistory.com/416#entry416comment</comments>
      <pubDate>Tue, 24 Mar 2026 20:17:40 +0900</pubDate>
    </item>
    <item>
      <title>라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정</title>
      <link>https://info-tistory.tistory.com/414</link>
      <description>&lt;p data-end=&quot;76&quot; data-start=&quot;34&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS/MS 기반 metabolomics에서 발생하는 &amp;lsquo;확신의 착각&amp;rsquo;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;448&quot; data-origin-height=&quot;462&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dEx9md/dJMcadVxakn/F8XRq9PD1O32NubAcaXkJ0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dEx9md/dJMcadVxakn/F8XRq9PD1O32NubAcaXkJ0/img.png&quot; data-alt=&quot;라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dEx9md/dJMcadVxakn/F8XRq9PD1O32NubAcaXkJ0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdEx9md%2FdJMcadVxakn%2FF8XRq9PD1O32NubAcaXkJ0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; alt=&quot;라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정&quot; loading=&quot;lazy&quot; width=&quot;448&quot; height=&quot;462&quot; data-origin-width=&quot;448&quot; data-origin-height=&quot;462&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;308&quot; data-start=&quot;78&quot; data-ke-size=&quot;size16&quot;&gt;Untargeted metabolomics 연구에서 metabolite identification은 항상 가장 어려운 단계로 꼽힌다. 수천 개의 feature가 검출되지만, 그 중 상당수는 정확한 화합물 이름을 갖지 못한 채 분석 과정에 남게 된다. 이 때문에 대부분의 연구자들은 가능한 많은 feature를 &lt;b&gt;spectral library와 매칭&lt;/b&gt;하여 metabolite identity를 부여하려고 한다.&lt;/p&gt;
&lt;p data-end=&quot;541&quot; data-start=&quot;310&quot; data-ke-size=&quot;size16&quot;&gt;실제로 modern metabolomics workflow에서 library matching은 매우 강력한 도구이다. 수많은 MS/MS 스펙트럼을 데이터베이스와 비교함으로써 짧은 시간 안에 많은 metabolite 후보를 얻을 수 있기 때문이다. 연구자 입장에서는 복잡한 스펙트럼을 해석하지 않아도 &lt;b&gt;similarity score 하나로 identification 결과를 확인할 수 있다&lt;/b&gt;는 점도 큰 장점이다.&lt;/p&gt;
&lt;p data-end=&quot;726&quot; data-start=&quot;543&quot; data-ke-size=&quot;size16&quot;&gt;하지만 바로 이 지점에서 중요한 문제가 발생한다.&lt;br /&gt;library matching 결과는 종종 &lt;b&gt;실제보다 훨씬 더 확정적인 정보처럼 보이게 만드는 심리적 효과&lt;/b&gt;를 만들어 낸다. 높은 similarity score와 데이터베이스 이름이 함께 제시되는 순간, 연구자는 그 결과를 거의 &amp;ldquo;정답&amp;rdquo;처럼 받아들이게 되는 경향이 있다.&lt;/p&gt;
&lt;p data-end=&quot;839&quot; data-start=&quot;728&quot; data-ke-size=&quot;size16&quot;&gt;이 글에서는 metabolomics 연구에서 library matching이 어떻게 &lt;b&gt;확신의 착각을 유도하는지&lt;/b&gt;, 그리고 이러한 심리적 함정이 데이터 해석에 어떤 영향을 미치는지 살펴보고자 한다.&lt;/p&gt;
&lt;h3 data-end=&quot;881&quot; data-start=&quot;846&quot; data-section-id=&quot;1tsfh0&quot; data-ke-size=&quot;size23&quot;&gt;1. Library matching이 주는 &amp;lsquo;객관성의 착각&amp;rsquo;&lt;/h3&gt;
&lt;p data-end=&quot;932&quot; data-start=&quot;883&quot; data-ke-size=&quot;size16&quot;&gt;Library matching의 가장 큰 특징은 결과가 &lt;b&gt;숫자로 표현된다는 점&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;982&quot; data-start=&quot;934&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 LC-MS/MS 데이터 분석에서 다음과 같은 결과가 나타난다고 가정해 보자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1073&quot; data-start=&quot;984&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1019&quot; data-start=&quot;984&quot; data-section-id=&quot;1l9h51h&quot;&gt;Spectral similarity score: 0.93&lt;/li&gt;
&lt;li data-end=&quot;1073&quot; data-start=&quot;1020&quot; data-section-id=&quot;11rboh2&quot;&gt;Candidate metabolite: phosphatidylcholine (PC 34:1)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1114&quot; data-start=&quot;1075&quot; data-ke-size=&quot;size16&quot;&gt;이 숫자를 보는 순간 대부분의 연구자는 다음과 같은 인식을 갖게 된다.&lt;/p&gt;
&lt;p data-end=&quot;1133&quot; data-start=&quot;1116&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;0.93이면 거의 확실하다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;1227&quot; data-start=&quot;1135&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제로 이 similarity score가 무엇을 의미하는지는 생각보다 복잡하다. Spectral similarity는 보통 다음 요소들을 기반으로 계산된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1305&quot; data-start=&quot;1229&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1255&quot; data-start=&quot;1229&quot; data-section-id=&quot;t7s1il&quot;&gt;fragment ion m/z 일치 정도&lt;/li&gt;
&lt;li data-end=&quot;1281&quot; data-start=&quot;1256&quot; data-section-id=&quot;1mi8iwr&quot;&gt;fragment intensity 패턴&lt;/li&gt;
&lt;li data-end=&quot;1305&quot; data-start=&quot;1282&quot; data-section-id=&quot;1olmg9o&quot;&gt;peak presence/absence&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1371&quot; data-start=&quot;1307&quot; data-ke-size=&quot;size16&quot;&gt;즉 이 값은 &lt;b&gt;스펙트럼 패턴이 얼마나 유사한지&lt;/b&gt;를 보여줄 뿐이며, 반드시 동일한 화합물을 의미하는 것은 아니다.&lt;/p&gt;
&lt;p data-end=&quot;1470&quot; data-start=&quot;1373&quot; data-ke-size=&quot;size16&quot;&gt;그럼에도 불구하고 숫자로 표현된 결과는 연구자에게 강한 &lt;b&gt;객관성의 인상&lt;/b&gt;을 준다. 이것이 library matching이 정답처럼 보이게 만드는 첫 번째 심리적 요인이다.&lt;/p&gt;
&lt;h3 data-end=&quot;1501&quot; data-start=&quot;1477&quot; data-section-id=&quot;fs657y&quot; data-ke-size=&quot;size23&quot;&gt;2. 데이터베이스 이름이 주는 권위 효과&lt;/h3&gt;
&lt;p data-end=&quot;1596&quot; data-start=&quot;1503&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 사용되는 주요 spectral library는 상당히 권위 있는 데이터베이스들이다. 대표적으로 다음과 같은 라이브러리가 널리 사용된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1779&quot; data-start=&quot;1598&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1643&quot; data-start=&quot;1598&quot; data-section-id=&quot;1ftamol&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span&gt;Human Metabolome Database&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;1689&quot; data-start=&quot;1644&quot; data-section-id=&quot;bgxvat&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span&gt;MassBank&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;1735&quot; data-start=&quot;1690&quot; data-section-id=&quot;1m21gk5&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span&gt;Global Natural Products Social Molecular Networking&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;1779&quot; data-start=&quot;1736&quot; data-section-id=&quot;ml3ldh&quot;&gt;&lt;b&gt;&lt;span&gt;&lt;span&gt;METLIN Metabolite Database&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1837&quot; data-start=&quot;1781&quot; data-ke-size=&quot;size16&quot;&gt;이러한 데이터베이스 이름이 결과 화면에 나타나는 순간 연구자는 자연스럽게 다음과 같이 생각하게 된다.&lt;/p&gt;
&lt;p data-end=&quot;1876&quot; data-start=&quot;1839&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;이미 검증된 데이터베이스에서 나온 결과이니 틀릴 가능성은 낮다.&amp;rdquo;&lt;/p&gt;
&lt;p data-end=&quot;2022&quot; data-start=&quot;1878&quot; data-ke-size=&quot;size16&quot;&gt;하지만 실제로 spectral library는 여러 조건에서 생성된 스펙트럼을 모아 놓은 데이터 집합일 뿐이다. 사용된 장비, collision energy, ionization 조건 등이 다르면 fragmentation pattern 역시 달라질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2161&quot; data-start=&quot;2024&quot; data-ke-size=&quot;size16&quot;&gt;즉 library는 &lt;b&gt;reference 정보일 뿐이며 절대적인 정답 데이터가 아니다.&lt;/b&gt;&lt;br /&gt;그럼에도 불구하고 데이터베이스 이름 자체가 일종의 &lt;b&gt;권위 신호(authority signal)&lt;/b&gt;로 작용하여 연구자의 판단을 무의식적으로 강화한다.&lt;/p&gt;
&lt;h3 data-end=&quot;2194&quot; data-start=&quot;2168&quot; data-section-id=&quot;lp5wlr&quot; data-ke-size=&quot;size23&quot;&gt;3. &amp;lsquo;이름이 붙는 순간&amp;rsquo; 생기는 해석 변화&lt;/h3&gt;
&lt;p data-end=&quot;2284&quot; data-start=&quot;2196&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 데이터에서 매우 흥미로운 현상이 하나 있다. 동일한 feature라도 이름이 붙는 순간 연구자의 해석 방식이 완전히 달라진다는 것이다.&lt;/p&gt;
&lt;p data-end=&quot;2323&quot; data-start=&quot;2286&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 어떤 feature가 다음과 같은 상태라고 가정해 보자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2376&quot; data-start=&quot;2325&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2341&quot; data-start=&quot;2325&quot; data-section-id=&quot;flf1ty&quot;&gt;m/z: 496.339&lt;/li&gt;
&lt;li data-end=&quot;2357&quot; data-start=&quot;2342&quot; data-section-id=&quot;1cko4mp&quot;&gt;RT: 5.4 min&lt;/li&gt;
&lt;li data-end=&quot;2376&quot; data-start=&quot;2358&quot; data-section-id=&quot;q3oiu0&quot;&gt;fold change: 2.1&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2454&quot; data-start=&quot;2378&quot; data-ke-size=&quot;size16&quot;&gt;이 상태에서는 연구자가 할 수 있는 해석이 제한적이다. 하지만 library matching 결과가 다음과 같이 나오면 상황이 달라진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2493&quot; data-start=&quot;2456&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2493&quot; data-start=&quot;2456&quot; data-section-id=&quot;uzs4av&quot;&gt;annotation: lysophosphatidylcholine&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2530&quot; data-start=&quot;2495&quot; data-ke-size=&quot;size16&quot;&gt;이 순간 연구자는 다음과 같은 생물학적 서사를 만들기 시작한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2604&quot; data-start=&quot;2532&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2555&quot; data-start=&quot;2532&quot; data-section-id=&quot;9z3h73&quot;&gt;membrane remodeling&lt;/li&gt;
&lt;li data-end=&quot;2582&quot; data-start=&quot;2556&quot; data-section-id=&quot;1t8slpn&quot;&gt;inflammatory signaling&lt;/li&gt;
&lt;li data-end=&quot;2604&quot; data-start=&quot;2583&quot; data-section-id=&quot;bipctr&quot;&gt;lipid metabolism 변화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2720&quot; data-start=&quot;2606&quot; data-ke-size=&quot;size16&quot;&gt;즉 metabolite 이름이 붙는 순간, 단순한 feature는 &lt;b&gt;생물학적 의미를 가진 분자&lt;/b&gt;로 변한다. 문제는 이 변화가 때로는 &lt;b&gt;annotation 확실성보다 훨씬 빠르게 진행된다&lt;/b&gt;는 것이다.&lt;/p&gt;
&lt;h3 data-end=&quot;2761&quot; data-start=&quot;2727&quot; data-section-id=&quot;1lefeug&quot; data-ke-size=&quot;size23&quot;&gt;4. Fragmentation pattern의 유사성 문제&lt;/h3&gt;
&lt;p data-end=&quot;2861&quot; data-start=&quot;2763&quot; data-ke-size=&quot;size16&quot;&gt;MS/MS fragmentation 패턴은 구조적으로 유사한 화합물에서 매우 비슷하게 나타나는 경우가 많다. 특히 lipid metabolomics에서는 이러한 현상이 흔하다.&lt;/p&gt;
&lt;p data-end=&quot;2914&quot; data-start=&quot;2863&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 phosphatidylcholine 계열 lipid는 다음과 같은 특징을 가진다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2968&quot; data-start=&quot;2916&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2941&quot; data-start=&quot;2916&quot; data-section-id=&quot;1hpnj4v&quot;&gt;공통 headgroup fragment&lt;/li&gt;
&lt;li data-end=&quot;2968&quot; data-start=&quot;2942&quot; data-section-id=&quot;1sc7lba&quot;&gt;유사한 neutral loss pattern&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3102&quot; data-start=&quot;2970&quot; data-ke-size=&quot;size16&quot;&gt;이 때문에 서로 다른 lipid species라도 fragmentation pattern이 상당히 비슷하게 나타날 수 있다. spectral similarity score는 이러한 공통 fragment 때문에 높게 계산될 가능성이 있다.&lt;/p&gt;
&lt;p data-end=&quot;3180&quot; data-start=&quot;3104&quot; data-ke-size=&quot;size16&quot;&gt;결과적으로 library matching은 특정 화합물을 정확히 지목하는 것이 아니라, &lt;b&gt;유사한 화합물 군을 가리키는 경우&lt;/b&gt;도 많다.&lt;/p&gt;
&lt;h3 data-end=&quot;3215&quot; data-start=&quot;3187&quot; data-section-id=&quot;10ojgx1&quot; data-ke-size=&quot;size23&quot;&gt;5. Similarity score의 해석 문제&lt;/h3&gt;
&lt;p data-end=&quot;3308&quot; data-start=&quot;3217&quot; data-ke-size=&quot;size16&quot;&gt;Spectral similarity score는 일반적으로 cosine similarity와 같은 수학적 지표를 사용한다. 하지만 이 값은 몇 가지 한계를 가진다.&lt;/p&gt;
&lt;p data-end=&quot;3415&quot; data-start=&quot;3310&quot; data-ke-size=&quot;size16&quot;&gt;첫째, fragment intensity 변화에 민감하다.&lt;br /&gt;둘째, low-intensity fragment는 종종 무시된다.&lt;br /&gt;셋째, noise peak가 결과에 영향을 줄 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;3532&quot; data-start=&quot;3417&quot; data-ke-size=&quot;size16&quot;&gt;이러한 이유로 높은 similarity score가 반드시 정확한 identification을 의미하지는 않는다. 그러나 숫자가 높게 나타나면 연구자는 이를 자연스럽게 &lt;b&gt;확정적 근거&lt;/b&gt;로 받아들이게 된다.&lt;/p&gt;
&lt;h3 data-end=&quot;3565&quot; data-start=&quot;3539&quot; data-section-id=&quot;jqy9aw&quot; data-ke-size=&quot;size23&quot;&gt;6. Confirmation bias의 작동&lt;/h3&gt;
&lt;p data-end=&quot;3670&quot; data-start=&quot;3567&quot; data-ke-size=&quot;size16&quot;&gt;Library matching이 위험해지는 또 하나의 이유는 &lt;b&gt;confirmation bias&lt;/b&gt;이다. 연구자는 종종 이미 예상하고 있는 metabolite를 무의식적으로 찾게 된다.&lt;/p&gt;
&lt;p data-end=&quot;3737&quot; data-start=&quot;3672&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어 염증 관련 연구를 수행하고 있다면 연구자는 다음과 같은 metabolite에 더 많은 관심을 가지게 된다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3796&quot; data-start=&quot;3739&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3759&quot; data-start=&quot;3739&quot; data-section-id=&quot;1260pp4&quot;&gt;arachidonic acid&lt;/li&gt;
&lt;li data-end=&quot;3777&quot; data-start=&quot;3760&quot; data-section-id=&quot;1bilquc&quot;&gt;prostaglandin&lt;/li&gt;
&lt;li data-end=&quot;3796&quot; data-start=&quot;3778&quot; data-section-id=&quot;85gxca&quot;&gt;lysophospholipid&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;3878&quot; data-start=&quot;3798&quot; data-ke-size=&quot;size16&quot;&gt;이 상황에서 library matching 결과가 이러한 metabolite 중 하나와 일치하면 연구자는 그 결과를 더욱 쉽게 받아들이게 된다.&lt;/p&gt;
&lt;p data-end=&quot;3940&quot; data-start=&quot;3880&quot; data-ke-size=&quot;size16&quot;&gt;즉 annotation 결과가 연구자의 기대와 맞아 떨어질수록 &lt;b&gt;검증 과정이 느슨해질 위험&lt;/b&gt;이 존재한다.&lt;/p&gt;
&lt;h3 data-end=&quot;3976&quot; data-start=&quot;3947&quot; data-section-id=&quot;tdbcwv&quot; data-ke-size=&quot;size23&quot;&gt;7. Unknown feature가 사라지는 순간&lt;/h3&gt;
&lt;p data-end=&quot;4128&quot; data-start=&quot;3978&quot; data-ke-size=&quot;size16&quot;&gt;Untargeted metabolomics 데이터에서 상당수의 feature는 정확히 identification되지 않는다. 그러나 library matching 결과가 나오면 연구자는 자연스럽게 annotation된 metabolite 중심으로 결과를 정리하게 된다.&lt;/p&gt;
&lt;p data-end=&quot;4153&quot; data-start=&quot;4130&quot; data-ke-size=&quot;size16&quot;&gt;이 과정에서 다음과 같은 현상이 발생한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;4229&quot; data-start=&quot;4155&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;4180&quot; data-start=&quot;4155&quot; data-section-id=&quot;1eem7ch&quot;&gt;unknown feature 분석 감소&lt;/li&gt;
&lt;li data-end=&quot;4216&quot; data-start=&quot;4181&quot; data-section-id=&quot;uljmva&quot;&gt;annotation 가능한 metabolite 중심 해석&lt;/li&gt;
&lt;li data-end=&quot;4229&quot; data-start=&quot;4217&quot; data-section-id=&quot;kaa2w0&quot;&gt;데이터 구조 단순화&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;4312&quot; data-start=&quot;4231&quot; data-ke-size=&quot;size16&quot;&gt;즉 library matching은 데이터 해석을 더 쉽게 만들어 주지만, 동시에 &lt;b&gt;데이터의 일부를 보이지 않게 만드는 효과&lt;/b&gt;도 가지고 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;4358&quot; data-start=&quot;4319&quot; data-section-id=&quot;159pk5q&quot; data-ke-size=&quot;size23&quot;&gt;8. Annotation confidence와 해석 신뢰도는 다르다&lt;/h3&gt;
&lt;p data-end=&quot;4393&quot; data-start=&quot;4360&quot; data-ke-size=&quot;size16&quot;&gt;Metabolomics 연구에서 중요한 사실은 다음과 같다.&lt;/p&gt;
&lt;p data-end=&quot;4455&quot; data-start=&quot;4395&quot; data-ke-size=&quot;size16&quot;&gt;annotation confidence &amp;ne; biological interpretation confidence&lt;/p&gt;
&lt;p data-end=&quot;4555&quot; data-start=&quot;4457&quot; data-ke-size=&quot;size16&quot;&gt;spectral library matching은 chemical identity에 대한 단서를 제공하지만, 그 자체가 biological mechanism을 증명하지는 않는다.&lt;/p&gt;
&lt;p data-end=&quot;4612&quot; data-start=&quot;4557&quot; data-ke-size=&quot;size16&quot;&gt;하지만 metabolite 이름이 확정되는 순간 연구자는 종종 이 두 단계를 하나로 연결해 버린다.&lt;/p&gt;
&lt;h3 data-end=&quot;4641&quot; data-start=&quot;4619&quot; data-section-id=&quot;14pyzqg&quot; data-ke-size=&quot;size23&quot;&gt;9. 심리적 함정을 피하기 위한 접근&lt;/h3&gt;
&lt;p data-end=&quot;4691&quot; data-start=&quot;4643&quot; data-ke-size=&quot;size16&quot;&gt;이러한 문제를 줄이기 위해 metabolomics 연구에서는 몇 가지 접근이 권장된다.&lt;/p&gt;
&lt;p data-end=&quot;4849&quot; data-start=&quot;4693&quot; data-ke-size=&quot;size16&quot;&gt;첫째, library matching 결과를 &lt;b&gt;annotation hypothesis&lt;/b&gt;로 취급한다.&lt;br /&gt;둘째, retention time 정보와 함께 검증한다.&lt;br /&gt;셋째, 가능하면 reference standard로 확인한다.&lt;br /&gt;넷째, 구조 이성질체 가능성을 항상 고려한다.&lt;/p&gt;
&lt;p data-end=&quot;4929&quot; data-start=&quot;4851&quot; data-ke-size=&quot;size16&quot;&gt;또한 metabolomics 데이터 해석에서는 개별 metabolite보다 &lt;b&gt;패턴과 pathway 변화&lt;/b&gt;를 함께 고려하는 것이 중요하다.&lt;/p&gt;
&lt;h3 data-end=&quot;4940&quot; data-start=&quot;4936&quot; data-section-id=&quot;yi4awm&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;5048&quot; data-start=&quot;4942&quot; data-ke-size=&quot;size16&quot;&gt;LC-MS/MS 기반 metabolomics에서 spectral library matching은 매우 강력한 도구이다. 하지만 이 도구는 동시에 연구자의 판단에 미묘한 심리적 영향을 미친다.&lt;/p&gt;
&lt;p data-end=&quot;5184&quot; data-start=&quot;5050&quot; data-ke-size=&quot;size16&quot;&gt;높은 similarity score와 데이터베이스 이름이 제시되는 순간, 연구자는 그 결과를 거의 정답처럼 받아들이게 되는 경향이 있다. 그러나 실제로 library matching은 단지 &lt;b&gt;가능성 높은 후보를 제시하는 과정&lt;/b&gt;일 뿐이다.&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;5393&quot; data-start=&quot;5186&quot; data-ke-size=&quot;size16&quot;&gt;따라서 metabolomics 연구에서 중요한 것은 library matching 결과를 그대로 받아들이는 것이 아니라, 그 결과가 &lt;b&gt;어떤 가정을 포함하고 있는지 인식하는 것&lt;/b&gt;이다. 결국 좋은 metabolomics 해석은 더 많은 metabolite 이름을 얻는 것이 아니라, 데이터가 가진 불확실성을 이해하면서 &lt;b&gt;가설을 신중하게 구축하는 과정&lt;/b&gt;에서 만들어진다.&lt;/p&gt;</description>
      <category>제약산업</category>
      <category>annotation hypothesis</category>
      <category>Library matching</category>
      <category>가설</category>
      <author>pharma_info</author>
      <guid isPermaLink="true">https://info-tistory.tistory.com/414</guid>
      <comments>https://info-tistory.tistory.com/414#entry414comment</comments>
      <pubDate>Mon, 23 Mar 2026 20:06:32 +0900</pubDate>
    </item>
  </channel>
</rss>