티스토리 뷰

728x90

― “왜 이 스펙트럼은 아무 데도 매칭되지 않는가?”라는 질문에서 시작되는 이야기

LC-MS/MS 기반 metabolomics나 drug metabolism 연구를 하다 보면,
누구나 한 번쯤 이런 상황을 마주한다.

정확한 mass는 맞는다.
isotope pattern도 그럴듯하다.
MS/MS 스펙트럼도 깔끔하다.

그런데… 라이브러리에 없다.

특히 비임상 metabolite profiling이나 toxicometabolomics,
혹은 endogenous metabolomics 기반 biomarker 연구에서는
“library hit 없음”이 오히려 정상에 가깝다.

그럼에도 불구하고 많은 분석 workflow는 여전히
MS/MS spectral library 매칭을 중심으로 설계되어 있다.

이 글에서는
왜 MS/MS library 기반 metabolite ID가 구조적으로 한계를 가질 수밖에 없는지,
그리고 그 한계를 어떻게 in silico fragmentation으로 보완해야 하는지,
실무자 관점에서 차분히 정리해 본다.

1. Metabolite ID의 현실: 왜 이렇게 어려운가

1.1 Metabolite ID는 “동정”이 아니라 “추론”이다

Metabolite identification은 흔히 이렇게 오해된다.

  • 정확한 mass → 후보 도출
  • MS/MS 스펙트럼 매칭 → 구조 확정

하지만 실제로는
100% 확정은 극히 일부 standard-confirmed metabolite에만 가능하다.

대부분의 경우 우리가 하는 것은:

  • 가능한 구조 후보를 배제(exclusion) 하고
  • 가장 개연성 높은 구조를 지지(support) 하는 작업이다.

즉, metabolite ID는 확률 기반 추론 작업이다.

1.2 Drug metabolite vs endogenous metabolite의 차이

이 문제는 특히 다음 두 영역에서 두드러진다.

  • Drug metabolite profiling
    • phase I/II biotransformation
    • novel metabolite 다수
  • Endogenous metabolomics
    • 개인·질환 특이 대사체
    • database 미등재 compound 빈번

이 두 영역은 공통적으로
“라이브러리에 없는 구조”를 다룬다.

2. MS/MS Spectral Library의 구조적 한계

2.1 Library는 ‘과거 데이터의 집합’이다

모든 MS/MS library는 본질적으로 다음 특성을 가진다.

  • 이미 알려진 compound
  • 특정 instrument 조건
  • 특정 collision energy
  • 특정 ionization mode

즉,

“과거에 누군가 측정했던 조건의 스펙트럼 모음”

이다.

새로운 구조, 새로운 조건에서는
맞지 않는 것이 오히려 정상이다.

2.2 Coverage 문제: 절대적인 수의 한계

아무리 큰 library라도:

  • 실제 biological space의 metabolite 수
  • drug metabolism에서 생성 가능한 구조 수

에 비하면 극히 일부다.

특히:

  • glucuronide, sulfate, GSH conjugate
  • rearranged metabolite
  • secondary metabolite

는 library에 거의 없다.

2.3 Instrument & 조건 의존성

MS/MS 스펙트럼은 다음에 크게 의존한다.

  • collision energy
  • collision gas
  • analyzer type (Q-TOF, Orbitrap, QqQ)
  • ion polarity

따라서
같은 compound라도 스펙트럼이 다르게 보이는 것이 정상이다.

library hit이 안 된다고 해서
그 compound가 틀렸다고 말할 수 없는 이유다.

2.4 False confidence의 위험

더 큰 문제는
“library hit = 정답”이라는 잘못된 확신이다.

  • low score hit
  • partial fragment match
  • key fragment 부재

임에도 불구하고
이름이 붙는 순간, 데이터는 ‘확정된 사실’처럼 취급된다.

이것이 metabolomics에서
가장 위험한 지점 중 하나다.

3. In Silico Fragmentation이 등장한 배경

3.1 질문의 전환

In silico fragmentation은 다음 질문에서 출발한다.

“이 스펙트럼이 이 구조라면,
이런 fragment가 나오는 게 이론적으로 가능한가?

즉,

  • library에서 찾는 것(search)이 아니라
  • 구조 가설을 검증(validate)하는 접근이다.

3.2 In silico fragmentation의 기본 개념

In silico fragmentation은:

  1. 후보 구조 생성
  2. 해당 구조에서 가능한 bond cleavage 예측
  3. 이론적 fragment m/z 계산
  4. 실제 MS/MS 스펙트럼과 비교

를 통해
구조–스펙트럼 일관성을 평가한다.

대표 도구:

  • MetFrag
  • CFM-ID
  • MS-FINDER
  • SIRIUS + CSI:FingerID

4. In Silico Fragmentation의 강점

4.1 Library-independent 접근

가장 큰 장점은 명확하다.

  • 라이브러리에 없어도 분석 가능
  • novel metabolite 대응 가능
  • drug metabolite에 특히 유리

이는 drug metabolism, toxicometabolomics에서
사실상 필수 조건이다.

4.2 구조 중심 사고 유도

In silico 접근은 분석자를
“fragment를 외우는 사람”이 아니라
“구조를 이해하는 사람”으로 만든다.

  • 이 결합이 왜 깨졌는가
  • 이 neutral loss는 무엇을 의미하는가
  • phase II conjugation의 특징은 무엇인가

이런 질문이 자연스럽게 따라온다.

4.3 Partial evidence도 활용 가능

Library matching은
“있다/없다”의 이분법이다.

반면 in silico fragmentation은:

  • 일부 fragment만 맞아도
  • 전체 패턴의 개연성을 평가

할 수 있다.

실무에서는 이 차이가 매우 크다.

5. 그렇다면 한계는 없는가?

물론 있다. 그리고 이것을 모르면 위험하다.

5.1 후보 구조 생성의 함정

In silico fragmentation은
후보 구조가 틀리면 전부 무의미해진다.

  • molecular formula 오류
  • wrong adduct assumption
  • isotope misassignment

초기 단계가 흔들리면
아무리 좋은 알고리즘도 소용없다.

5.2 Score의 절대성 착각

많은 tool은 score를 제공한다.

하지만:

  • score = 확률이지 정답이 아니다
  • 서로 다른 tool의 score는 비교 불가

score 숫자에 집착하면
library hit과 똑같은 실수를 반복한다.

5.3 생물학적 맥락 부재

In silico fragmentation은
화학적으로 가능성을 평가할 뿐이다.

  • 이 구조가 생물학적으로 생성 가능한가?
  • 해당 species에 효소가 존재하는가?

이 질문은
반드시 연구자가 답해야 한다.

6. 실무에서의 현실적인 통합 전략

6.1 권장 Metabolite ID Workflow

Step 1. Accurate mass & isotope 확인

  • molecular formula 후보 제한

Step 2. MS/MS 특징적 fragment 파악

  • neutral loss
  • diagnostic ion

Step 3. Library search (있으면 활용)

  • hit이 있으면 reference로만 사용

Step 4. In silico fragmentation 적용

  • 구조 가설 검증
  • fragment coverage 확인

Step 5. Biological plausibility 검토

  • metabolic pathway
  • enzyme feasibility

이 순서를 지키면
과신도, 무시도 피할 수 있다.

6.2 Drug metabolite profiling에서의 활용

특히 drug metabolite ID에서는:

  • parent 구조가 명확
  • 가능한 transformation 제한적

이므로 in silico fragmentation의 효율이 매우 높다.

  • hydroxylation 위치 비교
  • conjugation site 추정
  • rearrangement 가능성 평가

7. Toxicometabolomics·Metabolomics 적용 시 주의점

7.1 Endogenous metabolite는 더 보수적으로

Endogenous metabolite는:

  • 구조 다양성 극단적
  • database incomplete

따라서:

  • MSI level 2~3로 명확히 구분
  • “putative identification” 명시
  • over-annotation 경계

7.2 Unknown metabolite는 ‘남겨두는 용기’

모든 피크에 이름을 붙일 필요는 없다.

  • reproducible
  • biologically meaningful
  • dose/phenotype correlated

라면
unknown으로 남겨두는 것이 오히려 정직한 전략일 수 있다.

8. 분석팀 실무자용 체크리스트

MS/MS Library 사용 시

  • collision energy 조건 확인
  • partial match 여부 검토
  • score 과신 금지

In silico fragmentation 적용 시

  • molecular formula 정확성
  • adduct 설정 확인
  • fragment coverage 검토
  • 생물학적 개연성 확인

보고 시

  • confidence level 명시
  • standard-confirmed 여부 구분
  • putative annotation 명확화

9. 결론: Metabolite ID의 목적을 다시 생각하자

Metabolite ID의 목적은
모든 피크에 이름을 붙이는 것이 아니다.

  • 의미 있는 변화를 이해하고
  • 기전을 설명하며
  • 다음 실험으로 연결하는 것

그 과정에서
MS/MS library와 in silico fragmentation은
서로 대체 관계가 아니라, 보완 관계다.

라이브러리는 빠른 힌트를 주고,
in silico fragmentation은 그 힌트를 검증한다.

이 균형을 이해하는 순간,
metabolite ID는 더 이상 막막한 작업이 아니라
논리적인 과학적 추론 과정이 된다.

 

Metabolite ID에서 MS/MS Library의 한계와 In Silico Fragmentation 적용
Metabolite ID에서 MS/MS Library의 한계와 In Silico Fragmentation 적용

728x90