Metabolite ID에서 MS/MS Library의 한계와 In Silico Fragmentation 적용

티스토리 뷰

제약산업

Metabolite ID에서 MS/MS Library의 한계와 In Silico Fragmentation 적용

pharma_info 2025. 12. 22. 20:36

728x90

― “왜 이 스펙트럼은 아무 데도 매칭되지 않는가?”라는 질문에서 시작되는 이야기

LC-MS/MS 기반 metabolomics나 drug metabolism 연구를 하다 보면,
누구나 한 번쯤 이런 상황을 마주한다.

정확한 mass는 맞는다.
isotope pattern도 그럴듯하다.
MS/MS 스펙트럼도 깔끔하다.

그런데… 라이브러리에 없다.

특히 비임상 metabolite profiling이나 toxicometabolomics,
혹은 endogenous metabolomics 기반 biomarker 연구에서는
“library hit 없음”이 오히려 정상에 가깝다.

그럼에도 불구하고 많은 분석 workflow는 여전히
MS/MS spectral library 매칭을 중심으로 설계되어 있다.

이 글에서는
왜 MS/MS library 기반 metabolite ID가 구조적으로 한계를 가질 수밖에 없는지,
그리고 그 한계를 어떻게 in silico fragmentation으로 보완해야 하는지,
실무자 관점에서 차분히 정리해 본다.

1. Metabolite ID의 현실: 왜 이렇게 어려운가

1.1 Metabolite ID는 “동정”이 아니라 “추론”이다

Metabolite identification은 흔히 이렇게 오해된다.

정확한 mass → 후보 도출
MS/MS 스펙트럼 매칭 → 구조 확정

하지만 실제로는
100% 확정은 극히 일부 standard-confirmed metabolite에만 가능하다.

대부분의 경우 우리가 하는 것은:

가능한 구조 후보를 배제(exclusion) 하고
가장 개연성 높은 구조를 지지(support) 하는 작업이다.

즉, metabolite ID는 확률 기반 추론 작업이다.

1.2 Drug metabolite vs endogenous metabolite의 차이

이 문제는 특히 다음 두 영역에서 두드러진다.

Drug metabolite profiling
- phase I/II biotransformation
- novel metabolite 다수
Endogenous metabolomics
- 개인·질환 특이 대사체
- database 미등재 compound 빈번

이 두 영역은 공통적으로
“라이브러리에 없는 구조”를 다룬다.

2. MS/MS Spectral Library의 구조적 한계

2.1 Library는 ‘과거 데이터의 집합’이다

모든 MS/MS library는 본질적으로 다음 특성을 가진다.

이미 알려진 compound
특정 instrument 조건
특정 collision energy
특정 ionization mode

즉,

“과거에 누군가 측정했던 조건의 스펙트럼 모음”

이다.

새로운 구조, 새로운 조건에서는
맞지 않는 것이 오히려 정상이다.

2.2 Coverage 문제: 절대적인 수의 한계

아무리 큰 library라도:

실제 biological space의 metabolite 수
drug metabolism에서 생성 가능한 구조 수

에 비하면 극히 일부다.

특히:

glucuronide, sulfate, GSH conjugate
rearranged metabolite
secondary metabolite

는 library에 거의 없다.

2.3 Instrument & 조건 의존성

MS/MS 스펙트럼은 다음에 크게 의존한다.

collision energy
collision gas
analyzer type (Q-TOF, Orbitrap, QqQ)
ion polarity

따라서
같은 compound라도 스펙트럼이 다르게 보이는 것이 정상이다.

library hit이 안 된다고 해서
그 compound가 틀렸다고 말할 수 없는 이유다.

2.4 False confidence의 위험

더 큰 문제는
“library hit = 정답”이라는 잘못된 확신이다.

low score hit
partial fragment match
key fragment 부재

임에도 불구하고
이름이 붙는 순간, 데이터는 ‘확정된 사실’처럼 취급된다.

이것이 metabolomics에서
가장 위험한 지점 중 하나다.

3. In Silico Fragmentation이 등장한 배경

3.1 질문의 전환

In silico fragmentation은 다음 질문에서 출발한다.

“이 스펙트럼이 이 구조라면,
이런 fragment가 나오는 게 이론적으로 가능한가?”

즉,

library에서 찾는 것(search)이 아니라
구조 가설을 검증(validate)하는 접근이다.

3.2 In silico fragmentation의 기본 개념

In silico fragmentation은:

후보 구조 생성
해당 구조에서 가능한 bond cleavage 예측
이론적 fragment m/z 계산
실제 MS/MS 스펙트럼과 비교

를 통해
구조–스펙트럼 일관성을 평가한다.

대표 도구:

MetFrag
CFM-ID
MS-FINDER
SIRIUS + CSI:FingerID

4. In Silico Fragmentation의 강점

4.1 Library-independent 접근

가장 큰 장점은 명확하다.

라이브러리에 없어도 분석 가능
novel metabolite 대응 가능
drug metabolite에 특히 유리

이는 drug metabolism, toxicometabolomics에서
사실상 필수 조건이다.

4.2 구조 중심 사고 유도

In silico 접근은 분석자를
“fragment를 외우는 사람”이 아니라
“구조를 이해하는 사람”으로 만든다.

이 결합이 왜 깨졌는가
이 neutral loss는 무엇을 의미하는가
phase II conjugation의 특징은 무엇인가

이런 질문이 자연스럽게 따라온다.

4.3 Partial evidence도 활용 가능

Library matching은
“있다/없다”의 이분법이다.

반면 in silico fragmentation은:

일부 fragment만 맞아도
전체 패턴의 개연성을 평가

할 수 있다.

실무에서는 이 차이가 매우 크다.

5. 그렇다면 한계는 없는가?

물론 있다. 그리고 이것을 모르면 위험하다.

5.1 후보 구조 생성의 함정

In silico fragmentation은
후보 구조가 틀리면 전부 무의미해진다.

molecular formula 오류
wrong adduct assumption
isotope misassignment

초기 단계가 흔들리면
아무리 좋은 알고리즘도 소용없다.

5.2 Score의 절대성 착각

많은 tool은 score를 제공한다.

하지만:

score = 확률이지 정답이 아니다
서로 다른 tool의 score는 비교 불가

score 숫자에 집착하면
library hit과 똑같은 실수를 반복한다.

5.3 생물학적 맥락 부재

In silico fragmentation은
화학적으로 가능성을 평가할 뿐이다.

이 구조가 생물학적으로 생성 가능한가?
해당 species에 효소가 존재하는가?

이 질문은
반드시 연구자가 답해야 한다.

6. 실무에서의 현실적인 통합 전략

6.1 권장 Metabolite ID Workflow

Step 1. Accurate mass & isotope 확인

molecular formula 후보 제한

Step 2. MS/MS 특징적 fragment 파악

neutral loss
diagnostic ion

Step 3. Library search (있으면 활용)

hit이 있으면 reference로만 사용

Step 4. In silico fragmentation 적용

구조 가설 검증
fragment coverage 확인

Step 5. Biological plausibility 검토

metabolic pathway
enzyme feasibility

이 순서를 지키면
과신도, 무시도 피할 수 있다.

6.2 Drug metabolite profiling에서의 활용

특히 drug metabolite ID에서는:

parent 구조가 명확
가능한 transformation 제한적

이므로 in silico fragmentation의 효율이 매우 높다.

hydroxylation 위치 비교
conjugation site 추정
rearrangement 가능성 평가

7. Toxicometabolomics·Metabolomics 적용 시 주의점

7.1 Endogenous metabolite는 더 보수적으로

Endogenous metabolite는:

구조 다양성 극단적
database incomplete

따라서:

MSI level 2~3로 명확히 구분
“putative identification” 명시
over-annotation 경계

7.2 Unknown metabolite는 ‘남겨두는 용기’

모든 피크에 이름을 붙일 필요는 없다.

reproducible
biologically meaningful
dose/phenotype correlated

라면
unknown으로 남겨두는 것이 오히려 정직한 전략일 수 있다.

8. 분석팀 실무자용 체크리스트

MS/MS Library 사용 시

collision energy 조건 확인
partial match 여부 검토
score 과신 금지

In silico fragmentation 적용 시

molecular formula 정확성
adduct 설정 확인
fragment coverage 검토
생물학적 개연성 확인

보고 시

confidence level 명시
standard-confirmed 여부 구분
putative annotation 명확화

9. 결론: Metabolite ID의 목적을 다시 생각하자

Metabolite ID의 목적은
모든 피크에 이름을 붙이는 것이 아니다.

의미 있는 변화를 이해하고
기전을 설명하며
다음 실험으로 연결하는 것

그 과정에서
MS/MS library와 in silico fragmentation은
서로 대체 관계가 아니라, 보완 관계다.

라이브러리는 빠른 힌트를 주고,
in silico fragmentation은 그 힌트를 검증한다.

이 균형을 이해하는 순간,
metabolite ID는 더 이상 막막한 작업이 아니라
논리적인 과학적 추론 과정이 된다.

Metabolite ID에서 MS/MS Library의 한계와 In Silico Fragmentation 적용

728x90

'제약산업' 카테고리의 다른 글

patial Metabolomics + Toxicometabolomics 통합 전략 (0)	2025.12.21
비임상 조직 기반 spatial metabolomics 도입 전략 (0)	2025.12.20
Microbiome–Metabolite Interaction 분석 workflow (0)	2025.12.19
Toxicometabolomics 기반 독성 예측 플랫폼의 개발 방향 (0)	2025.12.18
SCFA(Short-Chain Fatty Acids), BCAA(Branched-Chain Amino Acids), ketone bodies(β-hydroxybutyrate,acetoacetate, acetone) 분석법 표준화(standardization) (0)	2025.12.17
LC–Ion Mobility MS(IM-MS)를 활용한 Isomer 분리 전략 (0)	2025.12.16
Disease Progression Biomarker 발굴을 위한 Metabolomics 통계 Workflow (0)	2025.12.15
Targeted vs. Untargeted Metabolomics: 제약사의 선택 기준 (0)	2025.12.14

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰