본문 바로가기
Python

[Python] Hugging Face Transformers로 문서 요약하기

by teamnova 2025. 9. 16.
728x90

 

안녕하세요

오늘은 LLM(Large Language Model)을 활용해서 긴 텍스트를 짧게 요약(summarization) 하는 방법을 소개해드리겠습니다.
요즘 AI 모델들은 단순히 텍스트를 생성하는 수준을 넘어, 주어진 문서에서 핵심만 뽑아내는 요약 작업도 잘해내는 편니다.

 

 

1. 환경 준비

pip install transformers torch

 

2. 파이썬 코드 작성 

Hugging Face의 pipeline 기능을 이용하면 요약 모델을 아주 쉽게 불러올 수 있습니다.
이번 예제에서는 facebook/bart-large-cnn 모델을 사용했습니다.

# pip install transformers torch

from transformers import pipeline

# 1. Summarization 파이프라인 불러오기
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# 2. 긴 문서 준비
text = """
Large Language Models (LLMs) are a type of artificial intelligence trained on massive text datasets. 
They can perform tasks such as answering questions, summarizing information, translating languages, and generating human-like text. 
Although they are powerful, they also have limitations, such as producing incorrect or biased outputs, and requiring large computational resources.
"""

# 3. 요약 실행
summary = summarizer(text, max_length=50, min_length=20, do_sample=False)

# 4. 결과 출력
print("Original text:\n", text)
print("\nSummary:\n", summary[0]['summary_text'])

 

 

 

이렇게 pipeline("summarization")을 활용하면 복잡한 설정 없이도 바로 문서 요약 기능을 사용할 수 있습니다.
실제 서비스에서는 뉴스 기사 요약, 리포트 핵심 추출, 이메일 본문 요약 등에 활용됩니다. 

Hugging Face의 다양한 모델을 조합하면 “텍스트 생성 → 요약 → 분류 → 번역” 같은 파이프라인도 만들 수 있으니,하나씩 실험해보시는 걸 추천드립니다