본문 바로가기

Python134

[python] 자연어 처리를 위한 텍스트 전처리(불용어 제거) 오늘은 자연어 처리를 위한 데이터 전처리 과정 중 불용어 제거에 대한 포스팅을 해보겠습니다. 자연어 전처리는 크게 토큰화, 정제 , 정규화 과정을 거친다고 이전 포스팅에 언급한 바 있습니다. 오늘은 정제 과정 중 하나인 불용어 제거 예제를 작성해 보겠습니다. 오늘 예제는 다음 문서를 참고 하여 작성하였습니다. https://wikidocs.net/22530 불용어란 자연어 처리를 위한 데이터 분석에 있어서 큰 의미가 없는 단어들을 의미합니다. 큰 의미가 없다라는 것은 자주 등장하지만 분석을 하는것에 있어서 큰 도움이 되지 않는다는 뜻입니다. 예를들면he, a, an, is, I, my 같이 문장을 만드는덴 필수적이지만 문장의 의미를 파악하는데는 큰 도움이 되지 않는 단어들이 대표적입니다. 이러한 단어들을.. 2023. 7. 28.
[Python] 크롤링으로 공공데이터 포털의 파일들 다운받기 실행결과입니다. edge 실행화면입니다. jupyter notebook 실행화면입니다. 전체 코드입니다. #크롤링시 필요한 라이브러리 불러오기 from bs4 import BeautifulSoup import requests from tqdm import tqdm from selenium import webdriver from selenium.common import exceptions from selenium.webdriver.common.alert import Alert import time driver = webdriver.Edge('C:\\Users\\qogml\\AppData\\Roaming\\Microsoft\\Windows\\Start Menu\\Programs\\Python 3.11\\ms.. 2023. 7. 22.
[Python] 라즈베리파이3와 L298N 모터드라이버로 DC 모터 제어하기 안녕하세요. 이번에는 라즈베리파이3와 L298N 모터드라이버로 DC모터의 회전 방향과 속도를 제어하는 예제를 진행하겠습니다. 준비물은 다음과 같습니다. 1. 라즈베리파이3 2. L298N 3. DC모터 2개 L298N은 모터의 회전방향, 회전속도를 제어할 수 있게 해주는 모터 드라이버입니다. 그림과 표를 보면서 사용법을 설명하겠습니다. 사진을 보면 Input1, Input2, Input3, Input4 가 있습니다. 연결된 라즈베리파이3에서 표와 같이 디지털 값을 Input1, Input2에 보내서 A 모터를 제어할 수 있고, Input3, Input4에 보내서 B 모터를 제어할 수 있습니다. GpioZero 라이브러리를 사용하여 모터를 제어하겠습니다. GpioZero의 핀배열은 다음과 같습니다 예제에서.. 2023. 7. 15.
[Python]pandas 를 이용하여 csv 파일 다루기 판다스는 시계열 (series) 이나 표(table) 형태의 데이터를 다루는 패키지로써 이러한 데이터를 다루기위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공합니다. 오늘은 판다스를 이용해 csv 파일을 불러오고 다루는 예제를 작성해 보겠습니다. 오늘 예제는 다음 블로그를 참고 하였습니다. https://opentutorials.org/module/4966/28971 표를 다루는 도구 '판다스' - Tensorflow 101 수업소개 '판다스'를 이용하여 데이터 다루는 방법을 배우는 수업입니다, 모델을 학습시키기 위하여 파일로부터 데이터를 읽어들이고, 독립변수와 종속변수를 분리하여 데이터 준비합니다. opentutorials.org import pandas as pd 우선.. 2023. 7. 13.
[Python]Python에서 데이터 프레임을 이용하여 파이그래프 그리기 안녕하세요. 오늘은 Python에서 matplotlib을 이용해 파이그래프를 그려보는 방법을 알아보겠습니다. 주피터 노트북을 이용해 진행해보도록 하겠습니다. 먼저, 데이터프레임을 생성해보겠습니다. import pandas as pd numbers = [35, 29, 11, 2] address = ['서울', '대구', '춘천', '제주'] list_dictionary = { 'Number' : numbers, 'Address' : address } df = pd.DataFrame(list_dictionary) df.head() 아래와 같은 데이터 프레임이 생성되었습니다. 위의 데이터 프레임을 이용해 파이그래프를 만들어보겠습니다. # 라이브러리 호출 import matplotlib.pyplot as plt.. 2023. 7. 5.
[Python] openpyxl 라이브러리로 xlsx 파일 쓰거나 읽기 안녕하세요. 이번에는 Python 으로 openpyxl 라이브러리를 써서 xlsx 파일을 쓰거나 읽는 예제를 진행하겠습니다. 먼저 openpyxl 을 설치해줍니다. 명령어는 다음과 같습니다. pip install openpyxl 1. xlsx 파일 쓰기. xlsx 파일을 쓰는 예제 코드입니다. from openpyxl import Workbook # 엑셀파일 쓰기 write_wb = Workbook() # '생성시트' 이름을 가진 시트를 생성 write_ws = write_wb.create_sheet('생성시트') # '생성시트'에다 입력 write_ws = write_wb['생성시트'] write_ws['A1'] = '숫자' # 행 단위로 추가 write_ws.append([1,2,3]) # 셀 단위로.. 2023. 6. 30.
[python] 자연어 처리를 위한 텍스트 전처리(토큰화) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 이번에는 그 중에서도 토큰화를 하는 방법들에 대해 작성해 보겠습니다. 토큰 이란? 토큰(Token) 화폐 대신 사용할 수 있는 동전처럼 생긴 주조물을 말한다. 어휘분석의 단위를 가리키는 컴퓨터 용어이기도 하다. 자연어를 컴퓨터가 이해할 수 있는 언어로 만들기 위해 단어나 문장 단위로 쪼개는 작업이 필요한데 이런 토큰화를 수행하는 방법에는 다양한 방법이 있지만 일반적인 방법론은 공백문자를 기준으로 단어를 분리하는것인데 이를 토큰화(tokenization)라.. 2023. 6. 28.
[Python] Raspberry Pi 4 카메라로 영상 스트리밍 하기 안녕하세요. 이번에는 Raspberry Pi 4 에 카메라를 연결해서 영상 스트리밍하는 예제를 진행하겠습니다. 운영체제는 Raspberry Pi OS (Legacy) 입니다. 아래 그림과 같이 카메라를 연결합니다. 전원을 연결하고, 설정에 들어가 카메라 소프트웨어를 활성화합니다. 또 다른 방법으로 터미널을 사용할 수 있습니다. 터미널에 다음 명령어를 입력하면 설정화면이 뜹니다. sudo raspi-config 다음과 같이 진행합니다. 설정이 완료되었으면 다음 명령어를 터미널에 입력하여 재부팅합니다. sudo reboot 영상 스트리밍을 웹으로 접근하려면 Raspberry Pi 4의 IP주소를 알아야합니다. 다음 명령어를 입력해서 IP 주소를 출력합니다. ifconfig 현 예제에서는 IP주소가 192.1.. 2023. 6. 15.
[Python] Json 형태의 데이터 다루기 파이썬을 이용해 Json 형태의 데이터를 처리하기 위해 사용되는 내장 모듈인 json 을 사용해서 json 파일을 생성하고 조회, 수정 하는 예제를 작성해 보겠습니다. loads() 함수: JSON 문자열을 Python 객체로 변환 JSON 문자열을 Python의 객체로 변환하기 위해서는 loads() 함수를 사용합니다. import json data = { "Teamnova1" : { "gender": "female", "age" : 30, "hobby" : ["reading", "music"] }, "Teamnova2" : { "gender": "male", "age" : 18, "hobby" : ["development", "painting"] } } file_path = "./test.json" .. 2023. 6. 13.