본문 바로가기

반응형

Study/AI

(21)
[데이터 처리](Kaggle Pandas Tutorials) 2. Indexing, Selecting, Assigning 본 포스트의 내용은 아래의 Kaggle Pandas Tutorials Course의 각 step에 대해 공부한 것을 바탕으로 합니다. https://www.kaggle.com/code/residentmario/indexing-selecting-assigning Indexing, Selecting & Assigning Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 1. Native accessors(Native Python) pandas에서 제공하는 기능을 사용하지 않고 Python 문법만 이용해서 DataFrame의 특정한 Series를 인덱싱하는..
[데이터 처리](Kaggle Pandas Tutorials) 1. Pandas 이용하여 데이터 생성하고 읽고 쓰기 본 포스트의 내용은 아래의 Kaggle Pandas Tutorials Course의 각 step에 대해 공부한 것을 바탕으로 합니다. https://www.kaggle.com/code/residentmario/creating-reading-and-writing Creating, Reading and Writing Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 1. Pandas library import하기 아래의 명령어를 통해 Pandas library를 가져와 이용할 수 있다. import pandas as pd 이때 Kaggle이나 Colab ..
[모두의 딥러닝] #5. 딥러닝을 이용한 자연어 처리(NLP) 본 포스트는 '모두의 딥러닝' 개정 2판을 바탕으로 공부한 것을 정리한 글입니다. 17장: 딥러닝을 이용한 자연어 처리 자연어 처리(natural Language Processing, NLP)란 컴퓨터 혹은 기계가 사람의 언어(음성, 텍스트)를 인식하고 처리할 수 있도록 하는 작업을 말합니다. 그리고 자연어 처리를 위해서는 인간의 텍스트를 컴퓨터가 이해할 수 있는 수치로 정제하는 전처리 과정이 필요합니다. 지금부터 자연어 처리를 위하여 데이터를 전처리하는 과정을 다뤄보겠습니다. 1) 텍스트의 토큰화 텍스트의 단어, 문장, 형태소처럼 작게 나누어진 하나의 단위를 토큰(token)이라고 하고 텍스트를 토큰으로 만드는 과정을 토큰화(tokenization)라고 합니다. # 1. 문장 to 단어 keras 라이..
[부스트코스 코칭스터디 AI Basic 1기] #1-3. 파이썬 기초 문법Ⅱ 본 포스트는 '부스트코스 코칭스터디 AI Basic 1기'로 활동하고 '인공지능 기초 다지기' 강의를 들으며 공부한 것을 정리한 글입니다. 굳이 이걸 왜 기초에서 알아야하나 싶은 게 많아서 뒷부분은 생략했습니다. 필요 시 나중에 보충할 예정입니다. # 1. Python Data Structure(파이썬 자료구조) 자료구조는 데이터를 저장할 때, 데이터 특징에 따라 컴퓨터에 효율적으로 정리하기 위한 데이터의 저장 및 표현 방식을 의미한다. 데이터의 특징에 알맞은 형태로 데이터를 저장하면 컴퓨터의 메모리를 효율적으로 사용하고 코드 작성에도 편리해진다. 1. 스택과 큐(stack & queue with list) 스택 나중에 넣은 데이터를 먼저 반환하는 메모리 구조이다. Last In First Out, 즉 ..
[부스트코스 코칭스터디 AI Basic 1기] #1-2. 파이썬 기초 문법 본 포스트는 '부스트코스 코칭스터디 AI Basic 1기'로 활동하고 '인공지능 기초 다지기' 강의를 들으며 공부한 것을 정리한 글입니다. # 1. Variables 변수의 개요 변수는 가장 기초적인 프로그래밍 문법으로, 데이터(값)를 저장하기 위한 메모리 공간의 프로그래밍 상 이름이다. a=5일 때, a를 변수, 5를 값이라고 한다. 사실 변수는 값을 저장하는 장소로서 메모리 주소를 가지고 있고 변수에 들어가는 값은 메모리 주소에 할당된다. 메모리와 변수 변수가 선언되는 순간 메모리 특정 영역에 물리적인 공간이 할당된다. 변수에는 값이 할당되고 해당 값은 메모리에 저장된다. A=8의 의미는 A라는 이름을 가진 메모리 주소에 8을 저장하라는 것이다. 변수명 규칙 - 알파벳, 숫자, 언더스코어(_) 로 선..
[모두의 딥러닝] #4. MLP과 CNN로 MNIST 데이터 분류하기 본 포스트는 '모두의 딥러닝' 개정 2판을 바탕으로 공부한 것을 정리한 글입니다. 16장: 이미지 인식의 꽃, CNN 1) MLP로 MNIST 데이터 분류하기 MNIST 데이터셋은 미국 국립표준기술원(NIST)이 손글씨를 수집해 만든 데이터로 구성되어 있습니다. 7만 개의 글자 이미지가 각각 0~9의 라벨링을 붙여둔 데이터셋입니다. 이번에는 이 데이터셋을 활용하여 이미지를 0~9로 분류하는 문제를 풀어보겠습니다. # 1. 데이터 전처리 keras를 이용해 MNIST 데이터를 가져옵니다. keras.datasets에서 mnist를 import 하면 됩니다. attribute와 class 데이터 분리하기 그리고 불러온 데이터를 X, Y로 분리해줍니다. 이미지를 X에, 0~9 라벨을 Y에 넣어주고 train,..
[SMARCLE 2022 AI Study] 미국 Boston 집 값 예측 SMARCLE 2022 AI Study class 2에서 선형회귀와 경사하강법을 다루었다. 이에 대한 예제로 사이킷런의 데이터를 바탕으로 실습을 진행하였다. 🎈예제 문제 2가지 독립 변수를 갖는 다중 선형 회귀를 통하여 미국 Boston의 집 값은 어떤 요인에 더 영향을 많이 받는지 분석하는 문제이다. A: 거주할 수 있는 방 개수(RM)와 지역의 교사와 학생 수 비율(PTRATIO)에 따른 영향 B: 지역별 범죄 발생률(CRIM)과 일산화질소 농도(NOX)에 따른 영향 과연 A, B 중 어떤 조합이 Boston 집 값에 영향을 더 크게 주는지 알아보자. 데이터 데이터 함수의 파라미터와 반환값은 이렇다. 데이터에 대한 더 자세한 설명은 아래의 링크를 참조하면 된다. https://scikit-learn...
인공지능 모델의 성능을 높이는 방법 좋은 인공지능 모델이란 무엇일까요? 당연히 train set을 벗어난 완전히 새로운 데이터의 결과도 알맞게 예측할 수 있는 모델일 것입니다. 그러기 위해서 개발자들은 아래의 두 가지를 고려하면서 모델의 예측 정확도를 높일 수 있어야 합니다. 모델이 기존 데이터에 underfitting/overfitting 되지 않아야 한다. 모델이 새로운 데이터에 유연히 대처할 수 있도록 충분히 일반화(generalization) 되어야 한다. 사실 이 둘은 어찌보면 같은 맥락 상에 있습니다. 그렇다면 모델의 성능을 높이기 위해 어떤 것들을 시도해볼 수 있을까요? 데이터 조작 알고리즘 튜닝 크게 두 가지 방향으로 모델 성능을 개선할 수 있습니다. 일반적으로는 데이터 조작이 모델 성능에 가장 큰 영향을 주고 번호 순으로 ..

반응형