본문 바로가기

Project/교내 프로젝트

[python week 일지] #1. 프로젝트 주제 정하기

반응형

8월 2일부터 바로 프로그램에 들어갔다.

선배와 카톡으로 얘기해 보면서 AI 해보고 싶다고 말씀 드렸더니 마침 선배가 AI 쪽 공부를 하고 계신다고 하셨다. 

 

어떤 주제를 할까 머리 싸매고 고민했는데 너무 너무 아이디어가 안 나왔다. 난이도도 예상이 안 가니까 말 하기도 조심스러웠다. 흑흑. 그러다가 제안드린 게 강아지가 사람이 된다면 어떻게 생겼을까 보여주는 프로그램이다. 아래와 같이 말이다.

사람 to 동물 프로그램은 많은데 왜 동물 to 사람 프로그램은 없을까 궁금해서 제안을 드렸는데 그건 쉽지 않다고 하셨다. 그 이유는 인터넷 상의 모든 이미지의 특징을 추출하는 과정이 필요하다고... 

 

그렇게 다른 아이디어를 고민하다가 https://openai.com/blog/clip/ 이 사이트를 보내주셨다. CLIP이라는 open AI 사에서 만든 프로그램이었다. 영어를 봐도 이해가 잘 안 되었다. 예시 작업을 보고 대충 이미지 to 텍스트 맥락이라는 것을 알아냈다. 한국어 자료가 별로 없더라 ..ㅠㅠ 있어도 잘 이해가 안 되는 말이었다. 다들 엄청난 혁신인 것처럼 소개하는데 정확히 어느 부분에서 다른 프로그램과 차별점이 있는 건지는 잘 이해가 안 되었다. 그렇게 한참 자료를 뒤졌다.

이미지의 class를 자동으로 분류해주는 AI 같다.

 

저걸 이용해 웹 사이트를 만들면 좋을 것 같았다. 마침 웹도 배우고 있고 해서 잘 할 수 있을 거 같았고 잘 하고 싶었다! 구상을 해서 아이패드로 메모해 선배한테 보내드렸다. 

이미지 to 텍스트 기능을 이용한 게임에 초점을 맞췄다. PC가 사용자에게 랜덤의 사진을 제시하면 사용자가 그게 뭔지 추론한 후, 주변에 있는 그것을 찍어 보내는 게임이다. 사용자가 보낸 사진을 CLIP을 이용해 class를 알아내고, 사용자가 보낸 사진의 class와 PC가 보낸 사진의 class가 일치하면 correct, 다르면 wrong이다.

서버만 된다면 1인 플레이를 넘어 다인 플레이도 생각해봤다. user a,b,c가 있으면 a->b->c-> ..... 이런 식으로 사용자가 다른 사용자에게 직접 문제를 내는 것이다. 어떤 나라의 누가 당신에게 사진을 보냈습니다! 이런 메세지로 문제가 나오면 재밌을 거 같다. 하지만 서버 문제는 아직 너무 어려워서 당장은 힘들 것 같다. 이를 해결하려면 백엔드 쪽으로 공부가 필요할 거 같다. 이런 식으로 제약이 생길 때마다 아쉬움이 참 크다. 얼른 백엔드도 공부해서 하고 싶은 거 다 해보고 싶다.

 

암튼 선배와 얘기하면서 저런 걸 만들기로 결정했다.

clip 자료를 이해하기 위한 자료를 보내주셨다. 제로샷 러닝이 무엇이냐에 대한 글이다.  https://m.blog.naver.com/with_msip/221886769247

그리고 이건 내가 찾은 clip 설명해주는 영상이다. https://www.youtube.com/watch?v=dh8Rxhf7cLU 

DALL-E의 반대 모델이라고 이해했다. DALL-E는 텍스트를 제시하면 그 텍스트 대로 세상에 없는 사진을 만들어주는 AI 모델이다. 실제로 DALL-E를 테스트 하기 위해 만들어진 모델이 CLIP이라는 것 같다. 

https://inforience.net/2021/02/09/clip_visual-model_pre_training/ 이것도 선배가 보내주신 CLIP에 대한 한국어 글이다.

 

CLIP 모델은 4억 장의 사진을 미리 학습했고 그에 대한 1000개의 라벨을 가지고 있다. 그래서 일상생활에서 볼 수 있는 사물은 거의 학습되어 있다고 볼 수 있다고 한다.

 

결론적으로 이 모델을 이용한 AI 프로그램을 제작하기로 했다. 

반응형