728x90

개발 일지 9

문자열 및 단어 표현 방식(TF-IDF, 원 핫 벡터, word2vec 등등)

원본 데이터(문자열) 부터 tf-idf까지 정리. 여기에서는 개념 그 자체보다도 내가 이해했을때 어떤 특징이 있고 각 개념별 어떤 차이가 있는지를 위주로 서술. 0. 단어의 표현 방법에는 크게 두가지가 있다. 국소 표현, 분산 표현이 각각인데.. - 국소 표현 : 단어 자체만 보고 단어를 표현 - 분산 표현 : 주변 값을 참고하여 단어를 표현 위와 같은 차이가 있고, 각각에 또 여러 방법이 있다. - 국소 표현 (one hot vector, N-gram, DTM(Bag of Words)) - 분산 표현 (word2Vec(FastText), LSA, Glove) 이 외에도 더 많을듯. 1. 정수 인코딩 원본 문자열의 예시는 다음과 같다. "키움 증권의 영웅문" 여기에서 명사만 추출한다면 키움, 증권, 영웅..

판다스 필수(주요) 명령어 정리 ㄹㅇ필수인것만,,

아니 판다스는..맨날 쓰는데 각잡고 공부하는게 아니라 항상 실행 되면 넘어가고 이런 느낌이였어서 그런지 늘지를 않는다ㅠ 파이썬보단 데이터 처리에 더 용이하지만 파이썬이랑은 또 다르고 그렇다고 SQL만큼 쉬운것도 아니고... 아니 물론 SQL서브쿼리 1도 모름 ㅎㅎ 하지만 LIKE '%어쩌구%' 같은 문법은 너무 너무 편하고 좋으니까 ..join도쉽고.. 아무튼 내가 앞으로 쓸것들 + 중요하다고 생각하는 것들만 좀 정리해둘려고,, 한다. df = 판다스 데이터프레임 1. 열추출 록이랑 아이록 차이만 잘 알아두면 된다. 컬럼명 vs 컬럼의 물리적 순서를 활용한 번호 df.loc[:, ['컬럼명1', '컬럼명2', ...]] #-> 컬럼명을 활용해 일부 컬럼만 추출 df.iloc[:, [1,2,3]] or d..

머신러닝 전 텍스트를 숫자로 바꾸는 법

당연한 말이지만 텍스트 인덱스를 가지고 머신러닝을 돌릴수는 없다. 적어도 내가 아는 바로는 그렇다. 그래서 바꿔줘야함. -> 앞으로 쓸려고 정리해봤다. 혹시 아래 다 읽을 사람이 있을까봐, grade랑 action을 가지고 position을 추측해보는 머 그런느낌적느낌이다. key = np.array(list(enumerate(revised['grade'].unique())), dtype=str)[:, 1].tolist() value = list(map(int, np.array(list(enumerate(revised['grade'].unique())))[:,0].tolist())) revised['grade'].replace(to_replace=key, value=value, inplace=True) ..

맥북에서 superset mysql db설정하기

일단 수퍼셋 설치는 이렇게 하고 맥북 m1 venv 가상환경에 superset 설치하기 공식 아파치 수퍼셋 설치 닥스를 참고했다. Installing From Scratch | Superset Installing Superset from Scratch superset.apache.org 우선 가상환경 실행. virtualenv써서 가상환경 만들고 해당 가상환경 및.. whatryando.tistory.com db는.. 원래 superset을 깔면 sqlite가 같이 설치되고 기본 db로 sqlite를 사용하는 것 같아서 나도 시범삼아? 그냥 sqlite를 사용하려고 했다. 근데..안됨. 스택오버플로우 찾아보니까 superset은 보안?상의 이유로 sqlite를 더이상 사용하지 않는다고 하고, config..

맥북 유선랜 설정 (고정 ip 등록하기)

맥에는 랜포트가 없어서, 나는 회사에서 지급받은 포트를 사용해서 유선랜을 연결했다. 랜 연결 후 시스템 환경설정 -> 네트워크 로 들어간다. 그러면 USB ... LAN, Wifi, Thunderbolt 브리지 이렇게 뜬다. 나는 인터넷에서 찾아봤을때 thunder로 들어가라는 글을 잘못 봐서 여기에 자꾸 아이피 주소를 입력했는데.. 안됐다. 찾아보니까 USB ...LAN 써있는게 맥북 기본 랜연결 포트?인듯. 여기 ipv4 구성을 수동으로 바꿔주고 거기에 유선, 서브넷, 게이트웨이(윈도우 게이트웨이가 맥북에서는 라우터이다.) 입력하고, 고급에 들어가서 DNS에 DNS1, DNS2를 추가해서 저장 적용하면 인터넷 연결 끝. 별건 없는데; 나중에 혹시라도 헤매기 싫어서 저장해둔다.

맥북 m1 venv 가상환경에 superset 설치하기

공식 아파치 수퍼셋 설치 닥스를 참고했다. Installing From Scratch | Superset Installing Superset from Scratch superset.apache.org 우선 가상환경 실행. virtualenv써서 가상환경 만들고 해당 가상환경 및 해당 폴더에 진입한다. (아파치 공식 닥스에서도 가상환경에서 수퍼셋 설치하기를 추천한다. 위 문서에서는 브루 install~ 부분까지 하고 가상환경에 진입하라고 하는데 머 순서는 노상관) 1. xcode-select --install xcode 설치. 사실 나는 xcode는 설치한적이 없는데 맥북에서 코딩할려면 필요하다는 말은 많이 듣긴 했다. 그래서 이번 기회에 깔아볼까..햇는데 설치가 안된다. 이유는 모르겠지만 이건 찾아보면 ..

맥북 파이썬 3 기본설정 + 경로추가하는 방법

1. 터미널 오픈 2. cd ~/ 입력해서 홈 디렉토리로 이동 3. open .bash_profile 입력하면 배시프로필 창이 켜진다. 처음엔 아마 빈 메모장? 느낌일거임 4. alias python='python3' 이거 복붙. 사이에 빈칸있으면안됨 (python 실행시 바로 python3으로 실행된다.) 4-1. 만약 alias가 아니라 경로를 추가하고싶으면 export PATH=${PATH}:[경로] 를 작성한다. 경로 예시 : /Users/ryan~~~ 5. 저장하고 창닫고 source .bash_profile 입력하면 저장된다. 터미널에서 하고싶으면 1. vi .bash_profile -> 입력시 터미널 창이 배시 프로필 창으로 바뀐다고 해야되나?ㅋㅋ 그럼 거기서 i 누르기(인서트) 2. 원하는..

맥북 가상환경 설정 및 가상환경에서 numpy, pandas, jupyter notebook 설치하는 법 (콘다 아니고 venv)

M1 맥북 프로 사용중이고 python3.8로 제게 필요한 것들은 이미 설치돼있는 경우입니다. python3 -m pip install virtualenv virtualenv -p python3.8 venv source venv/bin/activate pip install --upgrade pip pip install numpy cython git clone --depth 1 https://github.com/pandas-dev/pandas.git cd pandas python3 setup.py install 이렇게 명령어를 치면 된다고 스택플로우에서 봤다가 살짝 고생했다. 여러분은ㅇ ㅣ렇게 하지마세요. 여기에서 필요한 줄은 딱 몇개임. 아 물론 제가 권하는 방법대로 안된다고 하면 위 방법을 시도해볼 순..

728x90