본문 바로가기

AI/NLP3

ModuleNotFoundError: No module named 'custom_st' embeddings_model = HuggingFaceEmbeddings( model_name="jinaai/jina-embeddings-v3", model_kwargs={"device": "cuda"},) jina 임베딩 쓰려는데 갑자기 'ModuleNotFoundError: No module named 'custom_st'' 에러가 뜸.캐시폴더를 확인해봐도 잘 깔려 있는데 왜 그럴까.. 여기저기 알아보니 캐시파일 지우고 다시 해라, trust_remote_code = true하면 된다 등등 많은데 다 안됨. 내가 생각해도 trust_remote_code가 custom_st와 가장 연관이 깊어서 true로 해봤는데 에러가 뜸. 그래서 langchain github 들어가서 community_.. 2024. 11. 29.
[NLP스터디] NLP에 필요한 한국어 문법 형태소 형태소란 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위를 말하고 실직형태소와 형식형태소가 있음.(NLP할 때 기본) 실질 형태소(어근): 어휘적 의미를 가진 가장 작은 단위 자립 형태소(접사, 어미, 조사): 문법적 의미를 가진 가장 작은 단위 어근 어근이란 한자뜻 그대로 단어의 가장 근간이 되는 부분이고 9품사 중 조사를 제외한 명사, 대명사, 동사, 형용사, 부사, 감탄사, 수사, 관형사가 있음. 사랑한다에 '사랑', 어른답다에 '어른'이 어근 -> 실질적인 의미를 담당하는 실질형태소 접사 어기 또는 어근에 첨가되어 새로운 의미나 문법기능을 나타내는 형태소로 접두사와 접미사가 있음(파생어를 만드는) 맨손의 맨이 접두사, 선생님의 님이 접미사.. 2024. 1. 20.
[NLP스터디] 1주차 토큰화 말뭉치(Corpus)에서 token 단위로 분리하는 것을 토큰화라 한다. 단어 토큰화 단어 단위로 토큰화하는 것. 예문: This is the best thing. 토큰화: 'This', 'is', 'the', 'best', 'thing' 토큰화에서 고려해야 할 사항 구두점이나 특수 문자를 함부로 제외하면 안됨. '.''의 경우 마침표일 때도 의미가 있고, 'Dr.'같은 경우나 'Ph.D' 같은 경우가 있음. ','도 문장을 끊을 때 쓰거나 1,000 같은 예도 존재. 줄임말과 단어내 띄어쓰기가 있는 경우 New York 같은 경우 어떻게 할지 고민해봐야함. 문장 토큰화.. 2024. 1. 19.