PGR21.com
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다.
통합 규정을 준수해 주십시오. (2015.12.25.)
Date 2022/06/08 09:53:44
Name 휵스
Subject [질문] NLP(토픽모델링) 한글과 영어 차이?
현재 사회과학쪽 연구를 하고 있는 대학원생인데 요새 머신러닝의 발달과 함께 점점 비정형화 텍스트를 데이터로 삼고 거기서 변수를 만드는 연구들이 메인스트림에도 많아지더라고요. 코드를 보면 대부분 이런 NLP 툴 (e.g., LDA topic modeling, word2vec)들이 영어 위주로 개발이 된듯한데 한글도 영어처럼 똑같이 적용이 가능한가요? 뭔가 언뜻 한글은 더 체계화 시키기 어려울것 같다는 생각이 들었는데 궁금합니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
새벽살이
22/06/08 10:11
수정 아이콘
일단 화자 수가 영어가 압도적이기도 하고 한국어 같은 경우는 조사 때문에 연구 난이도가 높은 것으로 알고 있습니다.
단적인 예로 영어는 단어가 대부분 공백으로 구분되지만 한국어는 은는이가 부터 떼고 생각해야 하죠..
그래서 분석을 위해 문장을 배열로 변환하실 거면 단어를 어절로 구분하여 분석하는 fasttext를 추천드립니다. 이름대로 속도도 빠른 편입니다.
https://fasttext.cc
위키백과 기준 한국어 데이터는 만들어져 있고 위키백과 데이터 덤프에 분석에 특화된 corpus를 추가하시어 커스텀 모델을 생성하셔도 좋습니다.
새벽살이
22/06/08 10:15
수정 아이콘
LDA는 통계학 쪽 테두리에 있는 모델로 사용하시려면 문서에서 단어 추출이 필요합니다. LDA 자체는 언어에 영향을 받는 모델이 아닙니다. 분석하고자 하는 언어마다 단어 추출 난이도가 다를 뿐이죠. 이를 위해 주로 사용하는 것이 형태소 분석기인데, mecab, hannanum 형태소 분석기 등이 있으며 파이썬 konlpy 패키지에서 대부분 지원하고 있습니다.
새벽살이
22/06/08 10:22
수정 아이콘
아무래도 화자와 데이터 수는 비례하는 요소이다 보니 최근 연구에서는 언어 모델을 개발할 때 영어/중국어/나머지 언어로 접근하는 것 같습니다. 예전에 잠깐 찾아봤을 때 BERT라는 언어 모델이 제시되어 그 파생이 많이 나왔는데 미리 학습된 모형은 대충 English/Chinese/Multilingual 로 나옵니다.
그래도 한국전자통신연구원에서는 https://aiopen.etri.re.kr/service_dataset.php 같은 한국어 언어모델을 만들었습니다. 텍스트 데이터를 많이 소유한 기업에서도 내부적으로 개발을 진행하고 있지 않을까 합니다. 네이버만 봐도 네이버 쇼핑에서 쇼핑 후기에 강조 처리를 하고 있죠.
22/06/08 14:59
수정 아이콘
자세한 정보 감사합니다!
22/06/08 12:27
수정 아이콘
NAVER CLOVA의 hyperCLOVA 논문같은걸 보시면 한글의 경우 tokenization 하는 것에 있어서 좀더 트릭이 필요합니다. 그 뒤로는 영어 데이터랑 크게 다를바는 없구요.
연구레벨에서 아무래도 minor하다보니 정보가 적어보이는거구요.

google이나 deepmind의 multilingual model들의 경우에 한글도 대응은 되는데, 아무래도 web에서 긁어온거라 한글 데이터가 일부밖에 안됩니다.
일부만 가지고도 multi-lingual모델의 low-resource language 성능이 꽤 좋다는 결과도 많긴 하지만, 그래봐야 한글데이터 제대로 넣은거랑 차이가 좀 있습니다.
SK나 카카오에서도 모델 공개를 하고 있으니 참고를 해보실수 있을겁니다.
22/06/08 15:00
수정 아이콘
이런 기업들에서도 모델 공개를 하는군요. 정보 감사합니다!
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회
164094 [질문] 기아차 안드로이드오토 오류 질문 드립니다. [7] 파쿠만사4450 22/06/08 4450
164093 [질문] 아이패드 중고로 파는 방법? [16] 톤업선크림3567 22/06/08 3567
164092 [질문] 독어랑 러시아어 빨리배우는법? (논문읽기용) [6] 티타늄4835 22/06/08 4835
164091 [질문] 파이썬으로 간단한 프로그램을 만들어보고 싶습니다. [4] 펩시제로라임3959 22/06/08 3959
164090 [질문] 고등학교 과학탐구 영역 공부하고 싶습니다. [5] 득이3146 22/06/08 3146
164089 [질문] 요즘 잘나가는 취업 사이트 뭐가 있을까요? [11] 리얼월드3316 22/06/08 3316
164088 [질문] 가입한지 50년 넘은 집전화기 해지해도 될까요..?? [12] 이쥴레이4496 22/06/08 4496
164087 [삭제예정]  30대 후반 여성에게 추천할만만 책 추전부탁드립니다 [29] 시오냥5919 22/06/08 5919
164086 [질문] NLP(토픽모델링) 한글과 영어 차이? [6] 휵스4116 22/06/08 4116
164085 [질문] 외국인 현재 한국 입국시 절차가 어떻게되나요? [8] FarorNear4912 22/06/08 4912
164084 [질문] 서울에 왔으면 꼭 먹어봐야 한다? [53] 하얀소파6934 22/06/07 6934
164082 [질문] 에픽세븐하시는분있나요? 할만한게임찾고있어요 [9] 처음이란4884 22/06/07 4884
164081 [질문] 핸드폰게임용 컨트롤러 추천부탁드립니다. [2] 테오도르3143 22/06/07 3143
164080 [질문] CPU는 인텔인가요 AMD인가요? [18] wiggle4267 22/06/07 4267
164079 [질문] PGR 여러분들이라면 장효조 선수카드중에서 어떤게 더 좋다고 보시나요?? [1] 잘가라장동건3441 22/06/07 3441
164078 [질문] 시골 똥개가 비교적 건강하다는건 사실인가요? [13] AKbizs5199 22/06/07 5199
164077 [질문] 과자를 찾습니다. [7] 교자만두3288 22/06/07 3288
164076 [질문] 오래된 만화책의 제목을 찾습니다. [6] 시간이지나면4119 22/06/07 4119
164075 [질문] 음주와 건강검진 질문(간 관련입니다) [10] 연벽제3588 22/06/07 3588
164074 [삭제예정] 혹시 청주 사시는분 있나요...? [10] 삭제됨4434 22/06/07 4434
164073 [질문] 인테리어 쪽 여러가지 볼 수 있는 곳 [7] 한기3498 22/06/07 3498
164072 [질문] 스위치 배터리가 이상합니다 [5] 형리3537 22/06/07 3537
164071 [질문] 성장기 육류섭취가 체력과 상관이 있을까요? [6] 늅늅이3243 22/06/07 3243
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로