분류 전체보기

· SQL
1. 관계형 데이터베이스 개요데이터베이스와 DBMS(Database Management System)데이터베이스 : 데이터의 집합DBMS : 데이터를 효과적으로 관리하는 시스템(ex. ORACLE, MYSQL)관계형 데이터베이스 구성 요소계정 : 데이터의 접근 제한을 위한 업무별/시스템별 계정테이블 : DBMS의 DB 안에 데이터가 저장되는 형식스키마 : 테이블의 기본적인 구성, 구조를 정의특징데이터의 분류, 정렬, 탐색 속도가 빠름신뢰성이 높고, 데이터의 무결성 보장기존의 작성된 스키마를 수정하기 어려움데이터베이스의 부하를 분석하는 것이 어려움테이블테이블이란? 행(row)과 열(column, 속성이라고도 부름)을 갖는 2차원 구조로 데이터를 저장하는 최소 단위이다. 예를 들면) 엑셀 등과 같음테이블의 ..
SK AX AICT 시험 준비를 위해 글 작성해본다.사전 문제를 보니, 텔레콤에서 만든 gpt 4 기반 LLM 써서 작성하는 문제임. 즉, 바이브코딩 및 프롬프팅 능력 검증하는 쌈뽕한 셤이다~~예시 문항으로 AI 창작물에 대한 논란 및 견해 작성, 데이터엔지니어링 관련 코테 등이 있었음.이에 따라 전략을 세워봄 물론 지피티로 .. 셤 끝나고 리뷰도 남겨보겠음 ㅇㅇSK C&C의 AICT 시험은 지원자가 제시된 문제를 이해한 뒤 생성형 AI(예: GPT-4)를 활용해 해결하는 방식으로 진행됩니다. 따라서 프롬프트를 통한 명확한 지시와 AI의 출력 검증이 핵심 전략입니다. 아래에서는 코딩 과제와 보고서 과제별로 전략을 정리하고, 이를 반영한 효과적인 프롬프트 작성법을 예시와 함께 제시합니다.1. AI 활용 코..
R Q&A 모음Machine Learning with R : https://wikidocs.net/book/4315질문0 summary 관련 질문데이터에 NA 가 포함된 경우는 어떻게 알 수 있을까요?아래와 같이 NA 값이 섞여 있는 데이터프레임에 대해서summary(df)를 실행하면,NA's : 1 과 같이 결측치의 개수가 표시됩니다.number number 는 범주형이기 때문에 아래와 같이 표시됩니다.범주:개수질문1 &, &&의 차이# R 질문 1 &, &&의 차이점# &는 여러 개 요소를 갖는 두 벡터에서 두 벡터의 같은 위치 요소들을 각각 and 연산 합니다.# &&는 한 개 요소를 갖는 두 벡터에서를 and 연산 합니다. 만일 여러 개 요소를 갖는 두 벡터라면 맨 앞의 하나만 and 연..
## 8.의사결정나무 ```python # 관련 교재 (3-82. 불순도 측정 지표 - P482, 3-82의 문제3 - P487) 요약 - 지니 지수, 엔트로피 지수 : - '자체가 불순도를 의미'함 - 따라서 작은 값을 선택해야 함, 불순도가 작다는 것이 순수도가 높아지며 - '순수도가 높은 것을 분류를 잘한 것'으로 봄 - 엔트로피 지수는 p=0.5 (확률이 0.5)일 때 가장 불순도가 높은 것임 - 카이제곱통계량의 p-value : - 카이제곱통계량을 구할 때 '동질성 검사'를 사용함, 즉 동질성 검사의 결과임 - 동질성 검사의 가설 귀무 : A의 종류에 따라 B가 같다 대립 : A의 종류에 따라 B가 다르다 - '대립가설이 채택' 되어야 함 (대립가설..
0.단위 읽기0-1. 2.69e-07, 5.03e-08 비교실수 표현은 소수점 표현과 지수 표현이 있습니다.소수점 표현은 . 을 사용하는 것입니다.지수 표현은 알파벳 e 와 함께 사용하는 것입니다.e2 == $10^2$, e-2 == $10^{-2}$ 입니다지수 표현은 일반적으로 아주 크거나, 작은 수 표현에 사용합니다.e 뒤에 양수가 있으면 소수점을 뒤로 숫자만큼 이동해서 생각하시고e 뒤에 음수가 있으면 소수점을 앞으로 숫자만큼 이동해서 생각하시면 됩니다.10000.0 == 1e40.0001 == 1e-41234.5 == 1.2345e3, 0.12345e40.0012 == 1.2e-32.69e-07의 경우 : 2.69 에서 소수점을 앞으로 7개 이동하여 0.0000002695.03e-08의 경우 : 5..
ADsP 제3과목 - 201.통계 기본 용어 1모집단 : 데이터의 전체 집합모수 : 모집단의 특성을 나타내는 수치들모집단의 평균(𝝁), 분산(𝝈2) 같은 수치들표본 : 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling) 한 것모집단의 특성을 알기 위해 표본을 추출함 (오차 발생) => 추론(inference)통계량표본의 특성을 나타내는 수치들표본의 평균, 분산(s2) 같은 수치를 통계량(statistic)이라고 함모집단에 대해 알고자하는 값을 모수라고 하고, 모수를 추론하기 위해 구하는 표본의 값들을 '통계량' 이라 함통계량 문제 (22회)02.통계 기초 용어 2표본점어떤 행위를 했을 때 나올 수 있는 값주사위 굴리는 행위를 했다면 1, 2, 3, 4, 5, 6 중 하나..
ADsP 3과목 01-R언어A.그래프01 Boxplot 해석중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같고 절반은 이 값보다 크거나 같다사분위 간 범위 상자는 데이터의 중간 50%를 나타내며, 제1사분위수와 제3사분위수 값을 거리를 보여준다수염은 상자의 양쪽에서 연결되며, 특이치를 제외하고 데이터 값의 하위 25%와 상위 25%를 범위를 나타낸다상자박스는 그룹간 분포 차이를 비교할 수 있으며, 그 차이는 통계적으로 유의미함을 보일 수는 없다상자그림은 그룹 간 분포 차이를 비교할 수 있다상자그림에서 IQR은 제3사분위수 - 제1사분위수를 의미한다IQR(InterQuartile Range)로 표시하며 확률분포, 또는 자료값의 산포도를 나타내는 측도의 하..
· SQL
1과목데이터 모델링의 이해데이터 모델링이란?: 데이터 모델링은 ‘현실 세계’를 단순화하여 표현하는 기법데이터 모델링 특징 및 목적특징추상화: 현실세계, 개념을 일정한 형식으로 ‘간략하게’ 표현단순화: 현실세계를 ‘정해진 표기법’으로 단순하고 쉽게 표현, 핵심에 집중 + 불필요 제거명확화: 불분명함(애매모호함) 을 제거하고, ‘정확하게’ 현상을 기술목적단순히 DB, 시스템 만을 구축하기 위한 것이 아닌 업무 설명, 분석, 형상화 목적도 있음분석된 모델로 실제 DB 생성하며 개발 및 데이터 관리에도 사용데이터 모델링 유의점 및 3가지 관점 및 중요 3요소유의점중복(Duplication): 같은 데이터가 엔티티에 중복 저장되면 안된다.비유연성(Inflexibility)→ 데이터 모델과 프로세스 분리해서 유연성..
· SQL
출제 문제 및 범위 유형1과목 데이터 모델링의 이해데이터 모델링이란?: 데이터 모델링은 ‘현실 세계’를 단순화하여 표현하는 기법 데이터 모델링 특징 및 목적특징 추상화: 현실세계, 개념을 일정한 형식으로 ‘간략하게’ 표현 단순화 : 현실세계를 ‘정해진 표기법’으로 단순하고 쉽게 표현, 핵심에 집중 + 불필요 제거 명확화: 불분명함(애매모호함) 을 제거하고, ‘정확하게’ 현상을 기술목적 단순히 DB, 시스템 만을 구축하기 위한 것이 아닌 업무 설명, 분석, 형상화 목적도 있음 분석된 모델로 실제 DB 생성하며 개발 및 데이터 관리에도 사용 데이터 모델링 유의점 및 3가지 관점 및 중요 3요소유의점 중복(Duplication): 같은 데이터가 엔티티에 중복 저장되면 안된다. 비유연성(Inflexibility..
ADsP 2과목 : 데이터의 분석 기획01 분석의 4가지 유형분석 대상을 알면 OS 모르면 ID 로 암기하자최적화(Optimization) : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행함솔루션(Solution) : 분석 대상 알고, 분석의 방법을 모르는 경우 솔루션을 찾는 방식으로 과제 수행통찰(Insight)분석의 대상(WHAT)을 모르고 하는 분석 방법(HOW)의 경우 분석 방향 (16회)분석 대상을 모르나 기존 분석 방식을 활용해 분석 (18회)발견(Discovery) : 분석 대상을 모르고, 분석 방법도 모르는 경우 발견을 통해 대상을 새로 선정하는 것Insight를 찾는 객관식 (17회)통찰, 발견을 찾는 객관식 (18회)Solution찾는 객관식 (21회)02 목표 ..
ADsP 1과목 : 데이터 이해01 정량적, 정성적 데이터정량적 데이터지역별 온도,풍속, 강우량과 같이 수치로 명확하게 표현되는 이것은 데이터의 양이 크게 증가하더라도 이를 관리하는 시스템에 저장, 검색, 분석하여 활용하기가 매우 용이함도형, 기호, 숫자의 데이터정성적 데이터기상특보와 같이 언어, 문자 등으로 기술됨비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요함받침의 여부!정량적 - 도형, 기호, 수치로 표현정성적 - 언어, 문자로 표현정량적 데이터 주관식 문제로 출제 (16회)정량 데이터의 종류가 아닌 것 찾기 (19회)- 문자는 정량 데이터 아님!정성적 데이터에 속하는 것 찾기 (20회)- 기상특보02 지식경영 데이터데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용을 함지식의 차원에..
기본 개념 및 준비웹크롤링은 웹페이지의 HTML 구조를 분석하여 필요한 데이터를 추출하는 과정입니다. 시작하기 전에 대상 웹사이트의 robots.txt 파일을 확인하고, 이용약관을 검토하여 법적 문제를 방지해야 합니다.주요 기술 스택Python 기반 도구들이 가장 널리 사용됩니다. requests 라이브러리로 HTTP 요청을 처리하고, BeautifulSoup으로 HTML 파싱을, Selenium으로 동적 콘텐츠를 다룹니다. 대용량 크롤링에는 Scrapy 프레임워크가 효과적입니다.단계별 구현 방법론1단계: 대상 분석 웹사이트의 구조를 파악합니다. 개발자 도구로 HTML 구조를 분석하고, 데이터가 정적인지 동적인지 확인합니다. 페이지네이션 방식과 URL 패턴을 파악하는 것이 중요합니다.2단계: 요청 처리 ..
1. 프로젝트 개요목표: KREAM 사이트의 상품 가격 추적 및 예측대상: 스니커즈, 한정판 의류, 액세서리 등예측 기간: 1주일, 1개월, 3개월2. 데이터 수집 (Data Collection)2.1 웹 스크래핑 python# 주요 수집 데이터- 상품명, 브랜드, 모델명- 현재 판매가격 (즉시구매가)- 입찰가격 (구매입찰, 판매입찰)- 거래 내역 (과거 체결가격)- 상품 상태 (새상품, 거의새것, 사용감있음 등)- 사이즈별 가격- 출시일, 정가- 인기도 지표 (찜 수, 조회수)- 재고 상태2.2 외부 데이터패션 트렌드 지수 (Google Trends)계절성 데이터경제 지표 (소비자물가지수)소셜미디어 언급량 (인스타그램, 유튜브)2.3 스크래핑 도구 python# 기술 스택- Selenium (동적 콘텐..
대규모 언어 모델(LLM)은 일반적으로 단일 질의(“빠른 사고”)만으로 추론 결과를 생성하므로 복합적이고 반복적인 추론에는 한계가 있다. 최근 OpenAI-o1 같은 프로젝트에서 인간의 “느린 사고” 과정처럼 단계적이고 반복적으로 사고를 보강하는 방법론이 주목받고 있다. CoAT(Chain-of-Associated-Thoughts) 프레임워크는 이에 착안하여, 몬테카를로 트리 탐색(MCTS)과 연상 메모리(Associative Memory)라는 동적 외부 지식 보강 메커니즘을 결합했다. CoAT는 MCTS의 체계적 탐색 구조와 연상 메모리의 적응적 학습 능력을 융합하여 LLM의 추론 탐색 공간을 크게 확장한다. 각 단계에서 새로 유도된 핵심 정보를 실시간으로 반영함으로써, 과거의 추론을 재검토·수정하고 ..
· SQL
1. DDL (Data Definition Language)데이터베이스 객체(테이블, 뷰, 인덱스 등)를 정의·변경·삭제할 때 사용하는 문법입니다.주로 데이터베이스 구조를 설계하거나 수정할 때 사용됩니다.1.1. CREATE 문용도: 새로운 데이터베이스 객체(테이블, 뷰, 인덱스, 데이터베이스 등)를 생성주요 소분류:CREATE DATABASE설명: 새로운 데이터베이스를 생성예시:sql CREATE DATABASE sample_db;CREATE SCHEMA설명: 데이터베이스 내 논리적 객체 그룹(스키마)을 생성 (DBMS마다 지원 여부 상이)예시 (PostgreSQL):sql CREATE SCHEMA sales_schema;CREATE TABLE설명: 새로운 테이블을 생성. 컬럼, 자료형, 제약조건 등을..
· SQL
1. SQL의 기본 개념데이터베이스(Database)란 데이터를 전자적으로 체계화하여 모아놓은 저장소를 말합니다. 쉽게 말해, 데이터베이스는 데이터의 집합입니다. 일상생활에서 발생하는 많은 정보(예: 메시지 기록, 거래 내역, 회원 정보 등)가 데이터베이스에 저장되어 관리됩니다. 이러한 데이터를 효율적으로 저장하고 검색할 수 있도록 해주는 소프트웨어 시스템을 DBMS(Database Management System)라고 합니다. 대표적인 DBMS로는 MySQL, Oracle, PostgreSQL, MS SQL Server, SQLite 등이 있으며, 대부분 관계형 데이터베이스 형태로 데이터를 관리합니다.SQL(Structured Query Language)은 관계형 데이터베이스를 관리하고 질의하기 위한 ..
1. 기술 역량 (Technical Skills)프로그래밍Python: 데이터 처리, 자동화, ETL 파이프라인 개발에 필수SQL: 관계형 데이터 질의 및 최적화(선택적으로) Java, Scala: Spark, Kafka 등 빅데이터 환경에서 사용데이터베이스관계형 DB: MySQL, PostgreSQL 등비관계형 DB: MongoDB, Cassandra, DynamoDB데이터 웨어하우스: Snowflake, BigQuery, RedshiftETL & 데이터 파이프라인Apache Airflow, Luigi, AWS Glue, dbt 등배치/스트리밍 데이터 처리 경험 (예: Apache Kafka, Spark Streaming, Flink)클라우드 서비스AWS / GCP / Azure: S3, Lambda,..
카카오톡 대화 데이터를 활용해서, 페르소나를 입힌 챗봇을 만들어 보겠습니다.Kanana-nano-2.1B LoRA 파인튜닝 방식을 활용했기에 가상 환경 코랩 T4 구동 가능합니다.헤어진 연인에게 추천합니다. (독거노인말벗)Kanana-nano-2.1B LoRA 파인튜닝 Colab 노트북개요: Kakao의 Kanana-nano-2.1b-instruct 모델을 Google Colab (T4 GPU)에서 LoRA 방식으로 파인튜닝하고, 튜닝된 모델로 대화(chat)할 수 있는 전체 파이프라인을 제공합니다. 데이터셋은 | 구분자로 왼쪽이 사용자 발화, 오른쪽이 페르소나(모델) 응답으로 구성되어 있으며, 한 줄이 하나의 대화 턴입니다. 이 코드는 해당 데이터셋을 전처리하여 모델을 사용자 입력 -> 페르소나 응답 ..
텍스트 데이터를 효과적으로 활용하기 위해서는 텍스트 임베딩과 벡터 데이터베이스(Vector DB)를 결합한 RAG (Retrieval-Augmented Generation) 시스템이 주목받고 있습니다. 임베딩은 텍스트를 수치 벡터로 변환하여 기계가 이해할 수 있는 형태로 만들고, 벡터DB는 이렇게 생성된 벡터들을 저장하고 유사한 벡터를 빠르게 검색할 수 있게 해줍니다. 텍스트 임베딩의 개념과 최신 동향부터 벡터DB 기술 비교, 최신 연구 논문, 그리고 RAG 시스템에서 임베딩과 벡터DB를 활용하는 방법까지 정리했습니다. 1. 텍스트 임베딩: 개념과 최신 기술 동향텍스트 임베딩이란? 텍스트 임베딩(text embedding)은 문장이나 단어를 다차원 벡터 공간의 한 점으로 표현하는 것입니다 쉽게 말해, 텍..
· 언어학
화용론이란 무엇인가?화용론(話用論, pragmatics)은 언어의 의미를 “맥락” 속에서 연구하는 학문 분야예요. 쉽게 말해, 똑같은 말이라도 어떤 상황에서, 누구에게, 어떻게 말하느냐에 따라 뜻이 달라지는 경우를 다루는 linguistics의 한 영역이죠. 우리가 일상 대화에서 자주 경험하듯이, 말의 문자 그대로의 뜻(표면적 의미)과 의도가 담긴 실제 뜻(함축적 의미)은 다를 수 있습니다. 화용론은 바로 그 “의도가 담긴 뜻”을 이해하려면 발화가 이루어지는 맥락(context)을 고려해야 한다고 강조합니다.예를 들어, 누군가 친구에게 “잘 먹고 잘 살아라.”라고 말했다고 가정해볼게요. 겉보기에는 상대방의 안녕을 비는 말처럼 들리지만, 상황에 따라서는 정반대의 의미로 쓰일 수 있어요. 이 말이 이별 상황..
도갱도갱
'분류 전체보기' 카테고리의 글 목록