Avinash Kumar

Avinash Kumar

컴퓨터 비전 및 생성형 AI 전문가

소개

생성형 AI, 이미지 합성, 자동화된 이미지 이해에 깊은 전문성을 가진 컴퓨터 비전 연구원이자 AI 개발자입니다. 이미지 생성, 세그멘테이션, 객체 감지, 이미지 간 변환과 같은 작업을 위한 딥러닝 아키텍처 설계, 학습 및 배포에 전문성이 있습니다. PyTorch와 TensorFlow를 포함한 고급 프레임워크에 능숙하며, 신경망, GAN, 디퓨전 모델, 비전 트랜스포머에 대한 실무 경험이 있습니다. 제 연구는 기술적 혁신과 실제 응용을 통합합니다.

학력

컴퓨터 공학 석사
대학 방문

숭실대학교 (2022–2024)
학점: 4.34/4.50

논문: 위치 기반 컴포넌트를 이용한 한글 폰트 생성 (YOLOv8, GANs)

소프트웨어 공학 학사
대학 방문

MUET SZAB 캠퍼스 (2016–2021)
학점: 3.86/4.00

논문: FIS 호스텔 (식품 인터넷 보안)

기술적 역량

프로그래밍 & 개발
  • Python (숙련, 프로덕션 레벨)
  • JavaScript, Java, C++, C (지식 보유)
  • HTML, CSS – 프론트엔드 웹 개발
프레임워크 & 라이브러리
  • PyTorch, TensorFlow, Keras – 딥러닝
  • OpenCV, Scikit-learn, NumPy – 이미지 처리
  • Pandas, SQL – 데이터 준비 및 처리
  • Matplotlib, Seaborn, Plotly, Tableau – 데이터 시각화
데이터베이스
  • MySQL, MongoDB, Microsoft Access
컴퓨터 비전 & AI
  • 이미지 분류, 감지, 세그멘테이션, 생성, 추적
  • GANs: GAN, CGAN, StyleGAN, DCGANs, StarGANs, FUNIT, TUNIT
  • 트랜스포머: Hugging Face, 비전 트랜스포머
  • ML 알고리즘: SVM, 나이브 베이즈, 결정 트리, 랜덤 포레스트
  • 딥러닝: CNN, RNN, LSTM, GRU, 어텐션 메커니즘
  • 컴퓨터 비전: OpenCV, 이미지 처리, 특징 추출
  • 객체 감지: YOLO, Faster R-CNN, SSD, RetinaNet
  • 이미지 세그멘테이션: U-Net, Mask R-CNN, DeepLab
  • 신경망 아키텍처 검색 (NAS)
  • 모델 최적화: 양자화, 가지치기, 지식 증류
LLMs & 생성형 AI
  • 프롬프트 엔지니어링, LLM 파인튜닝
  • 디퓨전 모델: Stable Diffusion, DALL-E, Midjourney
  • 텍스트-이미지 생성
  • 이미지-이미지 변환
  • 신경 스타일 전송
  • 오토인코더 및 변분 오토인코더 (VAEs)
도구 & 운영체제
  • Linux, Windows, macOS
  • Git, Jupyter, VS Code, Google Colab
소프트 스킬
  • 고급 연구 및 분석 역량
  • 기술 문서 작성 및 문서화
  • LaTeX 조판 및 학술 논문 작성
  • AI 문제에 대한 문제 모델링 및 솔루션 설계
  • 강력한 구두 및 서면 커뮤니케이션
  • 수학 및 통계 분석
  • 다양한/융합형 팀 협업
  • 프로젝트 및 시간 관리
  • 비판적 사고 및 문제 해결
  • 논문 작성 및 출판
  • 프레젠테이션 및 대중 발표
  • 데이터 분석 및 해석

경력

연구 조교

시스템 소프트웨어 연구실, 숭실대학교 — 서울, 대한민국

2022년 9월 – 현재
연구실 방문
  • 이미지 생성을 위한 GAN 개발 및 YOLOv8/딥러닝 모델을 활용한 세그멘테이션, 분류, 객체 감지 모델 학습
  • 생성형 모델과 컴퓨터 비전 작업에 대한 전문성을 적용한 딥러닝 서비스 구축
  • 딥러닝과 컴퓨터 비전에 초점을 맞춘 저널 및 국제 학회 논문 발표
  • OpenCV, GAN, 디퓨전 모델을 활용한 이미지 처리 및 생성 기술 연구
소프트웨어 엔지니어

Cubix — 카라치, 파키스탄

2022년 2월 – 2022년 8월
회사 방문
  • Solidity와 Remix IDE, Truffle 프레임워크를 사용한 게임 관련 토큰 및 NFT 스마트 컨트랙트 개발
  • JavaScript를 활용한 블록체인 솔루션 통합 및 다중 탈중앙화 웹 프로젝트 구축
  • Truffle을 사용한 테스트 케이스 및 시나리오 작성으로 스마트 컨트랙트 품질 및 보안 확보
  • 탈중앙화 거래소, 유동성 풀, 풀스택 블록체인 애플리케이션 개발

주요 프로젝트

생성형 필기체 폰트

43개의 필기 샘플만으로 2,780개의 한글 문자를 생성하는 시스템 개발. YOLOv8을 활용한 효율적인 문자 감지 및 세그멘테이션, PACGAN을 통한 고품질 폰트 스타일 합성.

기술: YOLOv8, GANs (PACGAN), PyTorch, 한글 폰트 생성

프로젝트 보기 (mywriting.kr)
FontFusionGAN: 필기체 향상

스타일 블렌딩을 통한 필기체 품질 향상을 위한 GAN 기반 모델 개발. MDPI Electronics에 게재. 스타일 전송을 위한 새로운 융합 기술 구현.

기술: GANs, 스타일 전송, 컴퓨터 비전, 연구

논문 보기
실시간 객체 감지 스마트 감시 시스템

실시간 객체 감지에 대한 이해를 높이기 위해 오픈소스 프로젝트에 참여하고 직접 실행했습니다. 이 시스템은 YOLOv8과 OpenCV를 활용하여 실시간 영상 스트림에서 여러 객체를 감지 및 추적하며, 경고 및 이벤트 로깅 기능을 포함합니다.
기술: YOLOv8, OpenCV, Python, 딥러닝

기술: YOLOv8, OpenCV, Python, 딥러닝

오픈소스 보기 (Ultralytics YOLO)
의료 영상 분할을 통한 종양 탐지

의료 영상 분할 실습을 위해 오픈소스 프로젝트를 활용했습니다. U-Net 기반 모델을 사용하여 MRI 영상에서 종양을 정밀하게 분할하고 진단 지원에 기여했습니다.
기술: U-Net, 의료 영상, PyTorch

기술: U-Net, 의료 영상, PyTorch

오픈소스 보기 (Brain Segmentation)
비전 트랜스포머를 활용한 정밀 이미지 분류

Vision Transformers(ViT)를 활용한 정밀 분류 오픈소스 프로젝트를 직접 실행했습니다. 전이학습과 데이터 증강을 통해 유사한 조류 종을 구분하는 파이프라인을 구축했습니다.
기술: Vision Transformers, 이미지 분류, PyTorch

기술: Vision Transformers, 이미지 분류, PyTorch

오픈소스 보기 (ViT)
자율주행을 위한 의미론적 세그멘테이션

자율주행을 위한 의미론적 세그멘테이션 역량 강화를 위해 오픈소스 프로젝트에 기여했습니다. DeepLabV3+ 모델로 도로 차선, 차량, 보행자 등을 인식합니다.
기술: DeepLabV3+, 의미론적 세그멘테이션, TensorFlow

기술: DeepLabV3+, 의미론적 세그멘테이션, TensorFlow

오픈소스 보기 (DeepLab)
항공 영상 다중 객체 탐지

항공 드론 영상에서 다중 객체 탐지 시스템을 개발하기 위해 오픈소스 프로젝트를 활용했습니다. Faster R-CNN을 사용하여 고해상도 이미지에서 건물, 차량, 인프라를 탐지합니다.
기술: Faster R-CNN, 항공 영상, 딥러닝

기술: Faster R-CNN, 항공 영상, 딥러닝

오픈소스 보기 (Faster R-CNN)
WAGMI 게임

Cubix에서 개발한 블록체인 기반 게임 플랫폼. Solidity를 활용한 스마트 컨트랙트 통합 및 Node.js 기반 백엔드 API 개발. 게임 내 거래의 투명성과 보안을 강화했습니다.

기술: 블록체인, 스마트 컨트랙트, Solidity, Node.js

상세보기

논문

딥 시맨틱 세분화 및 적대적 스타일 전송을 통한 위치 기반 컴포넌트 가이드 한글 폰트 이미지 생성

Avinash Kumar, Irfanullah Memon, Abdul Sami, Youngwon Jo, Jaeyoung Choi

Electronics, 14(13), 2699, 2025

논문 보기
고품질 한글 폰트 생성을 위한 텍스트 조건부 디퓨전 모델

Abdul Sami, Avinash Kumar, Youngwon Jo, Irfanullah Memon, Muhammad Rizwan, Jaeyoung Choi

ICOIN 2025, 치앙마이, 태국, 2025

논문 보기
이미지 생성 모델을 활용한 한글 필기체 폰트 생성 서비스

Youngwon Jo, Avinash Kumar, Uijong Yang, Daeun Kim, Jaeyoung Choi

한국어문학회 연례 학술대회, 2024, p 50-55

논문 보기
CKFONT3: 위치 인식 컴포넌트 분해를 이용한 한글 폰트 생성

Avinash Kumar, Irfanullah Memon, Abdul Sami, Youngwon Jo, Jaeyoung Choi

SSRN, 2024

초록 보기
FontFusionGAN: 폰트 융합을 통한 손글씨 폰트 개선

Avinash Kumar, Kyeolhee Kang, Ammar ul Hassan, Jaeyoung Choi

MDPI Electronics, 2023

논문 보기
딥 추천 시스템에서의 적응형 특징 선택

Hyston Kayange, Avinash Kumar, Yejung Lee, Hoonseo Jung, Jongsun Choi

한국정보과학회, 2023

논문 보기
폰트 스타일 혼합을 통한 손글씨 폰트 개선에 관한 연구

Avinash Kumar, Kyeolhee Kang, Ammar ul Hassan, Jaeyoung Choi

MITA 2023, 체코 오스트라바 공과대학, 2023

논문 보기

특허

스타일 일관성 및 형태 정확성을 검증할 수 있는 폰트 검증 방법 및 이를 수행하기 위한 컴퓨팅 장치

2025.04.11  |  출원 (10-2025-0047215, submitted)

발명자: Jayoung Choi, Irfanuulah Memon, Avinash Kumar

손글씨의 품질을 높일 수 있는 폰트 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치

2025.04.08  |  출원 (10-2025-0045652, submitted)

발명자: Jayoung Choi, Avinash Kumar

한글의 구성 요소 기반의 한글 폰트 생성 장치 및 방법

2025.03.18  |  출원 (10-2025-0034957, submitted)

발명자: Jayoung Choi, Irfanuulah Memon, Avinash Kumar, Youngwon Jo

한글의 구성 요소의 위치를 이용한 한글 이미지 생성 장치 및 방법

2025.03.17  |  출원 (10-2025-0034154, submitted)

발명자: Jayoung Choi, Avinash Kumar, Youngwon Jo

수상 및 영예

최우수 연구 논문상

MITA 학회 2023

GAN을 활용한 폰트 개선에 대한 혁신적인 연구로 수상

전액 장학금

숭실대학교 (2022-2024)

석사 학위 과정을 위한 교수 장학금 수혜

사쿠라 교류 프로그램

도쿄대학교, 일본 (2018)

사이버 보안 해커톤 참가를 위한 최우수 학생 선발

HEC 장학금

메란 공과대학교 (2016-2021)

학사 학위 과정을 위한 고등교육위원회 장학금 수혜

자격증 및 인증

고급 생성적 적대 신경망(GANs) 구축

Coursera • 2022년 12월 발급

자격증 ID: UNR55BUM63YP

자격증 확인
기본 생성적 적대 신경망(GANs) 구축

Coursera • 2022년 11월 발급

자격증 ID: JTFMNC28NUSP

자격증 확인
Python (기초)

HackerRank • 2020년 6월 발급

자격증 ID: DE3D247D852E

자격증 확인
Python 데이터 구조

Coursera • 2020년 5월 발급

자격증 ID: 69LSN2ZGQ6NA

자격증 확인
모두를 위한 프로그래밍 (Python 입문)

Coursera • 2020년 5월 발급

자격증 ID: YKUGZD7B53NC

자격증 확인
모두를 위한 AI

Coursera • 2020년 4월 발급

자격증 ID: NXUEEHK5NEKM

자격증 확인
문제 해결

HackerRank • 2025년 5월 발급

자격증 ID: 17DF277392C2

자격증 확인
Python

HackerRank • 2022년 2월 발급

자격증 ID: C1BCB97E3898

자격증 확인

연구 분야

생성형 AI

GAN, 디퓨전 모델, 신경 스타일 전송, 텍스트-이미지 합성, 이미지 생성, 폰트 생성

컴퓨터 비전

이미지-이미지 변환, 문서 분석, 객체 감지, 이미지 분류, 의미론적 세그멘테이션

멀티모달 AI

텍스트 조건부 이미지 생성, 크로스모달 검색, 비전-언어 모델

저는 생성형 AI와 컴퓨터 비전 분야의 도전적인 문제들을 해결하기 위한 새로운 딥러닝 기술 개발에 특히 관심이 있습니다. 현재 연구는 생성된 이미지의 품질과 다양성 향상, 생성 모델의 성능 개선, 그리고 비전과 언어의 교차점 탐구에 초점을 맞추고 있습니다.

연락처

kumaravinashsw44@gmail.com

(+82) 10-2133-9128

서울, 대한민국