Соломон Чакаев, Online Resume

Соломон ЧакаевData Scientist
+79959225676 Telegram
t.me/veidlink 
[email protected] LinkedIn
linkedin.com/in/srchakaev GitHub
github.com/veidlink 
Moscow, Russia 

ОБО МНЕ

Я - data scientist, специализирующийся на разработке решений в области машинного и глубокого обучения. Мои ключевые интересы включают классический ML, а также NLP. Знаком с полным циклом разработки ML сервисов - от постановки задачи и EDA до обучения моделей и их интеграции. Также имею навыки A/B тестирования и работы с SQL.

TECH STACK

•Python; Pandas, NumPy, Matplotlib, Seaborn, Plotly, Shap, Aiogram, Scikit-learn, PyTorch, Torchvision, CatBoost, Transformers, SciPy, Statsmodels, nltk, gensim, YOLO.

•Git, SQL, Docker, PySpark, bash

ОБРАЗОВАНИЕ

Бакалавриат, Высшая школа экономики (НИУ ВШЭ)

•Интеллектуальный анализ данных.

Data Scientist, Elbrus Bootcamp

ОПЫТ

(1) Проект "TheCosmoBot" - персональный ассистент по борьбе с несовершенством кожи. Классификация проблем кожи, рекомендация лекарств и суммаризация отзывов.

Tech stack: Beautiful Soup & requests, YOLOv5, Hugging Face's Transformers, Aiogram, Docker, Yandex Cloud.

•Спарсил данных о лекарствах, очистил и предобработал их.

•Разметил данные и обучил YOLOv5.

•Написал код Telegram-бота на Aiogram.

•Внедрил архитектуру Transformer для суммаризации отзывов.

•Задеплоил бота на хостинг в Docker

(2) Хакатон VK & ВШЭ — предсказание выздоровления пациентов с помощью нового лекарства, распознавание изображений для заповедника, рекомендательная система для рекламных баннеров.

Tech Stack: PyTorch, Scikit-Learn, Matplotlib & Seaborn, Optuna, Shap, ResNet50, GoogleNet, MobileNet, Imblearn

•Обучал, ансамблировал (voting, stacking) и тюнил градиентный бустинг, multi-layer perceptron, KNN.

•Использовал oversampling метод SMOTE для борьбы с дисбалансом классов.

•Применял Transfer Learning (fine-tuning, unfreezing) в обучении сверточных нейросетей на задачу регрессии.

Результат: призер 3-го места в хакатоне.

(3) Хакатон "ML TalentMatch" — модель для подбора и ранжирования резюме соискателей под вакансии.

Tech Stack: Hugging Face’s Transformers, PyTorch, OpenAI, Autogluon, CatBoost, Optuna.

•Дообучил Sentence Transformer на базе rubert-tiny2 для сопоставления эмбеддингов резюме и вакансий.

•Аугментировал данные, в результате обогатил обучающую выборку и повысил F1-score с 0,43 до 0,69.

•Fine-tuning на эмбэддингах от OpenAI, сгенерированных моделью text-embedding-3-small, чем получил финальные метрики: precision = 0.71, recall = 0.67, F1-score = 0.69.

Результат: призер 3-го места в хакатоне.

(4) Хакатон IT Purple Hack — LLM-based RAG чат-бот для ответа на вопросы по документам ЦБ РФ.

Tech stack: Mistral, BERT, tf-idf, KNN, ClickHouse, NLTK, Selenium, OpenAI, BERT, Gradio, ngrok, LMstudio.

•Создал retrivial pipeline из трех блоков: поиск по алгоритму Approximate Nearest Neighbor (ANN) для топ-N документов, ранжирование Okapi BM25, Cross-Encoder для выбора 3-х наиболее релевантных чанков текста.

•Применил техники prompt engineering: zero-shot, few-shot и self-consistency для улучшения инференса.

•Сгенерировал валидационный датасет с использованием API OpenAI для оценки метрик. Получены Precision 0.72, Recall 0.75 и F1-score 0.735.

•Поднял локальный сервер в LM Studio, к которому сделал доступ через API c ngrok. Написал GUI на Gradio.

Результат: финалист хакатона.