FlowCV Logo
resume profile picture
Соломон ЧакаевData Scientist
+79959225676
Telegram
t.me/veidlink
[email protected]
LinkedIn
linkedin.com/in/srchakaev
GitHub
github.com/veidlink
Moscow, Russia
ОБО МНЕ

Я - data scientist, специализирующийся на разработке решений в области машинного и глубокого обучения. Мои ключевые интересы включают классический ML, а также NLP. Знаком с полным циклом разработки ML сервисов - от постановки задачи и EDA до обучения моделей и их интеграции. Также имею навыки A/B тестирования и работы с SQL.

TECH STACK

  • Python; Pandas, NumPy, Matplotlib, Seaborn, Plotly, Shap, Aiogram, Scikit-learn, PyTorch, Torchvision, CatBoost, Transformers, SciPy, Statsmodels, nltk, gensim, YOLO.
  • Git, SQL, Docker, PySpark, bash
  • ОБРАЗОВАНИЕ
    Бакалавриат, Высшая школа экономики (НИУ ВШЭ)
  • Интеллектуальный анализ данных.
  • Data Scientist, Elbrus Bootcamp
    ОПЫТ

    (1) Проект "TheCosmoBot" - персональный ассистент по борьбе с несовершенством кожи. Классификация проблем кожи, рекомендация лекарств и суммаризация отзывов.

    Tech stack: Beautiful Soup & requests, YOLOv5, Hugging Face's Transformers, Aiogram, Docker, Yandex Cloud.

  • Спарсил данных о лекарствах, очистил и предобработал их.
  • Разметил данные и обучил YOLOv5.
  • Написал код Telegram-бота на Aiogram.
  • Внедрил архитектуру Transformer для суммаризации отзывов.
  • Задеплоил бота на хостинг в Docker
  • (2) Хакатон VK & ВШЭ — предсказание выздоровления пациентов с помощью нового лекарства, распознавание изображений для заповедника, рекомендательная система для рекламных баннеров.

    Tech Stack: PyTorch, Scikit-Learn, Matplotlib & Seaborn, Optuna, Shap, ResNet50, GoogleNet, MobileNet, Imblearn

  • Обучал, ансамблировал (voting, stacking) и тюнил градиентный бустинг, multi-layer perceptron, KNN.
  • Использовал oversampling метод SMOTE для борьбы с дисбалансом классов.
  • Применял Transfer Learning (fine-tuning, unfreezing) в обучении сверточных нейросетей на задачу регрессии.
  • Результат: призер 3-го места в хакатоне.

    (3) Хакатон "ML TalentMatch" — модель для подбора и ранжирования резюме соискателей под вакансии.

    Tech Stack: Hugging Face’s Transformers, PyTorch, OpenAI, Autogluon, CatBoost, Optuna.

  • Дообучил Sentence Transformer на базе rubert-tiny2 для сопоставления эмбеддингов резюме и вакансий.
  • Аугментировал данные, в результате обогатил обучающую выборку и повысил F1-score с 0,43 до 0,69.
  • Fine-tuning на эмбэддингах от OpenAI, сгенерированных моделью text-embedding-3-small, чем получил финальные метрики: precision = 0.71, recall = 0.67, F1-score = 0.69.
  • Результат: призер 3-го места в хакатоне.

    (4) Хакатон IT Purple Hack — LLM-based RAG чат-бот для ответа на вопросы по документам ЦБ РФ.

    Tech stack: Mistral, BERT, tf-idf, KNN, ClickHouse, NLTK, Selenium, OpenAI, BERT, Gradio, ngrok, LMstudio.

  • Создал retrivial pipeline из трех блоков: поиск по алгоритму Approximate Nearest Neighbor (ANN) для топ-N документов, ранжирование Okapi BM25, Cross-Encoder для выбора 3-х наиболее релевантных чанков текста.
  • Применил техники prompt engineering: zero-shot, few-shot и self-consistency для улучшения инференса.
  • Сгенерировал валидационный датасет с использованием API OpenAI для оценки метрик. Получены Precision 0.72, Recall 0.75 и F1-score 0.735.
  • Поднял локальный сервер в LM Studio, к которому сделал доступ через API c ngrok. Написал GUI на Gradio.
  • Результат: финалист хакатона.