Я делаю классификацию текста для арабских диалектов, и мне нужно собрать данные. Поэтому я использую Twitter API для этого.
Мне нужно найти твиты с одинаковым диалектом.
Это собирать твиты на основе определенных ключевых слов только один диалект
Когда я проверяю данные, конечно, точность будет высокой. Потому что тестовые данные будут содержать те ключевые слова, которые я использовал для сбора набора данных.
Разве нет другого способа обойти эту предвзятость?
Всего 1 ответ
Обратите внимание, что это платформа для получения рекомендаций по конкретному коду, а не для обсуждения методологий.
Тем не менее, вы можете вручную собирать данные с этого конкретного диалекта и других твитов, а затем создать классификатор, который предсказывает, к какой группе относится твит.