Какой самый эффективный способ извлечь твиты, которые имеют определенный диалект?

Я делаю классификацию текста для арабских диалектов, и мне нужно собрать данные. Поэтому я использую Twitter API для этого.

Однако проблема заключается в следующем:

Мне нужно найти твиты с одинаковым диалектом.

У меня есть одно решение:

Это собирать твиты на основе определенных ключевых слов только один диалект

одна проблема с этим решением:

Когда я проверяю данные, конечно, точность будет высокой. Потому что тестовые данные будут содержать те ключевые слова, которые я использовал для сбора набора данных.

что я ищу

Разве нет другого способа обойти эту предвзятость?

Всего 1 ответ


Обратите внимание, что это платформа для получения рекомендаций по конкретному коду, а не для обсуждения методологий.

Тем не менее, вы можете вручную собирать данные с этого конкретного диалекта и других твитов, а затем создать классификатор, который предсказывает, к какой группе относится твит.


Есть идеи?

10000