Как сохранить urdu твиты и сохранить в csv файл с помощью python

Я хочу сохранить текст твитов только на урду, сейчас все работает нормально, а твиты сохраняются в формате csv. Мне просто нужно очистить данные, сохраняя в csv-файле

текст в твитах сохраняется в этом формате

@hinaparvezbutt خدا کے لئے پاکستان کےلئے اگر اور کچھ نہیں کر سکتے تو کم از کم اردو میں نقطہ نظر لکھ دیا کریں اپنی ق ... t.co/GyOeDqydIG.com

Мне просто нужно сохранить текст, как это

خدا ئے لئے پاکستان کےلئے اگر اور کچھ نہیں کر سکتے تو کم از کم اردو میں نقطہ نظر لکھ دیا کریں اپنی ق

в то время как я использовал регулярное выражение для очистки текста, но мне не удалось сохранить его внутри массива твитов

это мой код

auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
# set access token and secret
auth.set_access_token(access_token, access_secret)
# create tweepy API object to fetch tweets
api = tweepy.API(auth,wait_on_rate_limit=True)
tweets = []
for tweet in tweepy.Cursor(api.search,q="اردو"+" -filter:retweets",count=1000).items(1000):
    text=re.sub(r"[#.A-Za-z0-9@;:/
]", "", tweet.text, flags=re.UNICODE)  
    tweets.append(tweet)
tweets_df = pd.DataFrame(vars(tweets[i]) for i in range(len(tweets)))
FILE_PATH = "mysample.csv"
tweets_df.to_csv(FILE_PATH)
tweet_atts = [
'text', 'created_at', 'favorite_count',
'lang', 'retweet_count', 'source',
'in_reply_to_user_id_str', 'retweeted',
'id'
]
tweets_df = tweets_df[tweet_atts]
tweets_df.to_csv(FILE_PATH)

Всего 1 ответ


В словаре каждого твита есть ключ «lang». Фильтр по lang = 'ur'.

# import and authentication
import tweepy
from tweepy import OAuthHandler
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)

# API object allows to make calls to Twitter API
api = tweepy.API(auth)

# Owner's timeline tweets
api.home_timeline()

tweets = []
# tweepy.Cursor allows to iterate through objects (for example, tweets)
for status in tweepy.Cursor(api.home_timeline).items(1):
    if (status.lang = 'ur'):
        # print(status.text) 
        tweets.append(status)

Есть идеи?

10000