چگونه تولید زبان طبیعی بازی SEO را تغییر می دهد

فناوری و تکنیک های تولید محتوا که می خواهم در این ستون نشان دهم به نظر نمی رسد از یک رمان علمی تخیلی باشد ، اما اکنون آنها واقعی و آزادانه در دسترس هستند.

بعد از اینکه آزمایش های برنامه نویسی را به اتمام رساندم و شروع به نوشتن این قطعه کردم ، درباره پیامدهای مثبت و منفی در اشتراک گذاری این اطلاعات به طور کلی تأمل کردم.

همانطور که خواهید دید ، تولید محتوای ماشینی اکنون نسبتاً آسان است و کیفیت نسل ها به سرعت بهبود می یابد.

این به من منجر به این نتیجه غم انگیز شد که می خواهیم نتایج اسپم بسیار بیشتری نسبت به گذشته مشاهده کنیم.

خوشبختانه ، گوگل اخیراً گزارش اسپم سال 2019 خود را منتشر کرده است که من را راحت کرده است.

“سال گذشته ، ما مشاهده کردیم که بیش از 25 میلیارد صفحه که هر روز مشاهده می کنیم اسپم هستند. (اگر هر یک از این صفحات یک صفحه در یک کتاب بودند ، این روزانه بیش از 20 میلیون نسخه از “جنگ و صلح” خواهد بود!)

تبلیغات

ادامه خواندن زیر

تلاشهای ما به اطمینان حاصل شده است كه بیش از 99٪ بازدیدهای از نتایج ما منجر به تجربیات بدون اسپم می شود.

در چند سال گذشته ، ما شاهد افزایش سایتهای اسپم با محتوای تولید شده و خودکار شده با رفتارهایی هستیم که جستجوگرها را آزار می دهد یا به آنها آسیب می رساند ، مانند دکمه های جعلی ، تبلیغات بیش از حد ، تغییر مسیرهای مشکوک و نرم افزارهای مخرب. این وب سایت ها اغلب فریبنده هستند و هیچ ارزش واقعی برای مردم ندارند. در سال 2019 ، ما توانستیم تأثیرگذاری بر روی کاربران جستجو از این نوع هرزنامه را در مقایسه با سال 2018 بیش از 60٪ کاهش دهیم. “

در حالی که گوگل روزانه تعداد مکرر از صفحه های اسپم را گزارش می کند ، آنها 99 درصد از موفقیت چشمگیر در سرکوب هرزنامه ها در صفحه خبر می دهند.

از همه مهمتر ، آنها پیشرفت فوق العاده ای در سرکوب محتوای اسپم های دستگاه ایجاد کرده اند.

در این ستون ، من با کد توضیح می دهم که چگونه یک کامپیوتر با استفاده از آخرین پیشرفت های NLG قادر به تولید محتوا است.

من نظریه و برخی دستورالعملها را مرور خواهم کرد تا محتوای شما مفید باشد.

این به شما کمک می کند تا از گرفتاری تمام اسپم های وب گوگل و بینگ به صورت شبانه روزی برای خلاص شدن از این کار کمک بگیرید.

تبلیغات

ادامه خواندن زیر

صفحات نازک مطالب

در مقاله خود در مورد عنوان و تولید توضیحات متا ، من یک روش مؤثر را که به خلاصه محتوای صفحه برای تولید برچسب متا متکی است ، به اشتراک گذاشتم.

پس از طی کردن مراحل ، می بینید که واقعاً خوب کار می کند و حتی می تواند متون جدید و با کیفیت بالا را تولید کند.

اما ، اگر صفحات حاوی مطالب خلاصه ای نباشند ، چه می شود؟ تکنیک انجام نمی شود.

بگذارید برای حل این مسئله یک ترفند بسیار هوشمندانه برای شما تعریف کنم.

اگر چنین صفحات دارای بک لینک های با کیفیت هستند ، می توانید برای خلاصه کردن از متن لنگر و متن اطراف بک لینک استفاده کنید.

صبر کن!

اما چرا؟

بگذارید تا سال 1998 ، به تأسیس موتور جستجوی گوگل برگردم.

در مقاله ای که موتور جستجوی جدید خود را توصیف می کند ، پیج و برین بینشی بسیار جالب در بخش 2.2 به اشتراک گذاشتند.

اکثر موتورهای جستجو متن پیوند را با صفحه ای که پیوند در آن قرار دارد مرتبط می کنند. علاوه بر این ، ما آن را با صفحه ای که پیوند به آن اشاره دارد ، مرتبط می کنیم. این چندین مزیت دارد. اولین، مجریان اغلب توصیف های دقیق تری از صفحات وب نسبت به خود صفحات ارائه می دهند. دوم ، ممکن است لنگرهایی برای اسنادی وجود داشته باشد که توسط موتور جستجوگر مبتنی بر متن ، مانند تصاویر ، برنامه ها و پایگاه های داده ، فهرست بندی نشوند. این باعث می شود صفحات وب که در واقع خزنده نشده اند ، بازگردند. “

در اینجا برنامه فنی است:

  1. با استفاده از ابزارهای جدید Bing Webmaster Tools ، بک لینک ها و متون مربوط به لنگر را دریافت خواهیم کرد.
  2. متن اطراف را از بالاترین کیفیت بک گراند ها می خواهیم.
  3. خلاصه ها و محتوای طولانی را با استفاده از متن scraped ایجاد خواهیم کرد.
مقاله پیشنهادی  Google در مدت زمان طولانی برای رتبه بندی آدرس اینترنتی جدید پس از 301 تغییر مسیر ، Google را جستجو می کند

گزارش پیوندهای ابزارهای وب مستر بینگ

چگونه تولید زبان طبیعی چگونه بازی SEO را تغییر می دهد

یکی از ویژگی های من در ابزار backlinks جدید در BWT ، این است که می تواند پیوندهایی را ارائه دهد که فقط به سایت شما نیست بلکه برخی سایت های دیگر نیز ارائه می شود.

من انتظار دارم که این گزینه به یک جایگزین رایگان محبوب برای ابزارهای پرداخت شده تبدیل شود.

من فایل CSV را با لیست بزرگی از پیوندها و لنگرها صادر کردم ، اما وقتی سعی کردم آن را با استفاده از پاندا های پایتون بارگیری کنم و چندین مورد مربوط به قالب بندی پیدا کردم.

تبلیغات

ادامه خواندن زیر

متون لنگر تصادفی می توانند شامل کاما باشند و با پرونده محدود شده با کاما مشکل ایجاد کنند.

من آنها را با باز کردن پرونده در اکسل و ذخیره آن در قالب Excel حل کردم.

خراش دادن متن اطراف با پایتون

همانطور که در تصویر بالا مشاهده می کنید ، بسیاری از متون لنگر بسیار کوتاه هستند.

برای بدست آوردن پاراگراف حاوی آنها ، می توانیم صفحات را ترسیم کنیم

ابتدا گزارشی را که از BWT صادر کردیم بارگذاری می کنیم.

import pandas as pd

df = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")

df.head()

چگونه تولید زبان طبیعی چگونه بازی SEO را تغییر می دهد

من URL هدف را با توجه به تعداد پیوندهای ورودی که از آنها استفاده می کردم ، مرور کردم.

df.groupby("Target Url").count().tail()

چگونه تولید زبان طبیعی چگونه بازی SEO را تغییر می دهد

من بک لینک ها را از یکی از صفحه ها بیرون کشیدم تا ایده را با استفاده از این کد ارزیابی کنم.

تبلیغات

ادامه خواندن زیر

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

حال ، می بینیم که چگونه می توانیم از یک URL هدف و یک بک لینک برای کشیدن متن لنگر مربوطه که شامل لنگر است استفاده کنیم.

کشیدن متن از Backlinks

اول ، اجازه دهید نصب کنیم درخواست-اچ تی ام ال.

!pip install requests-html

from requests_html import HTMLSession
session = HTMLSession()

به منظور ساده نگه داشتن کد ، قصد دارم یک انتخاب کننده CSS را تهیه کنم تا متن اطراف پیوند را بگیرد.

محاسبه این امر با توجه به لینک و لنگر موجود در صفحه با استفاده از کد JavaScript یا Python دشوار نیست.

شاید این ایده خوبی برای شما باشد که به عنوان کارهای خانه امتحان کنید.

چگونگی تولید زبان طبیعی بازی SEO را تغییر می دهد

یک صفحه بک لینک به عنوان مثال باز کنید و با استفاده از Chrome Developer Tools می توانید بر روی پاراگراف مورد علاقه کلیک راست کرده و یک انتخاب کننده CSS را کپی کنید.

این انتخابی است که من استفاده کردم.

with session.get(url) as r:

    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"
    paragraph = r.html.find(selector, first=True)

    text = paragraph.text

این متنی است که برگشت. متن متن لنگر مثال ما را جسور کردم.

تبلیغات

ادامه خواندن زیر

ما می دانیم که حفظ معلم نتایج دانش آموزان را بهبود می بخشد و برعکس ، گردش مالی معلمان می تواند به پیشرفت دانش آموزان آسیب برساند. دور و بر 16 درصد مربیان ترک می کنند هر سال این رشته را می شناسیم و می دانیم که بسیاری از معلمان مانند من در طی پنج سال اول ترک می شوند. معلمان گزارش می دهند که بزرگترین دلایلی که آنها را ترک می کنند عدم استقلال و صدا ، در کنار مسائل فرهنگ و به ویژه نظم و انضباط است. علاوه بر این ، گردش مالی پرهزینه است – کوتاه شدن مناطق به بالاتر از 2.2 میلیارد دلار در سال.

اکنون ، بیایید به قسمت سرگرم کننده برسیم!

تولید متن عصبی

ما در مقاله قبلی خود قصد داریم از همان کد خلاصه ای که برای تولید عناوین و توضیحات متا استفاده کردیم استفاده کنیم اما با پیچ و تاب.

به جای مشخص کردن یک خلاصه مطلوب کوتاه تر از پاراگراف اصلی ، یک طول بیشتر را مشخص خواهیم کرد. آیا این کار خواهد کرد؟ اجازه بدید ببینم!

!pip install transformers

from transformers import pipeline

summarizer = pipeline('summarization')

generated_text = summarizer(text, min_length=150, max_length=250)
print(generated_text)

من این هشدار جالب را می گیرم.

حداکثر طول شما روی 250 تنظیم شده است ، اما شما input_l طول فقط 99 است. ممکن است شما در نظر داشته باشید که کاهش حداکثر طول را به طور دستی ، به عنوان مثال خلاصه (‘…” ، حداکثر_ طول = 50)

تبلیغات

ادامه خواندن زیر

بیایید متن تولید شده را ببینیم.

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

متن اصلی دارای 492 نویسه و متن تولید شده 835 است.

مقاله پیشنهادی  چگونه از 10 اشتباه رایج در طراحی وب که به SEO آسیب می زند خودداری کنیم

اما ، به کیفیت و جملات جدیدی که در متن تولید شده وجود دارد نگاه کنید. کاملاً ذهنی!

آیا این تکنیک می تواند حتی متن طولانی تری تولید کند؟ آره!

generated_text = summarizer(text, min_length=300, max_length=600)

print(generated_text)

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

این متن تولید شده دارای 1420 نویسه بوده و جریان منطقی را حفظ می کند!

جانوری که از این تکنیک بهره می برد ، مدلی از فیس بوک به نام BART است.

نویسندگان مقاله ، آن را به عنوان یک شکل کلی از BERT توصیف می کنند.

بیایید ببینیم چگونه این کار می کند.

نحوه تولید متن عصبی

چگونه تولید زبان طبیعی چگونه بازی SEO را تغییر می دهد

آیا تست های IQ یا استعداد ضریب هوشی را انجام داده اید که در آن شماره های مختلفی به شما ارائه می شود و باید مورد بعدی را حدس بزنید؟

در اصل ، این همان کاری است که ما وقتی متن اولیه را تهیه کردیم و از مدلهای خود خواستیم پیش بینی کنند که در آینده چه می شود ، مدل ما در بالا انجام داد.

تبلیغات

ادامه خواندن زیر

این متن اولیه ما را به دنباله ای از اعداد تبدیل کرد ، شماره بعدی را حدس زد و دنباله جدیدی را که شامل شماره حدس زده است گرفته و دوباره همان روند را تکرار می کند.

این کار ادامه می یابد تا زمانی که به محدودیت زمانی که مشخص کردیم نرسد.

اکنون ، اینها فقط اعداد معمولی نیستند ، بلکه بردارها و بطور مشخص تر (در مورد BERT و BART) تعبیه های کلمه ای دو جهته هستند.

من بردارها و تعبیه کلمه دو جهته را با استفاده از قیاس GPS در مقالات یادگیری عمیق قسمت 1 و بخش 2 توضیح دادم. لطفاً حتما آنها را بررسی کنید.

به طور خلاصه ، تعبیه ها اطلاعات غنی در مورد کلماتی که آنها بیان می کنند رمزگذاری می کنند و باعث افزایش چشمگیر کیفیت پیش بینی ها می شوند.

بنابراین ، در اینجا یک نمونه از چگونگی عملکرد این مقاله آورده شده است.

با توجه به متن: “بهترین زبان برنامه نویسی برای SEO هایی که وظایف تکراری را انجام می دهند ____ است و برای SEO هایی که ممیزی های جلویی را انجام می دهند ____ است”، ما از مدل می خواهیم جمله را تکمیل کند.

مرحله اول تبدیل کلمات به اعداد / تعبیه شده است ، جایی که هر تعبیه کلمه را در متن مشخص می کند.

تبلیغات

ادامه خواندن زیر

سپس ، این موضوع را به معمای تبدیل كنید كه رایانه می تواند حل كند تا شماره ها یا جاسازی هایی را كه می توان با استفاده از متن زمینه را پر كرد ، خالی كنید.

الگوریتمی که می تواند این نوع معماها را حل کند ، یک مدل زبان نامیده می شود.

یک مدل زبان شبیه به قوانین دستوری در انگلیسی یا هر زبان دیگر است.

به عنوان مثال ، اگر متن سؤالی است ، باید با علامت سؤال خاتمه یابد.

تفاوت در این است که تمام کلمات و نمادها با شماره / تعبیه نمایش داده می شوند.

اکنون ، آنجا که جالب است این است که در یادگیری عمیق (آنچه ما در اینجا استفاده می کنیم) ، لازم نیست به صورت دستی یک لیست بزرگ از قوانین دستور زبان ایجاد کنید.

این مدل از طریق آزمایش و خطا کارآمد ، قوانین را به صورت تجربی می آموزد.

مقاله پیشنهادی  توییتر اجازه می دهد تا کاربران پیش نمایش تصویر خود را برش دهند

این کار در طی مرحله قبل از آموزش انجام می شود که در آن مدل ها برای چندین روز با استفاده از داده های گسترده و با استفاده از سخت افزار بسیار قدرتمند آموزش داده می شوند.

بهترین بخش برای ما این است که نتایج این تلاش ها برای استفاده هر کسی بصورت رایگان انجام می شود.

تبلیغات

ادامه خواندن زیر

واقعاً خوشبخت نیستیم؟

BERT نمونه ای از یک مدل زبان است و همچنین GPT-2 و BART.

چگونه می توان از این امر برای خوب استفاده کرد

همانطور که در بالا اشاره کردم ، این مواد واقعا قدرتمند هستند و می توانند برای مقابله با محتوای بی فایده در مقیاس نسبتاً ارزان استفاده شوند.

من شخصاً نمی خواهم وقتی جستجو می کنم ، از بین بردن زباله ها تلف شوم.

با گذشت زمان ، متوجه شدم که برای اینکه محتوا بتواند در جستجو انجام شود ، باید:

  • مفید باشید
  • یک نیاز واقعی را برآورده کنید.

اگر این مهم نباشد ، مهم باشد که رایانه ای باشد یا تولید آن توسط انسان است ، هیچ مشکلی یا اعتبار سنجی از طرف کاربران نهایی دریافت نمی کند.

شانس رتبه بندی و اجرا واقعا کم است.

به همین دلیل من تکنیک هایی مانند جمع بندی و ترجمه یا سوال یا پاسخ دادن را در جایی که کنترل بیشتری بر روی نسل دارید ترجیح می دهم.

تبلیغات

ادامه خواندن زیر

آنها می توانند در اطمینان از افزودن ارزش جدید به شما کمک کنند.

پروژه های جامعه و منابع یادگیری

من سعی کردم این مقاله را با کد و توضیحات تا حد ممکن روشن نگه دارم تا بیشتر افراد جامعه بتوانند در این تفریح ​​شرکت کنند.

اما ، اگر از لحاظ فنی متمایل تر باشید ، فکر می کنم از این توضیحات گرانتر و ریاضی تر موضوع لذت ببرید.

حتماً پیوندهای موجود در “بخش مطالعه بیشتر” را در مقاله مرتبط با بالا دنبال کنید.

اکنون ، به برخی از اخبار جالب.

من از جامعه خواستم تا پروژه های پایتون را که در آن کار می کنند به اشتراک بگذارند. من انتظار داشتم شاید تعداد انگشت شماری ، و چند نفر که برگشتم کاملاً منفجر شد. #DONTWAIT

تبلیغات

ادامه خواندن زیر

تبلیغات

ادامه خواندن زیر

منابع بیشتر:


اعتبار تصویر

تمام تصاویر گرفته شده توسط نویسنده ، ژوئن 2020