Computational Linguistics, by Lucas Freitas

>> ЛУЦАС ФРЕИТАС: Хеј. Велцоме свима. Моје име је Луцас Фреитас. Ја сам млађи, на [ИНАУДИБЛЕ] студирања информатика са фокусом на рачунска лингвистика. Тако да је моја секундарна је на језику и лингвистичка теорија. Стварно сам узбуђен да учи момци мало о терену. То је веома узбудљиво подручје да студира. Такође, са пуно потенцијала за будућност. Дакле, ја сам заиста узбуђена да ви разматрају пројекте у рачунска лингвистика. И ја ћу бити више него срећан да саветује неко од вас, ако одлучите да један од оних који следе. >> Дакле, прво што су рачунарска лингвистика? Тако је рачунска лингвистика раскрсница између лингвистике и информатика. Дакле, шта је лингвистика? Шта је информатика? Па из лингвистике, што узмемо су језици. Дакле, лингвистика је заправо студија природног језика уопште. Дакле, природни језик - ми говоримо о језик да ми заправо користимо за комуницирају једни са другима. Дакле, ми не говоримо тачно о Ц или Јава. Говоримо о енглеском и више Кинески и остали језици који смо користе да комуницирају једни са другима. >> Изазовно ствар о томе је да је сада имамо скоро 7.000 језици у свету. Дакле, постоје прилично висока сорта од језика који можемо да проучавамо. И онда ви мислите да је то вероватно веома тешко урадити, на пример, превод са једног језика на други, с обзиром да ви имате скоро 7.000 њих. Дакле, ако мислите да уради превод са једног језика на други ви имају скоро више од милион различите комбинације које можете имају од језика до језика. Дакле, то је заиста изазов да уради нешто врста преводилачког система за пример сваки језик. >> Дакле, лингвистика третира са синтаксом, семантика, прагматика. Ви не баш треба да знају шта су. Али веома занимљива ствар је да је као матерњи језик, када сте научили језик као дете, ви заправо уче сви од тих ствари - синтаксе семантика и прагматика - сами. И нико не мора да научим синтаксу за да схватите колико су реченице структуриран. Дакле, то је заиста занимљиво јер то је нешто што долази врло интуитивно. >> И шта узимаш од информатика? Па, најважнија ствар коју смо имати у рачунарству је први од све, вештачка интелигенција и машинско учење. Дакле, оно што покушавамо да радимо рачунска лингвистика је теацх ваш рачунар како да урадите нешто са језиком. >> Тако, на пример, у машини превод. Покушавам да научим мој рачунар хов да знате како да прелазак из једне језика у други. Дакле, у основи воле наставу компјутерске два језика. Ако урадим обраду природног језика, што је случај на пример Фацебоока Графикон претрага, ви научити ваш рачунар како да разумеју упити добро. >> Дакле, ако ви кажете "фотографиј мој пријатељи. "Фацебоок не третира да као цео стринг који има само гомила речи. То је заправо разуме однос између "Фотографије" и "пријатељима" и разуме да је "фотографије" су имовина "мојих пријатеља." >> Дакле, то је део, на пример, обраду природног језика. Она покушава да разуме шта је однос између речи у реченици. А велико је питање, зар не научити рачунар како да говоре језик уопште? Што је врло интересантно питање да Мислим, као да можда у будућности, ћеш бити у стању да разговара на ваш мобилни телефон. Нешто као што радимо са Сири, али нешто више као, можете заправо рећи шта год желите и телефон ће разумети све. И она може имати пратити питања и настави да причаш. То је нешто заиста узбудљиво, по мом мишљењу. >> Дакле, нешто о природним језицима. Нешто заиста занимљиво о природни језици је да, и ово је кредит на мој професор лингвистике, Марија Полински. Она даје пример и мислим то је заиста занимљиво. Зато учимо језик од када смо рођени, а затим наш матерњи језик врста расте на нас. >> А у основи ви учите језик од минимално ангажовање, зар не? Само Постајеш улаз из вашег Родитељи шта ваш језик звучи волим и само га научити. Дакле, то је интересантно, јер ако погледате на тим казне, на пример. Можете погледати, "Мери ставља на капуту сваком време она напушта кућу. " >> У овом случају, могуће је да имате Реч "она" се односи на Марију, зар не? Можете рећи "Мери ставља на капуту сваки пут оставља Мери кућа. ", тако да је у реду. Али онда, ако се осврнемо на казне "Она ставља на капуту сваки пут Мери напушта кућу. "Ви знате да је то Немогуће је рећи да је "она" је који се односи на Марију. >> Не постоји начин да се каже да је "Марија ставља на капуту сваки пут оставља Мери кућа. "Значи, то је интересантно, јер ово је врста интуиције да сваки матерњи има. И нико није научио да је то начин да синтакса ради. А то можете само да имате ову "она" позивајући се Марији у овом првом случају, а заправо у овом другом превише, али не у овом. Али свако мало добије на исти одговор. Сви се слажу да на. Дакле, то је заиста занимљиво како иако Ви не знате сва правила на вашем језику можете некако разумети како језик функционише. >> Дакле, ствар занимљиво о природним језик је да не морате да знам ни синтаксу да знам да ли реченица је граматичка или неграматички за већини случајева. Што мислиш да је можда оно што што се дешава је да кроз свој живот, ви само наставите да све више и више реченице рекао вама. И онда наставиш меморисање све реченице. А онда, када вам неко каже нешто, чујете ту реченицу и погледате ваш вокабулар казни и видите да ли та реченица је тамо. А ако је тамо сте кажу да је граматичка. Ако то ниси ти рећи да је то неграматички. >> Дакле, у том случају, ви би рекли, ох, тако да имате огромну листу свих могуће казне. А онда када чујете реченицу, Ви знате да ли је граматичка или не на основу тога. Ствар је у томе, ако се осврнемо на реченица, на пример, " пет-главом ЦС50 подгрупа кувано слепе хоботница помоћу ДАПА шољу. "То је дефинитивно не казна који сте раније чули. Али у исто време знате да је то прилично граматичка, зар не? Не постоје граматичке грешке и може се рећи да то је могуће реченица. >> Дакле, чини нас мисле да ствари начин да научимо језик није само тако што огромну базу података могуће речи или реченице, већ више од разумевање односа између речи у тим реченицама. Да ли то смисла? Дакле, онда је питање, може рачунари уче језике? Можемо научити језик на рачунарима? >> Дакле, хајде да мислимо о разлици између матерњи језик и рачунар. Дакле, шта се дешава са звучника? Па, учи матерњи језик језик од изложености њега. Обично њене раном детињству година. Дакле, у основи, само имам бебу, и стално говорите на њега, и то само учи како да говоре језик, зар не? Дакле, ви у суштини давање улаз за бебу. Дакле, онда можете тврдити да рачунар може да уради исту ствар, зар не? Можете само да дају језику као улаз на рачунар. >> Као на пример гомила фајлова да имају књиге на енглеском језику. Можда је то један од начина да вам би могло научити рачунар енглески, зар не? А у ствари, ако мислите о томе, она вас води можда пар дана да прочита књигу. За рачунар је потребно да се мало погледајте све речи у књизи. Дакле, можете да мислите да ово може да буде само аргумент инпута од око вас, то није довољно да се каже да је то нешто што само људи могу да ураде. Можете мислити рачунаре Такође можете добити улаз. >> Друга ствар је да изворни говорници такође имају мозак који има способност учења језика. Али, ако мислите о томе, мозак је чврста ствар. Када се родио, то је већ постављен - ово је твој мозак. И док си одрастао, само добијете више улаз језика и можда нутријенти и друге ствари. Али прилично ваш мозак је чврста ствар. >> Дакле, може се рећи, добро, можда можете да изгради рачунар који има гомилу функције и методе које само имитирају способност учења језика. Дакле, у том смислу, могло би се рећи, добро, ја може имати рачунар који има све ствари које треба да науче језик. И последња ствар је да матерњи говорник учи од покушаја и грешке. Дакле, у основи још једна важна ствар у учење језика је да сте љубазни од уче ствари тако што генерализације о томе шта сте чули. >> Дакле, као што се одрастања сте сазнали да неке речи су више као именица, неке друге оне су придеви. И не морате да имате било познавање лингвистике да схвате да. Али само да знате има неких речи су позиционирани у неком делу реченица и неки други у другом делови реченице. >> И да када радите нешто што је као казна која није тачно - можда због прекомерне генерализације на пример. Можда кад си одрастао, приметите да множина је обично формирао стављањем на С крај речи. А онда покушате да урадите множина од "јелен" АС "јелена" или "зуба", као "тоотхс." Па онда твоји родитељи или неко вас исправља и каже, не, множина од "јелена" је "јелен", а множина од "зуба" је "зуби." А онда научите те ствари. Дакле, ви учите од покушаја и грешке. >> Али такође можете да урадите да са рачунаром. Можете имати нешто што се зове појачање учење. Што је у основи као давање рачунар награда кад год се то деси нешто исправно. И дајући супротно од награду а када се то деси нешто лоше. Можете заправо видети да ако идете на Гоогле Транслате и покушате да превести реченицу, она пита вас за повратне информације. Дакле, ако ви кажете, ох, ту је бољи превод за ову реченицу. Можете да га откуцам и онда ако много људи држе говоре да је боље превод, то је само сазнаје да је треба да уместо користи тај превод један је давање. >> Дакле, то је веома филозофско питање да видим да ли рачунари ће бити у стању да разговарају или не у будућности. Али ја имам велике наде да могу Управо на основу тих аргумената. Али то је само још од филозофске питање. >> Дакле, док рачунари и даље не могу да причам, шта су ствари које можемо да урадимо? Неке стварно цоол ствари су класификација података. Тако, на пример, ви знате да услуге е-поште уради, за пример, филтрирање спама. Дакле, кад год сте примили спам, она покушава да филтрира на другу кутију. Па како то да урадим? То није као компјутер само зна шта адресе е-поште шаљу спам. Дакле, то је више на основу садржаја порука, или можда наслов, или можда неки образац који имате. >> Дакле, у основи, оно што можете да урадите је да се Много података мејлова који су непожељне, е-поруке које нису спам, и научите шта врста образаца имате у оне које су непожељне. И ово је део рачунарских лингвистика. То се зове класификација података. И ми заправо идемо да видимо Пример за то у наредним слајдовима. >> Друга ствар је природни језик обрада која је ствар која Графикон Тражи се ради о пустити ти написати казну. И верује да разумете шта је значење и даје ви бољи резултат. Заправо, ако одете на Гоогле или Бинг и тражите нешто као Лади Гага висина, ви заправо дешава да се на 5 '1 "уместо информација од ње јер она заправо разуме шта причаш. Дакле, то је део природног обраду језика. >> Или и када користите Сири, прво имате алгоритам који покушава да преводити шта говориш у речима, у тексту. А онда покушава да преведе то у значењу. Дакле, то је све део природног обраду језика. >> Онда имате машинско превођење - који је заправо један од мојих омиљених - који је управо из превођење језика на други. Дакле, можете мислити да када радите машински превод, имате бесконачне могућности реченица. Дакле, не постоји начин чувања само сваки превод. Дакле, морате да смисли занимљив алгоритми бити у стању да транслате сваки реченица на неки начин. >> Ви имате нека питања до сада? Не? У реду. >> Па шта ћемо да видимо данас? Пре свега, ја ћу да причам о класификација проблема. Дакле, онај који сам био говорећи о спам. Оно што ћу да урадим је, с обзиром на текст на песму, можете покушати да схватите са великом вероватноћом ко је певачица? Рецимо да ја имам песме од Лади Гага и Кати Перри, ако ти дам нова песма, да ли можете да схватите да ли то је Кати Перри или Лади Гага? >> Други, ја ћу да причам о проблему сегментације. Дакле, ја не знам да ли ви знате, али Кинески, Јапански, други Исток Азије језика, и други језици генерално, немају размака између речи. А онда, ако мислите о начину на који рачунар врста покушаја да се разумети обраду природног језика, изгледа на речима и покушава да разуме односе између њих, зар не? Али онда, ако имате кинески, а ви имати нула простора, то је заиста тешко да се сазнати шта је однос између речи, јер немају било речи на први поглед. Дакле, морате да урадите нешто што се зове сегментација који само значи стављање простори између онога што бисмо назвати речи у тим језицима. Смисла? >> А онда ћемо да говоре о синтакси. Дакле, само мало о природним обраду језика. То ће бити само преглед. Тако данас, у основи оно што ја желим да урадим је вам дам мало унутар које су могућности да можете да урадите са рачунарском лингвистика. А онда можете да видите шта мислите је кул међу тим стварима. И можда можете да мислите о пројекту и долазе разговара са мном. И ја могу да ти дам савет о томе како да га спроведе. >> Дакле, синтакса ће бити мало о Грапх Тражи и машине превод. Само ћу да дам пример како можете, на пример, превести нешто од португалски на енглески. Звучи добро? >> Дакле, прво, проблем класификације. Ја ћу рећи да је овај део семинара ће бити највећи изазов један само зато што се дешава да буде неки кодирање. Али то ће бити Питхон. Знам ви не знате Питхон, тако Само ћу да објасним на висок ниво шта радим. И не морате превише да се стварно стало много о синтакси, јер је то нешто ви можете научити. ОК? Звучи добро. >> Дакле, шта је проблем класификација? Дакле, ви дали неке текстове за песма, а ви желите да погодите ко је то певање. И то може бити за било какву других проблема. Тако да се може, на пример, имате председничке кампање и имате говор, и желите да пронађете оут ако је, на пример, Обама или Мит Ромни. Или можете имати гомилу мејлова и желите да схватим да ли су спам или не. Дакле, то је само неки класификовање подаци на основу речи да ли тамо има. >> Тако да се то уради, морате да направити неке претпоставке. Дакле, доста о рачунарске лингвистике прави претпоставке, обично смарт претпоставке, тако да можете добити добре резултате. Покушавајући да створи модел за њега. А онда га испробате и видите да ли ради, ако вам даје добру прецизност. А ако се то деси, онда сте покушати да га побољша. Ако не, ти си као, у реду, можда сам треба направити другачију претпоставку. >> Дакле, претпоставка да ћемо чине је да уметник пева обично о теми више пута, и можда користи речи више пута само јер су навикли на то. Ви само можете мислити о вашем пријатељу. Сигуран сам да сте сви имају пријатеље да кажу својим потписом фразу, буквално за сваки реченицу - као неке специфичне речи или неким специфичним Фраза да кажу за сваки реченица. >> И оно што могу да кажем је да ако видиш реченица која има потпис фраза, можете да погодите који вероватно Ваш пријатељ је један је рекао, зар не? Дакле, ви такву претпоставку а затим тако се створи модел. >> Пример који ћу да дам је на како Лади Гага, на пример, људи кажу да она користи "баби" за све њене песме Број један. А заправо то је видео који показује јој каже реч "беба" за различите песме. >> [ВИДЕО РЕПРОДУКЦИЈА] >> - (Певање) Беби. Беба. Беба. Беба. Беба. Бабе. Беба. Беба. Беба. Беба. >> [КРАЈ ВИДЕО РЕПРОДУКЦИЈА- >> ЛУЦАС ФРЕИТАС: Па има, мислим, 40 песме овде у којем она каже реч "беба." Тако да у основи да погодите да ако видите неку песму која има реч "беба," постоји нека висока вероватноћа да је Лади Гага. Али хајде да покушамо да развију ово даље више формално. >> Дакле, ово су песме лирицс то Лади Гага и Кати Перри. Тако да погледате Лади Гага, ти виде има много појава које "бебе" много појава "начин." А онда Кати Перри има много појава "," Много појава "ватре." >> Дакле, у основи оно што желимо да урадите је, добијате лириц. Рецимо да сте добили за лириц песма која је "беба," само "беба." Ако само се реч "беба", и то је све податке које сте имали са Лади Гага и Кати Перри, који би ви погодите је особа ко пева песму? Лади Гага или Кати Перри? Лади Гага, зар не? Зато што је она једина која каже "Беба." Ово звучи глупо, зар не? Ок, ово је заиста лако. Ја само гледам две песме и на Наравно, она је једина која има "Беба." >> Али шта ако имате гомилу речи? Ако имате стварну лириц, нешто као, "душо, ја само отишао да види [? ЦФТ?] предавање, "или нешто слично, и онда стварно треба да схватим - на основу свих тих речи - ко је уметник који вероватно певали ову песму? Дакле, хајде да покушамо да развију ово мало даље. >> У реду, тако заснована само на подацима које смо Имам, чини се да је Гага је вероватно певач. Али како можемо писати ово више формално? И тамо ће бити мало Мало статистике. Дакле, ако сте се изгубили, само пробајте да разумеју концепт. Није битно да ли сте разумели једначине савршено и. То је све ће бити на мрежи. >> Дакле, у основи оно што ја израчунавања је вероватноћа да је ова песма је од Лади Гага с обзиром да - па то бар значи с обзиром да - Видела сам реч "беба." Да ли то смисла? Дакле, ја покушавам да израчуна да вероватноћа. >> Тако да је то теорема зове Бајеса теорема да каже да вероватноћа датог Б, је вероватноћа Б дао, а вероватноћа А, преко вероватноће од Б. То је дуг једначина. Али оно што морате да схватите из то је да је то оно што ја желим да израчунати, зар не? Дакле, вероватноћа да је та песма је од Лади Гага с обзиром да сам видео реч "Беба." >> И сад шта ја добијам је вероватноћа речи "баби" дато да ја имам Лади Гага. А шта је то у основи? Шта то значи, шта је вероватноћа да виде реч "беба" у Гага лирицс? Ако желим да израчуна да је у веома једноставан начин, то је само број а видим "бебу" у укупном броју речи у Гага лирицс, зар не? Шта је фреквенција да видим та реч у раду Гага? Смисла? >> Други термин је вероватноћа Гага. Шта то значи? То практично значи, оно што је вероватноћа класификације неки текст као Гага? И то је мало чудно, али Хајде да размислимо о пример. Дакле, хајде да кажемо да је вероватноћа има "бебу" у песми је иста за Гага и Бритни Спирс. Али Бритни Спирс има два пута више песама него Лади Гага. Дакле, ако неко баш случајно даје лирицс оф "бебе", прва ствар коју погледајте јест, шта је вероватноћа има "бебу" у песми Гага, "беба" у песми Бритни? И то је иста ствар. >> Дакле, друга ствар коју ћете видети је, добро, шта је вероватноћа овај лирски по себи бити Гага лириц, а шта је вероватноћа као Бритнеи лирски? Дакле, пошто Бритни има толико више лирицс него Гага, вероватно би рецимо, добро, ово је вероватно Бритни Лириц. Зато имамо ово назвати овде. Вероватноћа Гага. Има смисла? Да ли је то? У реду. >> И последњи је само вероватноћа од "Баби" који не битно толико. Али то је вероватноћа види "бебу" на енглеском језику. Ми обично не маре да много о том року. Да ли то смисла? Дакле, вероватноћа Гага је звао пре вероватноћа од класе Гага. Јер то само значи да је, оно што је вероватноћа да ту класу - који је Гага - само у уопште, само без икаквих услова. >> И онда када имам вероватноћу Гага даје "беба", ми то зовемо, плус Теари вероватноћу, јер је то вероватноћа да Гага даје неке доказе. Па ја вам дајем доказе да сам видео реч бебу и песма смисла? У реду. >> Дакле, ако сам израчунао да за сваки од песама за Лади Гага, шта би то било - очигледно, ја не могу да се померим ово. Вероватноћа Гага ће бити нешто слично, 2 преко 24, а 1/2, преко 2 преко 53. Није битно да ли знате шта ови бројеви долазе из. Али то је само број који иде да буде више од 0, зар не? >> И онда кад ја Кати Перри, вероватноћа "бебе" Кати је дато већ 0, зар не? Зато што не постоји "беба" у Кати Перри. Дакле, онда то постаје 0, а Гага победи, што значи да је Гага је вероватно певач. Да ли то смисла? У реду. >> Дакле, ако желим да ово више званичника, Ја заиста могу да урадим модел за више речи. Па рецимо да ја имам нешто као, "душо, ја сам у пламену, "или нешто. Тако да има више речи. И у овом случају, можете да видите да је "беба" је у Гага, али то није у Кети. И "ватра" је у Кати, али то није у Гагу, зар не? Дакле, то је све теже, зар не? Зато се чини да сте скоро имају везу између та два. >> Дакле, оно што треба да урадите је да преузме независност међу речима. Дакле, у основи шта то значи да је Само оно што је израчунавање вероватноћа да виде бебу "," шта је вероватноћа да виде "И," и "Ам", и "на" и "ватра" све одвојено. Онда сам множењем све њих. И ја видим шта је вероватноћа да виде целу реченицу. Смисла? >> Дакле, у основи, ако ја имам само једну реч, оно што желим да пронађу је АРГ макс, што значи, шта је класа која је дајући ми највећу вероватноћу? Дакле, шта је класа која се даје ми највиши вероватноћа за вероватноћа класе дати реч. Дакле, у овом случају, с обзиром Гага "бебу." Или Кати дато "бебу." Смисла? >> И управо из Баиес, да једначина које сам показао, смо креирали овај део. Једина ствар је да ви видите да вероватноћа речи обзиром промене класе зависно на класе, зар не? Број "Баби" с које имам у Гага је другачији од Кати. Вероватноћа класе такође промене јер то је само број песама сваки од њих има. >> Али вероватноћа саме речи ће бити исти за све уметници, зар не? Дакле, вероватноћа речи је Само, шта је вероватноћа видим ту реч у Енглески језик? Дакле, то је исто за све њих. Дакле, пошто је то константа, можемо само дроп то и не брине о томе. Тако ће то бити заправо једначина тражимо. >> И ако имам више речи, ја сам ипак ће морати пре вероватноћа овде. Једина ствар је да сам множењем вероватноћа све друге речи. Тако сам множењем све њих. Смисла? Изгледа чудно, али заправо значи, израчунати пре класе, и затим помножити вероватноће сваког од речи бића у тој класи. >> И ви знате да је вероватноћа Реч дата класа ће бити Колико пута сте видети ту реч у да класа, подељен са бројем речи имате у то класа уопште. Смисла? То је само како "беба" је око 2 број речи које Имао сам у текстовима. Дакле, само фреквенција. >> Али постоји једна ствар. Сећаш се како сам се показује да вероватноћа "баби" Бити лирицс од Кати Перри је 0 само зато Кати Пери није имала "беба" уопште? Али то звучи мало грубо да се само једноставно рећи да текст не може бити од уметник само зато што немају да реч посебно у било ком тренутку. >> Тако да само могу рећи, па, ако немају ту реч, ја ћу да дати вам мању вероватноћу, али ја једноставно не иде на дати вам 0. одмах. Јер можда је нешто слично, "Ватра, ватра, ватра, ватра," који је потпуно Кати Перри. А онда "беба", и то само иде на 0 одмах јер је био један "Беба." >> Дакле, у основи оно што радимо је нешто Лаплас позвао изглађивање. И то само значи да ја дајем неки чак вероватноћа речима да не постоје. Дакле, оно што ја радим је да када сам израчунавање то, увек сам додаје 1 бројилац. Дакле, чак и ако реч не постоји, у овај случај, ако је ово 0, ја сам још увек израчунавање ово као 1 над укупан број речи. Иначе, ја се колико речи Имам и ја додати 1. Тако Бројим за оба случаја. Смисла? >> Дакле, хајде да урадимо нешто кодирање. Ја ћу то урадити веома брзо, али то је само важно да вам момци разумеју концепте. Дакле, оно што ми покушавамо да урадимо се управо имплементира овај Оно што сам управо рекао - Желим да ставим текст из Лади Гага и Кати Перри. А програм ће бити у стању да кажу да ако ови нови текстови су из Гага или Кати Перри. Смисла? У реду. >> Дакле, имам овај програм ја идем да позове цлассифи.пи. Дакле, ово је Питхон. То је нови програмски језик. Веома је сличан у неким начина да Ц и ПХП. То је слично, јер ако желите да научите Питхон после знајући Ц, то је стварно не толико изазов само зато што Питон је много лакше од Ц, пре свега. И многе ствари су већ имплементиран за вас. Дакле, колико има функције као ПХП који сортирали листу, или додате нешто до низа, или бла, бла, бла. Питхон има све од оних који су добро. >> Зато ћу само да брзо објаснити како бисмо могли да урадимо класификацију проблем овде. Дакле, хајде да кажемо да је у овом случају, ја имам лирицс фром Гага и Кати Перри. Начин на који ја имам те лирицс јесте да Прва реч у текстовима је име уметника, и остало је стихове. Па рецимо да ја имам овај списак у која је прва лирицс би Гага. Дакле, овде сам на правом путу. А следећи је Кати, и она такође има текст. >> Дакле, ово је како се прогласити променљива у Питхон. Не морате да дају тип података. Ти само напиши "текст", Нешто као у ПХП. Смисла? >> Дакле, шта су ствари које морам да израчунати да би могао да израчуна вероватноће? Морам да израчуна "досије" сваке од различити класе које имам. Морам да израчуна "," постериорс или прилично вероватноће сваки од различитих речи које Ја могу да имам за сваког уметника. Дакле, у оквиру Гага, на пример, ја идем да имају списак колико пута видим сваки од речи. Смисла? >> И на крају, ја ћу само да имају Листа се зове "речи" које се управо дешава да имају колико сам речи има за сваког уметника. Дакле, за Гагу, на пример, када погледам на стихове, сам, ја мислим, 24 речи укупно. Дакле, ова листа је само да имају Гага 24, а Кати други број. Смисла? У реду. >> Тако сада, у ствари, хајде да идите на кодирање. Дакле, у Питхон-у, можете заправо врати гомилу другачије ствари из функције. Зато ћу да направим ову функцију назива "условни", која се дешава да се врате све те ствари, "игумани," тхе "," и вероватноће "речи." Дакле "условни", а то је ће се зове у "лирицс." >> Дакле, сада желим да вам заправо написати ову функцију. Дакле, начин на који ја могу да напишем ово Функција је сам дефинисао ово функционишу са "деф." Тако сам и урадио "деф условно, "а то је узимање "Текст." А шта ће ово да уради је, пре свега, имам своје досије да желим да израчунате. >> Дакле, начин на који ја могу да урадим ово је створити речник у Питхон, који је прилично иста ствар као хашиш сто, или је то итеративни низ у ПХП. То је како ја изјављујем речник. А у суштини шта то значи да је Приорс оф Гагу је 0,5, на пример, ако 50% од текстова су из Гага, 50% су од Кати. Смисла? Зато морам да схватим како за израчунавање досије. >> Наредних оне које морам да урадим, такође, су вероватноће и речи. Тако су вероватноће Гага је листа од свих које сам вероватноће имати за сваки од речи за Гагу. Дакле, ако одем у вероватноће Гага "Беба", на пример, да ће ми дати нешто као 2 преко 24 у том случају. Смисла? Онда одем на "вероватноће", идите на "Гага" кашика која има листу свих Гага је речи, онда идем на "бебу", и ја видим вероватноћу. >> И на крају ја имам ово "Речи" речник. Дакле, овде, "вероватноће." А онда "речи." Дакле, ако ја радим "речи", "Гага", шта ће се десити јесте да је ће ми дати 24, рекавши да сам имају 24 речи у оквиру лирицс фром Гага. Има смисла? Дакле овде, "речи" једнако Дах-дах-дах. У реду >> Дакле, шта ћу да урадите је да ћу поновити над сваким лирицс, тако сваки од жице које Ја имам на листи. И ја ћу да израчуна те ствари за сваки од кандидата. Има смисла? Зато морам да урадим за петљу. >> Дакле, у Питхон шта ја могу да урадим је "за линије у лирицс. "исто што и "За сваки" изјаву у ПХП. Сетите се како је то било, ако бих могао ПХП кажу "за сваки лирицс као линија. "Има смисла? Тако Водим сваку од линија, у овом случај, овај стринг и следећи ниска тако да за сваку од линија што сам ја да уради је први, ја ћу поделити ову линију у листу речи раздвојене размаком. >> Дакле, ствар у вези Питхон кул је то могли само Гоогле као "Како могу да поделити стринг у речи? "И то је ће вам рећи како да то урадите. И начин да се то уради, то је само "линија = Лине.сплит () "и то је у основи ће вам дати списак са сваки од речи овде. Има смисла? Дакле, сада сам то урадио ја желим да знам ко је певач те песме. И за то сам само да се Први елемент низа, зар не? Тако да само могу да кажем да сам "певач = Линија (0) "Има смисла? >> И онда шта ја треба да урадите је, прво од све, ја ћу да ажурирате колико речи имам под "Гага". па ја сам само ће израчунати колико речи које сам имају у овој листи, зар не? Јер ово је колико речи имам у текстовима и ја ћу само да да га додате у "Гага" низа. Да ли то смисла? Немојте превише фокусирају на синтакси. Размислите више о концептима. То је најважнији део. У реду. >> Па шта ја могу да урадим јесте да ли "Гага" је Већ у тој листи, па "ако певач у речи "што значи да сам већ имају речи од Гага. Ја само желим да додам додатни речи на то. Дакле, оно што ја радим је "речи (певачица) + = Лен (линија) - 1 ". И онда ја само могу да урадим дужина линије. Па како многи елементи И имати у низу. И ја морам да урадим минус 1 само зато Први елемент низа је само певач и оне нису лирицс. Има смисла? У реду. >> "Друго," то значи да желим да заправо убаците Гага у листу. Па ја само радим "речи (певач) = Лен (линија) - 1, "жао. Дакле, једина разлика између ова два линија је да је ово, није тако постоје још, тако да сам само иницијализација га. Ово сам заправо ја додао. У реду. Дакле, ово је додао да речи. >> Сада желим да додам да су игумани. Па како да израчуна досије? У Приорс може израчунати по колико пута. Па колико пута сте видели да је певач међу свим певача који вас има, зар не? Дакле, за Гага и Кати Перри, у овом случају, ја видим Гага једном, Кати Перри једном. >> Дакле, у основи су игумани за Гагу и за Кати Перри би само је један, зар не? Ви само колико пута Видим уметник. Дакле, ово је врло лако израчунати. Ја могу само нешто слично као као "ако певач у игумани, "Ја ћу само додати 1 до кутији њихове досије. Дакле, "игумани (синг)" + = 1 ", а затим" друго " Ја ћу да урадим "досије (Сингер) = 1. "Има смисла? >> Дакле, ако не постоји сам ставио као 1, иначе сам само додати 1. У реду, тако да сада све што ми је остало да урадим се такође додати сваки од речи да вероватноће. Зато морам да бројим колико пута Видим сваки од речи. Зато морам да урадим још један за петљу у линији. >> Дакле, прва ствар коју ћу да урадим је проверите да ли певач већ има вероватноће низ. Дакле, ја проверавам да ли певачица не имају низ вероватноћама, ја сам само ће да покрене један за њих. То није чак ни низ, извините, то је речник. Тако су вероватноће певачица ће да буде отворен речник, тако да сам само иницијализација речник за њега. ОК? >> И сад ја заправо могу да урадим за петљу за израчунавање сваки од речи ' вероватноће. У реду. Па шта ја могу да урадим је за петљу. Тако да сам само ћу поновити преко низа. Дакле, начин на који ја могу да урадим у Питхон је "за сам у домету." Од 1. јер желим да почне у другој елемент јер прва је певач име. Дакле, од једне до дужина линије. А кад ја не крећу се заправо иде од као овде од 1 до лен на линија минус 1. Тако да већ ради ту ствар да уради н 1 минус за низове који је веома згодно. Има смисла? >> Дакле, за сваку од њих, шта ћу урадите је, баш као у другом, Идем да проверим да ли је реч у овом Позиција у линији је већ у вероватноће. И онда, као што сам рекао овде, вероватноће речи, као што сам ставио у "вероватноће (певачица)". Дакле, име певачице. Дакле, ако је већ у "Пробабилит (певач)", то значи да сам желите да додате 1 до њега, па ћу урадите "вероватноће (певач)", а реч се назива "линија (и)". Ја ћу додати 1 и "остало" Ја сам само ће га иницијализује на 1. "Линија (И)". Има смисла? >> Дакле, израчуната сам све низове. Дакле, сада све то морам да урадим за ово је само "врати досије, вероватноће и речи. "Да види ако их има, у реду. Чини се све ради сада. Дакле, то има смисла? На неки начин? У реду. Тако да сада имам све вероватноће. Дакле, сада једина ствар која ми је остала је само да имају ту ствар да израчунава производ свих вероватноће када добијем стихове. >> Дакле, рецимо да желим да сада позове ова функција "класификују ()" и ствар која функција узима је само аргумент. Рецимо "Бејби, ја сам на ватру" и то је ће да схвати шта је вероватноћа да је Гага? Шта је вероватноћа да је Кејти? Звучи добро? Тако да сам само ћу морати да створи нова функција под називом "класификују ()" и то ће да се неки текст као добро. И поред лирицс Ја такође морају послати досије, вероватноће и речи. Зато ћу да пошаљем текст, досије, вероватноће, речи. >> Дакле, ово је узимање лирицс, досије, вероватноће, речи. Дакле, шта то уради? То је у основи ће ићи кроз све могући кандидати који сте имају као певач. А где су ти кандидати? Они су у игумани, зар не? Дакле, имам све оне тамо. Тако ћу имати речник од свих могућих кандидата. А онда за сваког кандидата у игумани, па то значи да ће то Гага, Кејти ако сам имао више било би више. Ја ћу почети рачунање ово вероватноћа. Вероватноћа као што смо видели у ПоверПоинт је досадашњи пута производ сваког од други вероватноће. >> Па ја могу да урадим исто овде. Ја само могу да урадим је вероватноћа у почетку само пре. Тако игумани кандидата. Зар не? И сад ја морам да вршите итерацију над свим Речи које имам у песмама да буде у стању да додате вероватноћу за сваки од њих, у реду? Дакле, "за реч у лирицс" шта ћу да урадите је да, ако је реч у "вероватноће (кандидати)", који значи да је реч која Кандидат има у својим лирицс - на пример, "беба" за Гагу - шта ћу да урадите је да вероватноћа ће се множи за 1 плус вероватноће од кандидат за ту реч. И зове се "реч". Ово подељен са бројем речи да имам за тог кандидата. Укупан број речи које ја имам за певача који ја гледам. >> "Елсе". то значи да је нова реч па то би било као на пример "Ватра" за Лејди Гага. Тако да сам само желим да радим преко 1 "Реч (кандидат)". Дакле, ја не желим да ставим овај термин овде. >> Дакле, то ће бити у основи копирање и лепљење ово. Али ја ћу избрисати овај део. Дакле, то је само да ће бити 1. преко тога. Звучи добро? И сада на крају, ја ћу само да принт име кандидата и вероватноћа да сте од има С на својим лирицс. Има смисла? А ја заправо ни не треба овај речник. Има смисла? >> Дакле, хајде да видимо да ли то стварно ради. Дакле, ако сам покренути ово, то није успело. Чекај једну секунду. "Речи (кандидати)", "речи (кандидати)", то је име низа. ОК Дакле, каже да постоји нека буба за кандидата у игумани. Дозволите ми да се смири мало. У реду. Хајде да покушамо. У реду. >> Тако да даје Кати Перри има ово вероватноћа овог пута 10 до минус 7, а Гага је ово пута 10 до минус 6. Па видиш то показује да је Гага има већу вероватноћу. Дакле "Баби, ја сам он Фире" је Вероватно Гага песма. Има смисла? Дакле, то је оно што смо урадили. >> Овај код ће бити постављен на мрежи, па ви можете да проверите. Можда користите нешто од тога јер ако желите да уради пројекат или нешто слично. У реду. Ово је био само да покаже шта рачунарска лингвистика код изгледа. Али сада идемо на више Висок ниво ствари. У реду. >> Тако су други проблеми ја је говорио о - Проблем сегментација је први од њих. Дакле, ви овде имате јапански. И онда видиш да нема размака. Дакле, ово је у основи значи да је врх столицу, зар не? Ви говорите јапански? То је врх столицу, зар не? >> СТУДЕНТСКА: Ја не знам шта канђи тамо је. >> ЛУЦАС ФРЕИТАС: Прошло [СПЕАКИНГ ЈАПАНЕСЕ] У реду. Тако да у основи значи столицу врху. Дакле, ако сте морали да ставите размак било би овде. И онда имате [? Уеда-сан. ?] Што у основи значи господине Уеда. А ви видите да је "Уеда" и имате простор и затим "Сан". Па видиш да овде ти "Уе" је као по себи. И овде има карактер поред њега. >> Дакле, то није као у тим језицима карактера што значи реч, тако да је само стави пуно простора. Карактери међусобно повезани. И они могу бити заједно као два, три, један. Дакле, ви заправо имате да створи неку врсту од начина стављања ове просторе. >> А ова ствар је да кад год се подаци из тих азијских језика, све долази унсегментед. Јер нико ко пише јапански или кинески пише са размацима. Кад год пишете кинески, Јапански само писати све без размака. То чак и не смисла да стави просторе. Па онда када добијете податке из неке Источноазијске језик, ако желите да заправо нешто са тим морате прво сегменту. >> Размислите да ради на примеру текстови без размака. Дакле, једини текст који имате ће бити реченице, зар не? Одвојен од периодима. Али онда имати само казну ће не стварно помоћи на давање информација ко ти текстови су по. Зар не? Дакле, требало би прво ставља просторе. Па како можеш то да урадиш? >> Дакле, онда долази идеја о језику Модел који је нешто стварно важно за рачунске лингвистика. Дакле, модел језик је у основи табела вероватноће да показује пре свега шта је вероватноћа да имају реч на језику? Дакле, показујући како често реч. А онда такође показује однос између речи у реченици. >> Дакле, главна идеја је, ако странац дошао вама и рекао да казна ви, шта је вероватноћа да, за пример, "ово је моја сестра [? ГТФ"?] је реченица коју је особа рекла? Дакле, очигледно неке реченице су чешћи од других. На пример, "добро јутро", или "добро ноћ ", или" здраво "је много више заједничког него већина реченица да имамо енглески. Па зашто су те реченице чешћи? >> Пре свега, то је зато што имате речи које су чешће. Тако, на пример, ако кажете, пас је велика, а пас је гигантски, ви обично вероватно чули пас је велика чешће јер "велики" је више честе у енглеском језику него "гигантски". Дакле, једна од ствари је реч фреквенција. >> Друга ствар која је заиста важно је само редослед речи. Дакле, то је уобичајено да се каже "мачка унутар кутије. "али ви не урадите обично видети у "кутији унутра је мачка." тако Ви видите да постоји неки значај у редоследу речи. Не можете само рећи да су два реченице имају исту вероватноћу само зато што имају исте речи. Ти стварно треба да брине о циљу, као добро. Смисла? >> Па шта да радимо? Дакле, оно што ја могу покушати да вас? Ја покушавам да вам оно што смо позвати н-грам моделе. Дакле н-грам модели у основи претпостављају да за сваку реч која имате у једној реченици. То је вероватноћа да то речи по зависи не само на учесталост те речи у језику, али и на речи које су га окружује. >> Тако, на пример, обично када видиш нешто слично или сте на Вероватно ће се видети именица после тога, зар не? Јер када имате предлог обично је потребно именицу после њега. Или ако имате глагол који је прелазан обично се дешава да се имају именица фразу. Дакле, то ће имати именицу негде око ње. >> Дакле, у основи, оно што ради је да се сматра да је вероватноћа постојања речи поред другог, када ви израчунавање вероватноћа реченице. И то је оно што је језик модел је у основи. Само кажем шта је вероватноћа поседовања специфичне реченица на језику? Па зашто је то корисно, у основи? И пре свега шта је н-грам модел, онда? >> Дакле, н-грам модел значи да свака реч зависи следећи Н минус 1 речи. Дакле, у основи, то значи да ако изгледам, на пример, у ЦС50 ТФ када Ја израчунавања вероватноће реченица, ви ћете бити као " вероватноћа да реч "" пута вероватноћа да " ЦС50 "пута вероватноћа да "ЦС50 ТФ." Дакле, у основи, ја рачунати сви могући начини да се протеже. >> А онда обично кад радиш ово, као у пројекту, можете ставити Н да буде ниска вредност. Дакле, обично имају биграми или триграма. Значи да сте управо рачунати две речима, група од две речи, или три речи, само за проблеме у раду. А и зато што можда ако имате нешто попут "Тхе ЦС50 ТФ." Када имају "ТФ", веома је важно да "ЦС50" је поред њега, зар не? Те две ствари су обично једни поред других. >> Ако мислите о "ТФ", то је вероватно ће имати шта то је класа за ТФ'инг. Такође, "" је заиста важно за ЦС50 ТФ. Али, ако имате нешто као "Тхе ЦС50 ТФ је отишао у класи и дали своје студенти неки слаткиш. "" Цанди "и" " нема везе стварно, зар не? Они су толико удаљене једна од друге да то није битно ста речи имате. >> Тако радећи биграмом или триграм, она само значи да сте ограничавајући себи да неке речи који су око. Смисла? Дакле, када желите да урадите сегментација, у основи, оно што желите да урадите је да види шта су сви могући начини да можете сегменту реченицу. >> Такав да видиш шта је вероватноћа сваког од тих реченица постоји у језику? Дакле, оно што радите је као, добро, нека ја покушати да стави размак овде. Тако сте ставили тамо размак а ви видите шта је вероватноћа реченице? Онда сте као, у реду, можда да није био тако добар. Зато сам ставио размак тамо и простор тамо, а ви израчунати вероватноћа сада, а ви видите да то је већа вероватноћа. >> Дакле, ово је алгоритам се зове ТАНГО сегментација алгоритам, који је заправо нешто што би било заиста кул за пројекат, који у основи има унсегментед текст који може бити јапански или кинески или можда Енглески без размака и покушава да стави размака између речи и то ради да помоћу модела језика и покушава да види шта је највиши вероватноћа можете добити. У реду. Дакле, ово је сегментација. >> Сада синтакса. Дакле, синтакса се користи за управо сад толико ствари. Дакле, за Грапх Сеарцх, за Сири за прилично било какве природне обрада језик имате. Дакле, оно што су важни ствари о синтакси? Дакле, реченица у целини имају оно што ми зовемо састојке. Које су врсте као група речи који имају функцију у реченици. И они не могу заиста бити један од другог. >> Дакле, ако ја кажем, на пример, "Лорен воли Мило. "Знам да је" Лорен "је саставни и онда "воли Мило "је такође још један. Зато што не могу да кажем као "Лорен Мило воли "да имају исто значење. Неће имати исто значење. Или ја не могу да кажем као "Мило Лаурен воли. "Не мора све исто што значи да ради. >> Дакле две важније ствари о синтакса су лексички врсте који је у основи функција вам да имају за речи саме од себе. Дакле, морате да знате да је "Лорен" и "Мило" су именице. "Љубав" је глагол. И друга важна ствар је да су Пхрасал врсте. Дакле, ви знате да је "воли Мило" је заправо вербална фраза. Дакле, када кажем "Лорен," Знам да Лорен ради нешто. Шта она ради? Она воли Мило. Тако да је цела ствар. Али његове компоненте су именица и глагол. Али заједно, они чине глаголска фраза. >> Дакле, шта можемо да урадимо у ствари са рачунска лингвистика? Дакле, ако ја имам нешто за пример "пријатељи Алисон." Ја видим да сам само нисам синтаксичка дрво ја бих знао да "Пријатељи" је именица фраза је именица и затим "од Аллисон" је предложни фраза у којој "од" је пропозиција и "Аллисон" је именица. Шта сам могао да урадим је научити свој рачунар да када имам именица фразу једну и онда предложни фраза. Дакле, у овом случају, "пријатељи" и онда "од Мило "Знам да то значи да НП2, други, поседује НП1. >> Тако да могу да створе неку врсту односа, нека функција за то. Дакле, кад год видим ову структуру, која поклапа тачно са "пријатељима Алисон, "Ја знам да је Алисон поседује пријатеље. Дакле, пријатељи су нешто да Алисон има. Има смисла? Дакле, то је у основи оно што Графикон Тражи ради. То само ствара правила за многе ствари. Тако "пријатељи Аллисон", "моји пријатељи који живе у Кембриџу, "" моје пријатеље који иду на Харвард. "То ствара правила за све те ствари. >> Сада машинско превођење. Дакле, машина превод је такође нешто статисти. А заправо, ако се укључе у рачунска лингвистика, много твоје ствари ће бити статистика. Дакле, као што сам радио пример са доста вероватноће да сам био обрачуна, а онда ти се ово Веома мали број да је коначна вероватноћа, а то је оно што вам даје одговор. Машина превод такође користи статистички модел. А ако желите да мислим о машини превод на најједноставнији могући начин, оно што можете да мислите да је само преводити реч по реч, зар не? >> Када сте учења језика за Први пут, то је обично оно што радиш, зар не? Ако желите можете превести реченицу на вашем језику на језику учите, обично прво, ти превести сваки од речи појединачно, а онда покушавате ставити речи на своје место. >> Дакле, ако сам хтео да преведе ово, [СПЕАКИНГ ПОРТУГАЛСКИ] што значи "бела мачка побегла." Да сам хтео да га преведе из Португалски на енглески, оно што сам могао је, прво, ја само преводити реч по реч. Дакле, "О" је "," "Гато," "мачка", "Бранко", "бело", а затим "фугио" је "Побегао." >> Па онда имам све речи овде, али они нису у реду. То је као "мачка бели побегао" који је неграматички. Дакле, онда ја могу да имам други корак, који ће бити проналажење идеалног позиција за сваки од речи. Тако знам да сам заправо желе да имају "Бела мачка" уместо "Цат Вхите." Тако шта ја могу да урадим је, највише наиван метод би било да створити све могућих пермутација речи, позиција. А онда видите који се има Највећа вероватноћа према на мом моделу језика. И онда када сам наћи онај који има највиши је вероватноћа, што је вероватно "бела мачка побегла," то је мој превод. >> И то је једноставан начин да се објасни како пуно машинског превођења алгоритми раде. Да ли то смисла? То је такође нешто заиста узбудљиво да се ви можда истражују за коначни пројекат, да? >> СТУДЕНТСКИ: Па, рекли сте да је наиван начин, тако што је не-наивни начин? >> ЛУЦАС ФРЕИТАС: нису наиван начин? У реду. Дакле, прва ствар која је лоше око овај метод је да управо сам превео речи, реч по реч. Али понекад имате речи које може имати више превода. Ја ћу покушати да мисле нечега. На пример, "Манга", у португалском лименци бити или "мангле" или "рукав." Тако када покушавате да преведете реч по реч, могло би се ти дајем нешто што нема смисла. >> Дакле, ви у ствари желите да погледате све могући преводи речи и види, пре свега, шта је ред. Причали смо о пермутатинг ствари? Да бисте видели све могуће налоге и изабрати онај са највишим вероватноћа? Такође можете да изаберете све могуће преводи за сваки реч и онда видети - у комбинацији са пермутација - којих једна има највећу вероватноћу. >> Плус, можете да погледате не само речи већ фразе. тако да можете да анализирате односе између речи и онда се бољи превод. Такође нешто друго, тако да овај семестар Ја заправо радим истраживања у Кинески-енглески машинско превођење, тако превођење из Кинески на енглески језик. >> И нешто што ми радимо је, поред коришћења статистички модел, који је управо види вероватноће види неки положај у једној реченици, ја сам заправо такође додао неке синтаксе на мој модела, говорећи, ох, ако видим овакве изградње, ово је оно што ја желим да га променити кад сам превести. Дакле, можете да додате и неку врсту елемент синтаксе да би превод ефикасније и прецизнији. У реду. >> Дакле, како можете да почнете, ако желите да уради нешто у рачунарској лингвистика? >> Прво, бирате пројекат који укључује језике. Дакле, ту је тако много тамо. Има толико ствари које можете да урадите. И онда могу да се сетим модела које можете да користите. Обично то значи размишљање претпоставке, као као, ох, кад сам био као размишљања стихова. Била сам као, добро, ако желим да схватим од који је написао ово, ја вероватно желите да погледате речима особа користи и види ко користи ту реч врло често. Дакле, покушајте да претпоставке и покушати да мислим на моделе. А онда можете да претражујете на мрежи за врста проблема који имате, и то ће предложити да вас моделе који можда узору добро ту ствар. >> А такође можете увек ми е-маил. ме@лфреитас.цом. И ја само могу да одговорим на ваша питања. Ми чак може срести горе тако да могу дају предлоге о начинима спровођење ваш пројекат. И мислим, ако се укључе у рачунска лингвистика, то ће да буде велики. Ти ћеш видети тамо је тако много потенцијала. И индустрија жели да запосли ти тако лоше због тога. Тако да се надам да сте уживали ово. Ако ви имате било каква питања, можете да ме питате после овога. Али хвала ти.